Алгоритм машинного обучения распознает Android-приложения внутри трафика Tor
Итальянские специалисты создали алгоритм машинного обучения, способный распознавать Android-приложения с точностью до 97%.
Специалисты Римского университета Сапиенца разработали алгоритм, способный, по их словам, выявлять используемые Android-приложения путем анализа трафика Tor с точностью до 97%. Алгоритм не является скриптом для деанонимизации пользователей, поскольку не способен раскрывать реальные IP-адреса или другую идентифицируемую информацию. Тем не менее, с его помощью можно определить, работает ли пользователь Tor с каким-либо Android-приложением. Исследование специалистов Римского университета Сапиенца основывается на предыдущих исследованиях, посвященных анализу TCP-пакетов внутри трафика Tor и выявлению отличий между трафиком браузеров, электронной почты, переписки, стриминга аудио/видео, передачи файлов, сервисов VoIP и пиринговых сетей. Итальянские ученые использовали эту концепцию анализа TCP-пакетов внутри трафика Tor с целью выявления особенностей трафика определенных Android-приложений.
Специалисты создали алгоритм машинного обучения и натренировали его распознавать в трафике Tor характерные особенности десяти Android-приложений: браузера Tor для Android, Instagram, Facebook, Skype, uTorrent, Spotify, Twitch, YouTube, DailyMotion и Replaio Radio. После обучения алгоритм смог определять использование вышеперечисленных приложений с точностью до 97,3%.
Однако не все так радужно, как может показаться на первый взгляд. Для начала, алгоритм может распознавать трафик приложений только при отсутствии фонового трафика в канале связи. То есть, определить приложение по его трафику возможно только в случае, если на устройстве пользователя запущено только одно это приложение. Если на устройстве работает много программ, TCP-трафик запутывается, и алгоритму гораздо сложнее различить шаблоны, характерные для каждого отдельного приложения. В таком случае точность распознавания существенно снижается.
Помимо прочего, алгоритм испытывает трудности с определением трафика некоторых приложений. К примеру, он путает трафик стриминговых видеосервисов, таких как Spotify и YouTube. Кроме того, есть проблемы с выявлением приложений, «затихающих», когда пользователь работает с ними (к таковым в частности относятся браузер Tor, Instagram и Facebook).