Найти и обезвредить: как Big Data и Machine Learning сканируют ваши соцсети для предупреждения преступлений

Big Data, Большие данные, предиктивная аналитика, цифровизация, цифровая трансформация, машинное обучение, Machine Learning, большие данные и машинное обучение для полиции МВД

В этой статье мы продолжим рассматривать примеры использования технологий Big Data и Machine Learning в задачах профилактики и расследовании преступлений. Сегодня читайте, как машинное обучение и большие данные позволяют предупредить массовые убийства и выявить закладки наркотиков с помощью методов графовой аналитики и автоматической оценки сообщений в соцсетях.

Machine Learning против Колумбайна и буллинга в соцсетях

В 2018 и 2019 годах по России прокатилась волна массовых убийств в образовательных организациях. Несчастья случились в Керче, Перми и Вольске, где пара школьников напала на своих одноклассников и учителей, нанося им тяжелые ранения, вплоть до смерти. Подростки вдохновлялись опытом своих заокеанских сверстников, которые в 1999 году в американской школе Колумбайн жестоко расстреляли 13 человек, ранили более 20 и застрелились сами. В сентябре 2019 года МВД удалось предотвратить подобное событие в Кирове, выявив подростка, интересующегося темой школьного насилия и готовившегося совершить его в одной из школ с использованием холодного оружия и самодельного взрывного устройства [1].

Предупредить такие преступления можно, определив потенциально опасность по поведению пользователя соцсети: в большинстве случаев преступники вступали в тематические группы, размещали на своей странице агрессивный контент и даже иногда прямым текстом заявляли о своих намерениях. По статистике, посты с угрозами появляются менее чем за 72 часа до совершения преступных действий. Поэтому у современных следователей есть возможность оценить угрозу, определить местонахождение потенциального преступника и предотвратить злодеяние [2].

Для выявления подобных инцидентов отечественная ИТ-компания «Сеуслаб» в конце 2018 года разработала систему поиска, мониторинга и анализа открытой информации из пространства социальных медиа. Продукт под названием «Георгий Победоносец» реализован на базе технологий Big Data и включает модули Machine Learning для интеллектуального анализа профиля пользователя на предмет его вовлечения в социально опасные направления: экстремизм, колумбайн, терроризм, призывы к суициду [3]. Система собирает открытые для всеобщего просмотра данные из социальных сетей «ВКонтакте», Facebook, Одноклассники, Instagram и Telegram, формируя основе множества переменных рейтинг вовлеченности пользователя в деструктивные течения. Полученные таким образом оценки передаются психологу для дальнейшего принятия решения о степени риска для конкретного подростка [4].

Я знаю, кто твой друг: графовая аналитика Big Data

Похожим образом работает другой продукт компании «Сеуслаб», «АРМ аналитика СЕУС», который накладывает результаты анализа распространения информации в соцсетях на карту территорий. При этом выполняется автоматическая интеграция с данными из официальных статистических источников. Таким образом в сентябре 2018 года была обнаружена взаимосвязь потока беженцев из Сирии с распространением материалов экстремистского и террористического характера в информационном пространстве стран СНГ [4]. За рубежом ярким примером такой системы является продукт Watson Analytics от IBM, который позволяет оценивать, имеет ли человек преступное намерение, а также средства и возможности для осуществления угрозы [2].

Важно, что алгоритмы Machine Learning, реализованные в подобных системах, позволяют выявить не только одиночного преступника, а обнаружить целую группировку, установив цепочку взаимоотношений между людьми по методу социальных графов [5]. Например, именно такая функциональная возможность присутствует в Big Data системе «Зеус», которая используется полицией с 2016 года в Новосибирской, Самарской и Тюменской областях, ХМАО, Самаре и на Алтае. Продукт позволяет отслеживать поведение пользователя в соцсети и строит график социального окружения, устанавливая возможную связь между пользователями на базе анализа друзей, родственников, опосредованных друзей, мест проживания, общих групп, лайков и репостов. В отличие от вышеупомянутой системы «Георгий Победоносец», «Зеус» может получать доступ и к личной информации пользователя, например, закрытой переписке и публикациям, скрытым от всеобщего обозрения. Об этом свидетельствует анализ функциональных требований к этому решению [6]. Такая система активно использует технологии Big Data, например, реализовать полнотекстовый поиск можно с помощью Amazon Elasticsearch или Apache Solr. Сбор и агрегация сообщений может осуществляться в топики Apache Kafka, чтобы затем анализироваться моделями машинного обучения через Spark MLLib.

Оставив за рамками вопросы этичности чтения личной переписки, обратим внимание на возможности современных ИТ в системах государственного мониторинга. К примеру, алгоритмы Machine Learning для распознавания графических фотографий позволяют идентифицировать т.н. «закладки» — места хранения наркотиков [7]. А аналитические инструменты больших данных позволяют вычислить не географическое положение таких хранилищ, но и раскрутить анонимную цепочку наркотрафика, сопоставив геолокацию с другими, на первый взгляд, не связанными фактами. К примеру, круг интересующихся лиц, случаи причинения насилия и вреда здоровью в той местности и в конкретный временной промежуток и т.д. Таким образом, не случайно исследовательское агентство Gartner включил графовую аналитику на базе Big Data и Machine Learning в ТОП-10 трендов на 2020 год в области Data&Analytics [8].  

соцсети, графовая аналитика больших данных
Анализ соцсетей — одно из самых востребованных применений Big Data и Machine Learning

В следующей статье мы продолжим рассматривать возможности графовой аналитики больших данных в профилактике и раскрытии преступлений на примере антифрод-систем. Другие практические примеры цифровизации государственного управления и кейсы реального бизнеса вы узнаете на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации руководителей и ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data) в Москве:

расписание компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Смотреть расписание занятий
регистрация на компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Зарегистрироваться на курс

Источники

  1. https://www.vesti.ru/doc.html?id=3192409
  2. https://www.ibm.com/case-studies/tactical-institute
  3. https://tass.ru/v-strane/5867824
  4. https://v-kurse.ru/russia/news/science/it_na_strazhe_v_permi_razrabotali_sistemu_borby_s_kolumbaynom_v_sotssetyakh_7641158/
  5. https://ru.wikipedia.org/wiki/Социальный_граф
  6. http://www.tadviser.ru/index.php/Продукт:Зеус_Программно-аналитический_модуль_мониторинга_социальных_сетей
  7. https://www.bbc.com/russian/features-48928092
  8. https://www.gartner.com/smarterwithgartner/gartner-top-10-data-analytics-trends/