Искусственный интеллект против наркотиков: как Big Data и Machine Learning борются с отравой

Big Data, Большие данные, предиктивная аналитика, цифровизация, цифровая трансформация, машинное обучение, Machine Learning, искусственный интеллект против наркотиков

Цифровизация и искусственный интеллект повышают эффективность не только коммерческого бизнеса, промышленных производств и государственных услуг. В этой статье мы расскажем, как технологии больших данных (Big Data) и машинное обучение (Machine Learning) борются с незаконным оборотом наркотиков. Читайте в сегодняшнем материале 3 примера практического использования науки о данных (Data Science) в профилактике и расследовании преступлений.

Нейросети ищут сайты по продаже запрещенных веществ

Сегодня в интернете можно купить все, что угодно. В том числе и наркотики, информация о которых замаскирована под текстовое описание совершенно легальных товаров. Типичные методы автоматизированной обработки текста на базе алгоритмов Machine Learning не справляются с задачей идентификации запрещенного контента, гарантируя точность не выше 70%. Кроме того, сообщения о продаже наркотиков могут быть размещены на посторонних сайтах в комментариях к новостям. Таким образом, бороться с этим злом путем прямой блокировки ресурса нецелесообразно. Поэтому сотрудники лаборатории искусственного интеллекта Института систем информатики им. А. П. Ершова СО РАН в декабре 2019 года представили метод, способный с точностью 86% распознавать запрещенное содержание сайтов, даже если оно представлено в завуалированной форме.

Эта система машинного обучения способна фильтровать опасную информацию от нейтральной и обосновывать свои выводы. Метод основан на комбинации искусственных нейронных сетей и экспертных знаний лингвистов и специалистов по Machine Learning. Нейросеть ищет определенный контент по словам, присваивая им весовые коэффициенты и определяя вероятность того, что конкретный сайт содержит запрещенную информацию.

Сначала исследуется структура контента, затем с помощью словаря выполняется лингвистический анализ содержания. Далее вычисляется оценка связи текста с темой наркотиков. При этом учитывается ссылочный характер данных, когда одно сообщение на веб-странице ссылается на другие источники. Благодаря анализу таких семантических цепочек обеспечивается постоянная проверка подозрительной лексики и пополнение словарной базы. Для обновления словаря названий наркотических средств привлекаются эксперты-наркологи, которые знают этот сленг. Разработка сибирских ученых в виде плагина WordPress может использоваться специалистами Роскомнадзора и сотрудниками полиции, а также простыми обывателями – владельцами сайтов на этой CMS-платформе [1].

Big Data против продавцов наркотиков

Продолжая тему обнаружения каналов сбыта наркотических веществ, отметим тесную интеграцию онлайн-ресурсов с офлайн-точками. Наверняка, вы хотя бы раз замечали наборы цифр, крупно написанные вандалами на стенах домов, заборах и других подобных поверхностях вдоль дорог или пешеходных тротуаров. На самом деле эти цифры – телефоны и аккаунты наркоторговцев в ICQ. Выследить преступников по IP сложно, т.к. зачастую они выходят в сеть через прокси-сервера, интернет-клубы и другие анонимайзеры, а также меняют адреса, пароли и номера. Дополнительную сложность в поимке преступников вносит простота электронных расчетов между покупателями и продавцами наркотиков через электронные кошельки [2]. Тем не менее, технологии больших данных позволяют собирать и анализировать целые цепочки, на первый взгляд, абсолютно не связанных событий. Например, если рассматривать надпись на стене не только как акт вандализма, но и потенциальный канал сбыта отравы, можно определить частоту контактов по этому номеру и даже расследовать цепь финансовых переводов. Также фиксация правонарушений, связанных с надписями позволит выявить неблагополучные места с точки зрения городского планирования и принять соответствующие меры: улучшить местное освещение, демонтировать ненужный забор или заброшенное здание и т.д. Примеры таких кейсов мы рассматривали в статье про Crime Mapping. Однако, для этого необходимо сначала определить данные для анализа, а затем автоматизировать процессы их сбора и обработки с помощью инструментов Big Data.

Искусственный интеллект против наркотиков
Пример рекламного канала по сбыту запрещенных веществ в виде вандальной надписи на городской стене

 

Machine Learning vs наркокурьеры: выигрывает искусственный интеллект

Интеллектуальные системы видеонаблюдения, установленные в аэропортах, ж/д вокзалах и других местах пересечения государственных границ, способны выявить лиц, которые перевозят наркотики. Например, даже если наркокурьер транспортирует запрещенные вещества, поместив их в себя ректально или интравагинально, это можно выявить по ряду характерных признаков. В частности, курьер старается не допустить перенапряжения мышц, принимая специфические позы (перенос веса на одну ногу с опорой на руку, подгибание одной ноги под себя и пр.). Также к специфичному поведению относится некоторая заторможенность движений, отсутствие/малое количество багажа или камуфлирование с помощью объемных, но легких сумок [3]. Современные алгоритмы машинного обучения, встроенные в Big Data систему распознавания лиц, способны идентифицировать людей с такими признаками. Таким образом, средства Data Science помогают сотрудникам полиции выявлять преступников и наращивать экспертизу за счет накопления данных и самообучения в режиме онлайн. Точность распознавания потенциальных наркокурьеров можно повысить, сочетая интеллектуальное видеонаблюдение с анализом контекстных данных. Например, добавить в алгоритм Machine Learning задачу оценки близости пунктов отправления и назначения с маршрутами трафика запрещенных веществ. В следующей статье мы рассмотрим, как машинное обучение и другие технологии больших данных используются полицией для сканирования соцсетей с целью предупреждения и расследования преступлений.

Еще больше практических примеров по цифровизации государственного кейсов и бизнеса вы узнаете на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации руководителей и ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data) в Москве:

расписание компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Смотреть расписание занятий
регистрация на компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Зарегистрироваться на курс

Источники

  1. http://www.sib-science.info/ru/news/v-internete-24122019
  2. https://www.revda-info.ru/2014/07/30/zakras-narkomanskie-nomera/
  3. https://cyberleninka.ru/article/n/o-vyyavlenie-lits-perevozyaschih-narkoticheskie-sredstva-cherez-tamozhennuyu-granitsu/viewer