Большая стирка: Big Data и Machine Learning против отмывания денег

Сегодня мы продолжим разговор про антифрод-системы и расскажем, как аналитика Big Data и модели Machine Learning помогают бороться с отмыванием денег. Читайте в нашей статье, зачем нужен светофор транзакций, что такое AML-системы и при чем тут графы больших данных.

Светофор транзакций и Big Data в антифрод-системах

Сначала рассмотрим, как работают антифрод-системы. Прежде всего транзакция оценивается по критериям ограничений и фильтрам, о которых мы писали здесь. В частности, проверяется соответствия суммы платежа установленному лимиту, попадание IP-адреса плательщика в привычный регион пользования, корреляция с ранее выявленными шаблонами клиентского поведения и т.д. По результатам такого анализа транзакция маркируется одной из следующих цветовых меток [1]:

зеленым помечены операции с низкой вероятностью мошенничества;
желтым отмечаются подозрительные транзакции с шансом мошенничества выше среднего, поэтому для проведения платежа необходимо дополнительное внимание;
красный цвет сигнализирует о высокой вероятности мошенничества, поэтому для осуществления таких платежей требуется документальное подтверждение аутентичности владельца карты.

С точки зрения технологий Big Data антифрод-системы включают следующие возможности [2]:

текстовая аналитика для поиска, категоризации контента и извлечения сущностей, например, с помощью Apache Solr или Amazon Elasticsearch;
расчет статистических параметров для выявления отклонений, которые указывают на вероятность мошенничества;
графовая аналитика для идентификации взаимосвязей и выявления закономерностей;
Gap-тестирование для обнаружения недостающих элементов в цепочке последовательных данных;
подтверждение даты входа для оценки неподходящего или подозрительного времени ввода информации;
модели машинного обучения на основе исторических данных, чтобы кластеризовать особенности пользовательского поведения для формирования шаблонов, а также выявления новых аномалий. Может быть реализовано на базе Apache Spark MLLib.

Для повышения точности аутентификации владельца карты некоторые антифрод-системы также подключают биометрические модули, чтобы с помощью Machine Learning алгоритмов распознавания речи идентифицировать личность владельца карты [2].

Многие из вышеперечисленных методов активно применяются не только для предупреждения мошенничеств на уровне одного пользователя, но и в гораздо больших масштабах. В частности, аналитика больших данных и машинное обучение помогают расследовать финансовых махинаций по отмыванию денег и выявлять преступные цепочки. Как это устроено, мы рассмотрим далее.

Графовые алгоритмы в Apache Spark

Код курса

GRAS

Ближайшая дата курса

16 мая, 2024

Продолжительность

16 ак.часов

Стоимость обучения

48 000 руб.

Как работает AML: графовая аналитика больших данных и Machine Learning

Ежегодный объем отмываемых доходов оценивается минимум в 2-5 % мирового ВВП, что составлет от $800 млрд до $2 трлн. Отмывание денег – это маскировка или скрытие источника происхождения средств с помощью специальных инструментов и приемов: распыление, обналичка, подтасовка и пр. Обычно после зачисления на счёт финансы проходят сложный путь из множества операций прежде чем попадут в активы, не вызывающие подозрений. Преступники используют любые недостатки глобальной финансовой системы, чтобы запутать следы [3].

Инструменты против отмывания денег, полученных преступным путем, финансирования терроризма и создания оружия массового уничтожения принято называть AML (Anti-Money Laundering). Оставив за рамками данной статьи юридические тонкости, сосредоточимся на технических задачах этой работы и методах ее решения с помощью технологий Big Data и Machine Learning. В этом случае основной целью AML можно считать скорейшее выявление компании, которая с большой долей вероятности занимается
отмыванием доходов. При этом необходимо соблюсти баланс между полнотой определения преступлений и долей ложных срабатываний [4].

Таким образом, технологии больших данных и машинного обучения в AML задействованы в следующих процессах [3]:

выявление подозрительных схем от обнаружения нарушений до отправки отчётности;
валидация для автоматизации обновления ML-моделей (управление и оптимизация);
сигнализация о необходимости ручных проверок для сложных или узкоспециализированных расследований с участием человека, например, связанных с международными криминальными организациями.

противодействие отмыванию денег, AML, большие данные и машинное обучение против отмывания денег — Процессы AML, в которых используются технологии больших данных и машинного обучения

Для этого используются следующие средства науки о данных (Data Science) [3]:

обогащение данных — автоматическое агрегирование истории о транзакциях, сведений о клиентах и геоданных.
скоринг предупреждений — байесовские алгоритмы для сравнительного ранжирования всех объектов исследования;
оценка клиентских рисков — логистическая регрессия для эмпирической оценки риска причастности клиента к отмыванию;
автоматизированная разработка сценариев – деревья решений для проектирования логики обнаружения подозрительных случаев;
сегментация и отклонение от группы – алгоритмы машинного обучения без учителя для выявления поведения объекта, не свойственного для прочих ему подобных;
обнаружение редких событий – модели Machine Learning кластеризации для поиска объектов, похожих на исследуемый, например, по спискам подозрительных клиентов, которые рассылают регуляторы;
распознавание образов – применение когнитивных вычислений для идентификации и классификации товарно-сопроводительных документов.

Графовые алгоритмы. Бизнес-приложения

Код курса

GRAF

Ближайшая дата курса

20 мая, 2024

Продолжительность

24 ак.часов

Стоимость обучения

54 000 руб.

При этом средства графовой аналитики способны выявить не только взаимосвязи между различными контрагентами в рамках преступной схемы оптимизации налогов, когда финансы размываются между фирмами-однодневками и офшорными счетами. Также такие технологии больших данных могут определить синтетические учетные записи, когда идентификационная информация о контрагенте собрана у множества разных физических и юридических лиц. Например, преступник смешивает и сопоставляет номера СНИЛС, адреса, телефоны и электронную почту, чтобы создать искусственные удостоверения личности, которые затем используются для открытия банковских счетов и новых кредитных карт, а также личных кредитных линий. Графовая аналитика Big Data позволяет проследить путь от одного счета к другому, чтобы предупредить или раскрыть такое преступление по «горячим следам» [5]. В следующей статье мы рассмотрим, как эти и другие методы Data Science помогают расследовать и предупреждать мошенничества в сфере страхования.

графовая аналитика Big Data — Пример мошеннической сети с синтетическими учетными записями

Другие практические кейсы цифровизации государственного управления и примеры реального бизнеса вы узнаете на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации руководителей и ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data) в Москве:

Смотреть расписание

Записаться на курс

Источники