Как машинное обучение защищает большие данные: ML в Cybersecurity

Big Data, Большие данные, Machine Learning, машинное обучение, защита информации, безопасность, Security

Сегодня мы расскажем, как машинное обучение (Machine Learning, ML) используется в информационной безопасности для защиты данных от утечек, несанкционированного доступа, неправомерного использования пользовательских привилегий, вирусных атак и прочих угроз cybersecurity. Читайте в нашей статье, как нейросети и другие ML-модели выявляют мошеннические операции и другие аномалии в Big Data системах и корпоративной инфраструктуре.

Зачем машинное обучение нужно в Cybersecurity: 5 направлений автоматизации

Традиционные методы защиты данных от утечек и вирусных атак уже не справляются с этими задачами в полной мере. Например, в 2019 году практически каждый месяц персональные данные россиян попадали в открытый доступ. В большинстве случаев это происходило из-за некорректной настройки облачных серверов или недобросовестного поведения отдельных сотрудников крупных банков и телефонных операторов. В 2018 году от утечек информации пострадали ЦРУ, ФБР, министерства обороны США, Великобритании, Международный олимпийский комитет, Народный банк Китая, сеть отелей Marriott, а также пользователи сервисов BitTorrent, GitHub, Skype, Tinder, WhatsApp, YouTube. Подробнее о самых крупных утечках данных за последние несколько лет мы рассказывали здесь. Чтобы предупредить подобные инциденты в сфере информационной безопасности и снизить ущерб от их возникновения, специалисты cybersecurity подключают Machine Learning к существующему инструментарию.

Благодаря успеху в решении задач кластеризации и классификации, машинное обучение отлично справляется с определением аномалий. По этому принципу построены многие методы обеспечения cybersecurity. В частности, Machine Learning используется в следующих случаях [1]:

  • распознавание фальшивых документов, биометрических данных и прочих идентификаторов;
  • выявление мошеннических операций (антифрод, antifraud), например, когда сценарий использования банковской карты отличается от привычного;
  • обнаружение утечек из-за неправомерных действий привилегированных пользователей, например, администраторов, которые крадут или удаляют важные данные. Алгоритмы Machine Learning позволят соотнести несколько признаков (объем и тип данных, время, протокол, адрес получателя), чтобы отделить плановую выгрузку новой версии базы данных или дистрибутивов для удаленных офисов от кражи информации.

Кроме того, машинное обучение успешно используется в разработке антивирусного ПО, позволяя автоматически выявлять новые вредоносные программы на основе ретроспективного анализа уже накопленной базы вирусных сигнатур. Обучившись на большом количестве образцов ML-модель способна обобщать информацию и детектировать будущие угрозы [2].

Еще один полезный вариант использования (use case) машинного обучения в кибербезопасности – это автоматический мониторинг поведения комплексных Big Data систем и корпоративной ИТ-инфраструктуры. Например, в Хоум Кредит Банке специалистам по эксплуатации банковских сервисов Machine Learning помогает своевременно определить аномальную активность отдельных компонентов или пользователей [3].

Big Data, Большие данные, Machine Learning, машинное обучение, защита информации, безопасность, CyberSecurity
Информационная безопасность и защита данных — еще одно приложение Machine Learning

Как Machine Learning защищает большие данные и другую информацию

Рассмотрим механику работы Machine Learning в защите данных, разделив ML-методы на две категории: обучение с учителем и без учителя. 

При обучении с учителем во входном датасете имеется набор свойств объекта X и соответствующих меток объекта Y. Необходимо создать модель, которая будет давать корректные определения Y’ для ранее неизвестных тестовых объектов X’. В качестве X могут выступать некоторые свойства содержимого или поведения файла/запроса (статистические данные, список используемых API-функций и т.д.). Выход Y можно классифицировать как «безвредный» или «вредоносный» объект: вирус, троянец-загрузчик, спам-реклама и пр. [4]. Таким образом, обучение с учителем позволит классифицировать новые данные, выявляя в них нечто аномальное, чтобы обнаружить загрузку ранее неизвестного вредоносного кода, спам и фишинговые атаки, DGA-домены (автоматически создаваемые вредоносные домены), коммуникации с командными серверами и ботнетами. Алгоритмы классификации (деревья решений, случайный лес, метод опорных векторов) помогут предсказать категорию угрозы/уязвимости. Таким образом можно детектировать, например, атаки SQL-Injection или подозрительный трафик. Регрессионные модели понадобятся для прогнозирования конкретных значений, в частности, когда наиболее вероятен рост атак [1]. Поскольку обучение с учителем иначе называют обучением по прецедентам, можно сказать, что этот метод основан на подходе Case Based Reasoning (CBR), в рамках которого решение новой задачи выполняется на базе рассуждения по аналогии, путем вывода предположений из подобных случаев (прецедентов).

Методы машинного обучения без учителя направлены на выявление скрытых структур данных, позволяя обнаруживать группы схожих объектов или взаимосвязанные свойства. Для этого используются алгоритмы кластеризации, которые позволяют эффективно разделять большие объемы поступающих неизвестных файлов или запросов на кластеры, которые могут быть обработаны автоматически благодаря наличию уже известного объекта в их составе [4]. Таким образом можно обнаружить, к примеру, утечки информации вследствие неправомерных действий пользователей, анализируя логи их поведения и состояние данных. Сегодня наиболее популярным ML-методом обучения без учителя считаются нейросетевые модели [1]. Многие Big Data фреймворки (Apache Spark, Flink, Storm), ориентированные на интерактивную обработку потоковой информации, позволяют использовать Machine Learning для анализа пользовательских действий в режиме реального времени, подключая для этого соответствующие библиотеки.

Сочетание разных методов машинного обучения повышает эффективность распознавания вредоносного ПО и предупреждения атак. Таким образом реализуется поведенческая аналитика, например, когда логгируется, а затем анализируется последовательность событий в период выполнения процесса. Классифицировав событие, ML-модель сводит его к набору бинарных векторов и обучает глубокую нейронную сеть отличать опасную активность от логов легитимных событий [4].

Big Data, Большие данные, Machine Learning, машинное обучение, защита информации, безопасность, Security
Технологии больших данных и машинного обучения могут повысить эффективность уже существующих методов cybersecurity

В следующей статье мы расскажем о том, как машинное обучение используется в реальных системах обеспечения информационной безопасности Big Data проектов и способно ли оно полностью заменить другие методы cybersecurity. А практические советы о том, как защитить свои большие данные, вы узнаете на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data) в Москве:

расписание компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Смотреть расписание занятий
регистрация на компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Зарегистрироваться на курс

Источники

  1. https://www.it-world.ru/cionews/manage_secure/141988.html
  2. https://securelist.ru/five-myths-about-machine-learning-in-cybersecurity/29454/
  3. https://habr.com/ru/company/homecredit/blog/479712/
  4. https://www.kaspersky.ru/enterprise-security/wiki-section/products/machine-learning-in-cybersecurity