Насколько уязвимы биометрические Big Data системы: причины ошибок и метрики их измерения

Big Data, Большие данные, предиктивная аналитика, бизнес-процессы, цифровизация, цифровая трансформация, бизнес, защита информации, Security, безопасность, машинное обучение, Machine Learning

В прошлой статье мы рассказывали о самых крупных утечках данных из биометрических Big Data систем в России и за рубежом. Сегодня рассмотрим характерные уязвимости биометрии: естественные ограничения методов идентификации личности с помощью машинного обучения (Machine Learning, ML) и целенаправленные атаки.

2 главные уязвимости биометрических Big Data систем на базе Machine Learning

Прежде всего отметим, что для биометрических систем характерны те же факторы возникновения рисков, как и для любого Big Data проекта. В частности, здесь мы анализировали, почему случаются утечки данных: в основном, виноваты люди (сторонние хакеры или внутренние пользователи), инфраструктурные проблемы, уязвимости программного обеспечения или сторонние сервисы. Однако, помимо этих причин, биометрии свойственны специфические проблемы, непосредственно связанные с самими алгоритмами распознавания личности на базе методов машинного обучения. Поэтому их называют естественными ограничениями биометрических методов идентификации. При этом могут возникнуть ошибки 1-го и 2-го родов по матрице ошибок (confusion matrix) [1]:

  • ложное соответствие из-за вторжения злоумышленника, который сумел обмануть ML-алгоритмы распознавания, выдав себя за другого пользователя – вариант False Positive (ложноположительное решение, FP), ошибка 1-го рода;
  • ложное несоответствие и отказ в обслуживании, когда ML-модель не смогла распознать легитимного пользователя, не найдя в базе подходящего цифрового шаблона для представленных биометрических персональных данных (БПД) – вариант False Negative (ложноотрицательное решение, FN), ошибка 2-го рода.

Ошибка 2-го рода, в основном, связана с качеством алгоритмов распознавания и/или качеством входных данных. А ошибки 1-го рода, как правило, возникают вследствие атаки подделки, когда фальсифицируется биометрическая черта, используемая в ML-алгоритмах. Например, искусственный палец с нужными отпечатками, трехмерная маска лица или даже реальная часть тела легитимного пользователя, отрезанная от него [1]. Именно такой инцидент произошел с владельцем премиального автомобиля в Малайзии в 2005 году, которого покалечили преступники при попытке угнать его машину [2]. Впрочем, злоумышленники успешно применяют и менее травматичные способы изготовления поддельных биометрических носителей. В частности, хакеры имитируют нужные отпечатки пальцев с помощью силиконовых пленок, графитового порошка и суперклея, а фото лица – гипсовыми копиями головы и масками. Такие методы позволяют обмануть простые биометрические системы идентификации в смартфонах с не слишком сложными ML-алгоритмами и/или не самыми чувствительными датчиками [3].

На самом деле оба варианта ложных срабатываний весьма нежелательны, т.к. влекут за собой неправомерные действия с информацией (в случае FP) или недовольство пользователя (в случае FN), что приводит к репутационным потерям и увеличивает вероятность оттока клиента (Churn Rate).

cybersecurity, ошибки распознавания
Атака подделки с помощью искусственного пальца

 

Как оценить качество распознавания: FAR, FRR и другие метрики биометрии

Для оценки качества распознавания в биометрических системах используются следующие коэффициенты [2]:

  • ложного приема (FAR, False Acceptance Rate) – вероятность ложной идентификации, когда ошибочно признается подлинность пользователя, не зарегистрированного в системе;
  • ложного совпадения (FMR, False Match Rate) – вероятность того, что входной образец неверно сравнивается с несоответствующим шаблоном в базе данных;
  • ложного отклонения (FRR, False Rejection Rate) – вероятность того, что система биоидентификации не признает подлинность зарегистрированного в ней пользователя;
  • ложного несовпадения (FNMR, False Non Match Rate) – вероятность ошибки в определении совпадений между входным образцом и соответствующим шаблоном из базы данных;
  • отказа в регистрации (FER, Failure to Enrol Rate)– вероятность того, что система не сможет создать шаблон из входных биометрических данных из-за их низкого качества или других помех;
  • ошибочного удержания (FTC) – вероятность того, что система не способна определить корректно представленные БПД.

Для количественного расчета вышеперечисленных коэффициентов составляется матрица ошибок распознавания личности по биометрическим данным.

Шаблон БПД

Реальные БПД

+

+

True Positive (истинно-положительное решение): реальные БПД соответствуют шаблону, положительное решение ML-модели распознавания

False Positive (ложноположительное решение): ошибка 1-го рода, ML-модель ошибочно идентифицировала личность, распознав реальные БПД соответствующими шаблону другого человека

Подсчет коэффициентов FAR, FMR

False Negative (ложноотрицательное решение): ошибка 2-го рода – ML-модель не смогла идентифицировать личность, не распознавав БПД, т.е. не нашла для них соответствующего шаблона

Подсчет коэффициентов FRR и FNMR

True Negative (истинно-отрицательное решение): в базе шаблонов отсутствуют представленные БПД, ML-модель не смогла распознать и идентифицировать незарегистрированного пользователя, что абсолютно корректно

 

биометрические системы, машинное обучение и распознавание лиц
Биометрическая аутентификация по лицу с помощью Machine Learning

Какая биометрия самая эффективная: анализ метрик и факторов

Как мы уже рассказывали, биометрические системы на базе Machine Learning работают не по принципу однозначного соответствия представленных БПД ранее сохраненному шаблону. Обычно сравнивающий алгоритм принимает решение о соответствии данных на степени близости представленных образцов к шаблону. Поэтому разработчики ML-модели распознавания стремятся найти баланс между показателями FAR и FRR, варьируя значение этой дельты (порога) близости данных. Например, при уменьшении порога будет меньше ложных несовпадений, но больше ложных приёмов. А высокий порог уменьшит FAR, но увеличит FRR. Для определения этого баланса используют коэффициент EER, при котором ошибки приёма и отклонения эквивалентны и возникают с равной степени вероятности. Считается, что системы с низким EER более точны. Также стоит отметить тенденцию роста чувствительности биометрических приборов, что уменьшает FAR, но увеличивает FRR [2].

Однако, при одинаковом значении FAR более качественной будет та биометрия, у которой FRR меньше. От значений FAR и FRR зависит, с каким количеством пользователей система будет эффективно работать, не раздражая своими ошибками. Это число обычно обратно пропорционально квадратному корню из анализируемого параметра. Например, при FAR, равном 0,01%, и допустимом уровне ошибок не более 1 в день, биометрическую систему целесообразно применять в компаниях со штатом до 100 человек [4]. А вводимая с 2018 года в России единая биометрическая система (ЕБС) предполагает точность распознавания 1 к 10 000 000, т.е. на 10 миллионов случаев возможна одна единственная ошибка распознавания. При этом для идентификации личности ЕБС использует 2 биометрических параметра: трехмерное сканирование лица и голос.

Стоит помнить, что успешность распознавания, а, следовательно, показатели FAR, FRR и прочие метрики оценки эффективности биометрической системы, зависят от характера и количества используемых данных. Разумеется, более надежны многофакторные системы, которые используют сочетание нескольких биометрических параметров, например, рисунок вен на ладонях, особенности радужной оболочки глаз и походки. Однако, такой комплексный подход увеличивает сложность и, соответственно, стоимость реализации. Кроме того, при выборе биометрических методов следует учитывать контекст применения и условия эксплуатации такой Big Data системы [5]. Как сделать это на практике, мы расскажем в следующей статье. Также поговорим про то, как разные биометрические методы отличаются друг от друга. В частности, рассмотрим, насколько будет быстрым и устойчивым к фальсификации определение личности по отпечаткам пальцев, ладоней или изображениям лица и глаз. Еще коснемся некоторых «экзотических» способов идентификации личности: по запахам, сердцебиению и внутренним вибрациям.

Machine Learning в биометрическом распознавании, биометрия Big Data
Сочетание нескольких биометрических факторов снижает вероятность возникновения ошибок

А о том, чем выгодна цифровизация процессов на базе биометрических систем машинного обучения и другие вопросы информационной безопасности больших данных, вы узнаете на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data) в Москве:

расписание компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Смотреть расписание занятий
регистрация на компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Зарегистрироваться на курс

Источники

  1. https://www.osp.ru/os/2012/10/13033122/
  2. https://ru.wikipedia.org/wiki/Биометрия
  3. https://habr.com/ru/company/globalsign/blog/435978/
  4. https://ai-news.ru/2018/11/ne_v_brov_a_v_glaz_kak_rabotaet_biometriya.html
  5. http://www.techportal.ru/security/biometrics/tekhnologii-biometricheskoy-identifikatsii/