Как организовать конвейер self-service Machine Learning на Apache Kafka, Spark Streaming, Kudu и Impala: пример расширенной BI-аналитики Big Data

Big Data, Большие данные, обработка данных, архитектура, HBase, Impala, SQL, NoSQL, Kudu, Spark, Kafka, банки, security, машинное обучение, Machine Learning

Продолжая разбирать production-кейсы реального использования этих технологий Big Data, сегодня поговорим подробнее, каковы плюсы совместного применения Kudu, Spark Streaming, Kafka и Cloudera Impala на примере аналитической платформы для мониторинга событий информационной безопасности банка «Открытие». Также читайте в нашей статье про возможности этих технологий в контексте машинного обучения (Machine Learning), в т.ч. самообслуживаемого (self-service ML). BI-система на базе Big Data для банковской безопасности Apache Kudu, Spark, Kafka и прочие технологии Big Data активно используются не только в типовых BI-приложениях, но и в аналитических системах обеспечения информационной безопасности. В частности, в январе 2020 года банк «Открытие» совместно с компанией «Неофлекс» завершил проект по внедрению аналитической платформы мониторинга событий информационной безопасности на базе технологий Big Data. Система обеспечивает непрерывный мониторинг и позволяет в Далее …

5 ключевых достоинств и 3 главных недостатка ELK-стека: разбираемся с Elasticsearch, Logstash и Kibana на реальных Big Data кейсах

Big Data, Большие данные, обработка данных, архитектура, NoSQL, ClickHouse, Elasticsearch, ELK Stack

Сегодня рассмотрим основные преимущества и недостатки ELK-стека. Читайте в этой статье, чем хороши Elasticsearch с Logsatsh и Kibana, а также каковы их основные недостатки и ограничения для использования в реальных Big Data проектах. Также мы собрали для вас несколько практических примеров, где и как используется Elasticsearch в интернет-магазинах, банках и других областях. Чем хороши Elasticsearch с Logsatsh и Kibana в Big Data: 5 главных преимуществ Основными достоинствами ELK-стека считаются следующие [1]: Масштабируемость – кластер Elasticsearch (ES) расширяется «на лету» добавлением новых серверов. При этом распределение нагрузки по узлам происходит автоматически. Отказоустойчивость — в случае сбоя кластерных узлов данные не потеряются, а будут перераспределены, и поисковая система сама продолжит работу. Операционная стабильность достигается ведением логов на каждое изменение данных в хранилище Далее …

Умный антифрод: как Big Data и Machine Learning защищают ваши деньги

Big Data, Большие данные, предиктивная аналитика, цифровизация, цифровая трансформация, машинное обучение, Machine Learning, антифрод, antifraud

В продолжение темы про предупреждение и раскрытие преступлений с помощью ИТ, сегодня мы расскажем, что такое антифрод-системы, зачем они нужны и где используются. А также рассмотрим, какова роль технологий Big Data и Machine Learning в таких средствах обнаружения мошенничества. Читайте в нашей статье, почему как большие данные и машинное обучение автоматизируют мониторинг и обнаружение финансово-учетных нарушений, предупреждая хищения денежных средств и другие транзакционные преступления. Что такое антифрод и где это используется Обычно антифрод (от английского anti-fraud) ассоциируется только с банковским сектором, когда финансовые транзакции оцениваются на предмет мошенничества, например, когда платежная карта используется злоумышленником, а не ее владельцем. Однако, антифрод нужен не только кредитным учреждениям и интернет-магазинам. Интересен пример с крупной сетью автозаправок, где была запущена выгодная программа лояльности с Далее …

Как потерять лицо: утечки биометрических данных – новая угроза Big Data систем

Cybersecurity, Big Data, Большие данные, предиктивная аналитика, бизнес-процессы, цифровизация, цифровая трансформация, бизнес, банк, защита информации, Security, безопасность

В то время, как нацпрограма «Цифровая экономика» активно продвигает использование биометрических персональных данных россиян в качестве основных идентификаторов для государственных Big Data систем и коммерческих сервисов, информация продолжает утекать. В этой статье мы собрали наиболее крупные инциденты с утечками данных из биометрических систем в России и за рубежом. Как утекают биометрические персональные данные: 7 ярких примеров за последние 5 лет В августе 2019 года в открытом доступе оказалось более 27,8 миллионов записей суммарным объемом 23 Гб, включая биометрическую информацию (отпечатки пальцев и фотографии), незашифрованные логины и пароли пользователей, журналы посетителей, сведения об уровне доступа и персональные данные сотрудников организаций. Эта база данных принадлежит южнокорейской компании Suprema, разработчику системы контроля и управления доступом Biostar 2. Данный продукт используется для контроля доступа Далее …

Биометрия, GDPR, 152-ФЗ и все-все-все: как и зачем Big Data с Machine Learning сканируют наши лица и отпечатки пальцев

Big Data, Большие данные, предиктивная аналитика, защита информации, безопасность, Security, бизнес-процессы, цифровизация, цифровая трансформация, Internet of Things, IIoT, IoT, Machine Learning, машинное обучение

Продолжая тему Cybersecurity, сегодня мы поговорим про биометрические системы: что это такое, как они работают и чем нарушают требования GDPR и № 152-ФЗ. Также в этом материале мы собрали для вас примеры таких наиболее известных проектов на базе технологий Big Data и Machine Learning. Что такое биометрические персональные данные и системы биометрии В России понятие личной биометрической информации определено в федеральном законе 152-ФЗ «О персональных данных». Биометрические персональные данные (БПД) – это сведения о физиологических и биологических особенности человека, на основании которых можно установить его личность. Принято выделять физиологические (отпечатки пальцев, рисунок вен, ДНК, сетчатка глаза, лицо, голос) и поведенческие (походка, речь) биометрические данных. Считается, что эти характеристики уникальны для каждого человека. Поэтому их можно использовать в качестве идентификаторов в Далее …

Почему случаются утечки данных: системный анализ на службе Cybersecurity в Big Data

диаграмма Исикавы, Big Data, Большие данные, предиктивная аналитика, Machine Learning, машинное обучение, защита информации, безопасность, Security

В этой статье мы снова поговорим про GDPR и наиболее крупные утечки данных, почему случаются такие инциденты cybersecurity. Также рассмотрим аналитические методы и техники, которые помогут обнаружить ключевые причины таких проблем и снизить риски их возникновения. Читайте в нашем материале, что такое диаграмма Исикавы и зачем нужен подход SQUARE при разработке требований к Big Data системам и анализе бизнес-процессов. Еще раз о потерях 2019 года: самые крупные утечки персональных данных в Big Data системах России и за рубежом Мы уже рассказывали про наиболее крупные утечки данных. 2019 год вообще был чрезмерно урожайным на подобные инциденты: сообщения о том, что в открытый доступ попали персональные данные множества россиян, появлялись в СМИ почти каждый месяц. От таких происшествий пострадали клиенты крупных банков Далее …

Как машинное обучение защищает большие данные: ML в Cybersecurity

Big Data, Большие данные, Machine Learning, машинное обучение, защита информации, безопасность, Security

Сегодня мы расскажем, как машинное обучение (Machine Learning, ML) используется в информационной безопасности для защиты данных от утечек, несанкционированного доступа, неправомерного использования пользовательских привилегий, вирусных атак и прочих угроз cybersecurity. Читайте в нашей статье, как нейросети и другие ML-модели выявляют мошеннические операции и другие аномалии в Big Data системах и корпоративной инфраструктуре. Зачем машинное обучение нужно в Cybersecurity: 5 направлений автоматизации Традиционные методы защиты данных от утечек и вирусных атак уже не справляются с этими задачами в полной мере. Например, в 2019 году практически каждый месяц персональные данные россиян попадали в открытый доступ. В большинстве случаев это происходило из-за некорректной настройки облачных серверов или недобросовестного поведения отдельных сотрудников крупных банков и телефонных операторов. В 2018 году от утечек информации пострадали Далее …

Кредитный скоринг от Яндекса vs GDPR и 152-ФЗ: кто собирает наши персональные данные для банковских моделей Machine Learning – Big Data для Большого Брата

Big Data, Большие данные, предиктивная аналитика, Machine Learning, машинное обучение, цифровизация, цифровая трансформация, защита данных, безопасность, security

Сегодня мы расскажем, почему и зачем сейчас почти все сайты собирают cookies, что такое GDPR, как банки собираются оценивать кредитоспособность потенциального заемщика по истории его запросов в браузере и насколько это легально. Читайте в нашей статье про персональные данные, синергетический эффект технологий Big Data и финансовый скоринг на основе пользовательского поведения в сети с помощью машинного обучения (Machine Learning). Зачем собирать cookies, что такое GDPR и при чем тут персональные данные С 2019 года практически на каждом сайте всплывает сообщение о сборе пользовательских данных: IP-адрес, cookie, информации о браузере и геолокации, время доступа и адрес запрашиваемой страницы. Далее следует приписка, что вся эта информация о пользовательском поведении нужна, чтобы улучшить сайт и маркетинговую аналитику. На самом деле подобное уведомление показывается, Далее …

Быстрее, гибче, самостоятельней: 3 принципа Agile в Big Data системах

Большие данные, Big Data, Agile, цифровая трансформация, цифровая экономика, цифровизация, бизнес-процессы, банки, нефтегазовая отрасль

Пока Agile (эджайл) из методологии разработки программного обеспечения становится настоящей философией ведения бизнеса, мы разберем, какие именно принципы этого подхода используются в каждой системе больших данных и почему любой Big Data проект успешно реализуется с помощью этих идей. Что такое Agile: краткий ликбез Изначально термин Agile относился к подходам и практикам гибкой разработки программного обеспечения, нацеленной на сокращение сроков вывода на рынок готового продукта и минимизацию рисков с помощью сведения разработки к серии коротких циклов (итераций). Ключевые идеи Agile, изложенные в Agile Manifesto, сосредоточены на командном взаимодействии, скорости реагирования, готовности к изменениям и ценности работающего продукта [1]. Такое видение отражает требования современного бизнеса к организации работы и, поскольку основные принципы Agile не связаны ИТ-спецификой, подход становится популярной практикой выстраивания процессов Далее …

Как Big Data и Machine Learning помогут вам управлять корпоративной репутацией в интернете: разбираемся с SERM- технологиями

Big Data, Большие данные, машинное обучение, Machine Learning, маркетинг, churn rate, клиент, банки, соцсети

Как клиентские отзывы влияют на продажи, что такое управление репутацией бренда (SERM) и почему для повышения лояльности потребителей сегодня нужны технологии больших данных (Big Data) и машинного обучения (Machine Learning). Что такое SERM и зачем это нужно вашему бизнесу Привлекать новых и удерживать существующих клиентов помогает не только персонализированный маркетинг [1], о котором мы уже рассказывали здесь. Существенную роль в формировании лояльности потребителей играют отзывы реальных клиентов, размещенные в личных блогах, специализированных сайтах и, конечно же, социальных сетях. Таким сообщениям потенциальные потребители верят больше, чем рекламному описанию продукта или услуги [2]: 85 % потребителей ищут информацию об интересующих их брендах и компаниях в интернете; 92% потребителей читают отзывы о компании перед тем, как принять решение о покупке; 40% пользователей формируют свое Далее …