Интеграция Elasticsearch с Apache Hadoop: примеры и особенности

Big Data, Большие данные, обработка данных, архитектура, NoSQL, Elasticsearch, Hadoop, Spark, банк, Hive

В этой статье поговорим про интеграцию ELK-стека с экосистемой Apache Hadoop: зачем это нужно и с помощью каких средств можно организовать обмен данными между HDFS и Elasticsearch, а также при чем здесь Apache Spark, Hive и Storm. Еще рассмотрим несколько практических примеров, где реализована такая интеграция Big Data систем для построения комплексной аналитической платформы. Зачем нужна интеграция Elasticsearch с Apache Hadoop Как обычно, начнем с описания бизнес-потребности, для чего вообще требуется обмен данными между компонентами Apache Hadoop и ELK Stack. Напомним, Hadoop отлично подходит для пакетной обработки Big Data, но не подходит для интерактивных вычислений из-за особенностей классического MapReduce, связанного с записью промежуточных вариантов на жесткий диск. Elasticsearch, напротив, работает в режиме near real-time, оперативно показывая результаты аналитической обработки неструктурированных Далее …

4 крупных примера внедрения Tarantool, 3 достоинства и 2 главных недостатка IMDB

Big Data, Большие данные, обработка данных, архитектура, SQL, Tarantool, Arenadata, Greenplum, Hadoop

Сегодня рассмотрим ключевые достоинства и недостатки резидентных СУБД для больших данных на примере Tarantool. Читайте в нашей статье про основные сценарии использования In-Memory Database (IMDB) в области Big Data с конкретными кейсами из реального бизнеса от Альфа-Банка, Аэрофлота, Тинькофф-Банка и Мегафона. Где и как используются In-Memory в Big Data: 4 кейса внедрения Tarantool Мы уже упоминали, что резидентные базы данных – одна из наиболее перспективных и надежных технологий 2020 года в области Data Management по версии аналитического агентства Gartner. Резидентными считаются операции с данными, которые хранятся не на жестком диске, а в оперативной памяти (In-Memory), что делает их очень быстрыми. В практическом плане IMDB-системы особенно востребованы в тех приложениях работы с данными в реальном времени, где требуется минимальное время отклика, Далее …

3 главных достоинства и недостатка MPP-СУБД для хранения и аналитики Big Data на примере Greenplum

Greenplum, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, цифровизация, цифровая трансформация, DWH, ритейл, банк, Arenadata, Аренадата

Сегодня поговорим про достоинства и недостатки массово-параллельной архитектуры для хранения и аналитической обработки больших данных, рассмотрев Greenplum и Arenadata DB. Читайте в нашей статье, что такое MPP-СУБД, где и как это применяется, чем полезны эти Big Data решения и с какими проблемами можно столкнуться при их практическом использовании. Что MPP-СУБД и как это работает Особенностью массово-параллельная архитектура (Massive parallel processing, MPP) является физическое разделение памяти узлов, объединенных в кластер [1]. В случае MPP-СУБД каждый узел кластера работает со только своими жесткими дисками, распараллеливая операции чтения и записи данных. После того, как каждый из узлов закончит свои вычисления и отсортирует их в нужном порядке, ему нужно получить необходимые данные от остальных серверов. Для этого каждый узел отправляет свою порцию данных на все остальные сервера Далее …

Что такое AML или Big Data и Machine Learning против отмывания денег

Big Data, Большие данные, предиктивная аналитика, цифровизация, цифровая трансформация, машинное обучение, Machine Learning, AML, противодействие мошенничеству

Сегодня мы продолжим разговор про антифрод-системы и расскажем, как аналитика Big Data и модели Machine Learning помогают бороться с отмыванием денег. Читайте в нашей статье, зачем нужен светофор транзакций, что такое AML-системы и при чем тут графы больших данных. Светофор транзакций и Big Data в антифрод-системах Сначала рассмотрим, как работают антифрод-системы. Прежде всего транзакция оценивается по критериям ограничений и фильтрам, о которых мы писали здесь. В частности, проверяется соответствия суммы платежа установленному лимиту, попадание IP-адреса плательщика в привычный регион пользования, корреляция с ранее выявленными шаблонами клиентского поведения и т.д. По результатам такого анализа транзакция маркируется одной из следующих цветовых меток [1]: зеленым помечены операции с низкой вероятностью мошенничества; желтым отмечаются подозрительные транзакции с шансом мошенничества выше среднего, поэтому для проведения Далее …

Умный антифрод: как Big Data и Machine Learning защищают ваши деньги

Big Data, Большие данные, предиктивная аналитика, цифровизация, цифровая трансформация, машинное обучение, Machine Learning, антифрод, antifraud

В продолжение темы про предупреждение и раскрытие преступлений с помощью ИТ, сегодня мы расскажем, что такое антифрод-системы, зачем они нужны и где используются. А также рассмотрим, какова роль технологий Big Data и Machine Learning в таких средствах обнаружения мошенничества. Читайте в нашей статье, почему как большие данные и машинное обучение автоматизируют мониторинг и обнаружение финансово-учетных нарушений, предупреждая хищения денежных средств и другие транзакционные преступления. Что такое антифрод и где это используется Обычно антифрод (от английского anti-fraud) ассоциируется только с банковским сектором, когда финансовые транзакции оцениваются на предмет мошенничества, например, когда платежная карта используется злоумышленником, а не ее владельцем. Однако, антифрод нужен не только кредитным учреждениям и интернет-магазинам. Интересен пример с крупной сетью автозаправок, где была запущена выгодная программа лояльности с Далее …