Практический пример монетизации Big Data с помощью Elasticsearch и Kibana

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, Elasticsearch, NoSQL, ритейл

Недавно мы рассказывали, что аналитика больших данных с помощью технологий Big Data – это необязательно удел только крупных корпораций. В этой статье мы рассмотрим реальный бизнес-кейс, как извлечь выгоду из накопленных данных о своих пользователях, применяя для этого возможности NoSQL-СУБД Elasticsearch для полнотекстового поиска по полуструктурированным данным и веб-интерфейс визуализации результатов Kibana. Постановка задачи с точки зрения бизнеса Рассмотрим кейс небольшого интернет-магазина зоотоваров, где есть партия кормов для кошек и собак, у которой через несколько месяцев истекает срок годности. Чтобы оперативно реализовать его в пределах этого срока, компания решила объявить распродажу, сообщив об этом своим покупателям, общая база которых насчитывает около миллиона клиентов. Однако, корма для кошек и собак будут интересны только владельцам этих животных, а не, например, хозяевам рептилий Далее …

Особенности корпоративной интеграции на ESB и Apache Kafka: vs или вместе?

Big Data, Большие данные, обработка данных, Kafka, архитектура, администрирование, ESB

Есть мнение, что использование Apache Kafka в качестве корпоративной сервисной шины (ESB, Enterprise Service Bus) является антипаттерном. Сегодня мы проясним это категоричное утверждение и рассмотрим, как корректно реализовать ESB с помощью Kafka на практическом примере шины данных в компании Avito.ru. Что такое ESB и чем это отличается от брокера сообщений Напомним, ESB относится к SOA-концепции (Service Oriented Architecture) и представляет собой элемент IT-ландшафта для интеграции разрозненных информационных систем в единый программный комплекс с централизованным управлением передачей информации и применением сервис-ориентированного подхода. Как правило, ESB включает следующие компоненты [1]: набор коннекторов для подключения к различным системам с целью приема и отправки данных; очередь сообщений (Message Queue, MQ) для организации промежуточного хранения сообщений в ходе их доставки; платформа, которая связывает коннекторы с Далее …

Что сдерживает цифровизацию вашего бизнеса: 5 главных проблем и способы их решения по версии Gartner

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, цифровая экономика

Сегодня цифровизация частного бизнеса и государственных предприятий – это не просто часть национальной программы «Цифровая экономика», а фактически новая национальная идея. Однако, не все так гладко: сегодня мы рассмотрим, почему на практике большинство проектов цифровой трансформации терпят неудачи или сталкиваются с существенными трудностями в процессе реализации. Читайте в нашей статье о наиболее значимых факторах, которые препятствуют цифровизации по версии исследовательского агентства Gartner, а также при чем тут Аналитика больших данных и обучение руководителей технологиям Big Data. 5 проблем цифровизации для CDO/CDTO и пути их решения Как мы уже не раз упоминали, цифровизация вообще и аналитика больших данных в частности – это, прежде всего, управленческая зрелость бизнес-процессов, ИТ-инфраструктуры и самих данных. Поэтому директор по цифровой трансформации (Chief Digital Transformation Officer, CDTO) и Далее …

Комбо потоковой обработки Big Data с Apache Kafka и NiFi: пара практических примеров

Big Data, Большие данные, обработка данных, Kafka, NiFi, архитектура, администрирование, ETL

Сегодня рассмотрим примеры совместного использования двух популярных технологий потоковой обработки больших данных (Big Data): Apache Kafka и NiFi. Читайте в нашей статье, как они дополняют друг друга, каковы преимущества их объединения и каким образом инженеру Data Flow это реализовать на практике. Еще раз о том, что такое Apache Kafka и NiFi: краткий ликбез для  инженера Big Data Напомним, Apache Kafka – это отказоустойчивая распределенная стриминговая платформа, которая часто используется в качестве брокера сообщений. Она работает по принципу «издатель-подписчик», когда кластерные серверы (брокеры) принимают данные из источников (производителей, producer) и передают их потребителям (consumer). Отправляя сообщение в кластер Kafka, производитель указывает, в какой топик (topic) его записать. Топик – это набор сообщений, которые реплицируются и упорядочиваются по смещению (offset) – возрастающему Далее …

5 причин, почему аналитика больших данных иногда выгоднее модного Data Science: взгляд со стороны бизнеса

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, обработка данных, CRISP-DM, Data Science, Data Scientist

В этой статье мы рассмотрим несколько популярных мифов о Data Science и аналитике больших данных (Big Data), разобрав, когда и почему простое использование BI-систем или облачных DaaS-платформ бывает гораздо эффективнее попыток внедрения алгоритмов машинного обучения (Machine Learning) и прочих методов Data Science в операционные и стратегические бизнес-процессы. Почему 80% Data Science проектов обречены на провал: простая причина больших ошибок в Big Data Начнем с наиболее распространенного в широкой общественности мнения: Big Data есть только у больших компаний, а Data Science мгновенно приносит огромную выгоду, генерируя магические дата-инсайты. На самом деле сегодня достаточно большие объемы данных имеются даже у малого и среднего бизнеса, чья деятельность, в основном, связана с цифровыми технологиями. Например, интернет-магазины и процессинговые центры, а также популярные медиа (блоги, Далее …

3 проблемы администрирования Apache Kafka и пути их решения на практических примерах

Big Data, Большие данные, обработка данных, Kafka, администрирование, архитектура

Администрирование кластера Kafka порой напоминает работу детектива, когда нужно понять мотив преступления причину появления того или иного бага и устранить ее вместе с последствиями наиболее оптимальным способом. В этой статье мы рассмотрим несколько практических примеров конфигурирования Apache Kafka из опыта компании Booking.com, кейс которой был представлен в докладе ее сотрудника Александром Мироновым 23 января 2020 года на зимнем Kafka-митапе Avito.Tech. Называйте файлы по-разному или как корректно обновить SSLContext без перезапуска брокера Kafka Истоки рассматриваемой проблемы лежат в механике самообслуживаемой (self-service) mTLS-аутентификации Kafka, которая реализована в Booking.com следующим образом [1]: на брокере Kafka запускается проверка наличия SSL-сертификата и его валидности (TTL, Time To Live) в течение следующих 5 дней; если TTL обнаруженного сертификата более 5 дней, никакие дополнительные действия не производятся; Далее …

Как сэкономить место на диске, управляя временем: проблемы администрирования Apache Kafka на примере Booking.com

Big Data, Большие данные, обработка данных, Kafka, администрирование, архитектура

В продолжении серии статей по докладу Александра Миронова из Booking.com, который был представлен 23 января 2020 года на зимнем Kafka-митапе Avito.Tech, сегодня мы рассмотрим некоторые проблемы администрирования Apache Kafka, с которыми можно столкнуться на практике. Читайте в этом материале, как не допустить разрастание топика, правильно задав параметр CreateTime. Что делать, если Apache Kafka вдруг стала поглощать слишком много места на диске Как мы уже рассказывали, производительность Apache Kafka напрямую связана с hardware-ресурсами. В частности, эта Big Data система активно использует жесткий диск, сохраняя сообщения в долговременную ROM-память и считывая их оттуда. Поэтому администраторы Кафка-кластера постоянно наблюдают за объемом потребляемого места на жестком диске. Внезапное увеличение этого показателя сигнализирует о проблеме, которую нужно срочно решать. Именно с такой ситуацией столкнулись администраторы Далее …

Борьба со сложностью ACL-настроек в Apache Kafka или self-service авторизации в Booking.com

Big Data, Большие данные, обработка данных, Kafka, администрирование, архитектура, Security, DevOps

Аутентификация – далеко не единственная возможность обеспечения информационной безопасности в Apache Kafka. Сегодня мы продолжим разговор про Big Data cybersecurity и рассмотрим особенности авторизации в Apache Kafka в формате самообслуживания (self-service), как это было сделано в travel-компании Booking.com. В качестве примера продолжим разбирать доклад Александра Миронова, который был представлен 23 января 2020 года на зимнем Кафка-митапе Avito.Tech. Принципалы, ACL и другие особенности авторизации Apache Kafka Apache Kafka включает встроенный фреймворк авторизации (Authorizer), который использует ZooKeeper для хранения всех списков избирательного доступа (ACL, Access Control List) для детального определения прав клиентов кластера на чтение или запись ресурсов (топик с сообщениями, группа, идентификатор транзакции и пр). Authorizer по умолчанию ограничивает доступ к ресурсам всем, кроме суперпользователей (super users). Поэтому для каждого ресурса Далее …

Особенности самообслуживаемой аутентификации Apache Kafka на примере Booking.com

Big Data, Большие данные, предиктивная аналитика, обработка данных, Kafka, администрирование, архитектура, Security

Продолжая разбирать доклад Александра Миронова из Booking.com, который был представлен 23 января 2020 года на зимнем Kafka-митапе Avito.Tech, сегодня мы рассмотрим, с какими проблемами столкнулись администраторы Big Data при обеспечении информационной безопасности своих Кафка-кластеров. Читайте в нашей статье про возможные методы аутентификации в Apache Kafka и их практическое использование в самообслуживаемой ИТ-инфраструктуре одной из крупнейших travel-компаний. SASL или mTLS: какой метод аутентификации выбрать для Kafka-кластера Напомним, Apache Kafka поддерживает целый ряд методов аутентификации [1]: SASL (Simple Authentication and Security Layer — простой уровень аутентификации и безопасности), включая следующие вариации: PLAIN (простой механизм передачи паролей открытым тектом), SCRAM (Salted Challenge Response Authentication Mechanism – механизм хранения данных и протокол аутентификации через хэши паролей, которые хранятся в Apache Zookeeper), GSSAPI (Generic Security Services Далее …

45+ кластеров и 2 DevOps-лайфхака по администрированию Apache Kafka от Booking.com

Big Data, Большие данные, предиктивная аналитика, обработка данных, Kafka, администрирование, архитектура, DevOps, Security

Сегодня мы разберем доклад Александра Миронова из Booking.com, который был представлен 23 января 2020 года на зимнем Kafka-митапе Avito.Tech [1]. Читайте в нашей статье, как одна из ведущих travel-компаний использует Apache Kafka, с какими проблемами столкнулись администраторы ее Big Data инфраструктуры и DevOps-инженеры, а также почему были выбраны именно такие варианты решения. Как все начиналось и к чему пришли: предыстория Kafka-challenge’а и постановка задач Если сгруппировать все виды применения Apache Kafka в цифровых решениях Booking.com по локальным бизнес-направлениям, получатся следующие категории [2]: персонализация маркетинговых предложений; уведомления о пользовательских и системных событиях; отслеживание экспериментов; проведение оплаты; логгирование; обеспечение информационной безопасности. Таким образом, Apache Kafka задействована как в критичных бизнес-задачах, так и в поддерживающих процессах бэк-офиса. Сегодня вокруг Kafka выстроена целая Big Далее …