Блокчейн, озеро данных и еще 3 кейса Apache NiFi в комплексных Big Data системах

Большие данные, предиктивная аналитика, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kafka, Spark

В прошлый раз мы рассмотрели пример прототипа IIoT-системы на основе одноплатного мини-компьютера Raspberry Pi, брокере обмена сообщениями Mosquitto и платформе маршрутизации данных Apache NiFi. Сегодня мы покажем, что этот инструмент преобразования и доставки данных из множества сторонних систем может применяться не только в IoT-решениях. Читайте в нашей статье про 5 примеров практического использования Apache NiFi в реальных Big Data проектах, представленных на международном саммите DataWorks в 2018 и 2019 годах.

Построение Data Lake в автомобилестроительной компании Renault

В корпорации Renault Apache NiFi используется в 2-х направлениях [1]:

  • Industrial Internet of Things, выполняя роль ETL-интегратора технологических данных с производственных участков, где производятся и собираются автомобильные запчасти;
  • как распределенная платформа передачи информации в корпоративное озеро данных (Data Lake) и средство выгрузки из него в сторонние, в т.ч. облачные, системы и базы данных.

Во втором случае Data Engineer’ы компании Renault особенно выделяют удобство использования графического интерфейса Apache NiFi, который позволяет в наглядном виде проектировать движение информационных потоков [2]. В 2019 году эта Big Data система на базе NiFi в Renault ежедневно обслуживает 300-500 активных пользователей, 7000 запросов и более 40 промышленных источников данных [1].

Data Lake, Data Streaming
Маршрутизация информационных потоков для загрузки в корпоративное озеро данных в компании Renault

Как Apache NiFi используется в MasterCard

Корпорация MasterCard, обеспечивающая работу международной платежной системы, применяет эту платформу маршрутизации данных также для 2-х случаев [3]:

  • как средство реализации концепции «данные как сервис» (Data as a Service), которое собирает REST-подобные запросы, отправляя их в инструмент моделирования данных как в поточном, так и в пакетном режимах. Также NiFi выполняет роль маршрутизатора больших файлов и аутентификационных потоков, взаимодействуя с внешними хранилищами данных и инструментом моделирования с помощью SQL.
Data Streaming
Data as a Service в компании MasterCard
  • в качестве транзакционного маршрутизатора для получения бизнес-метрик в режиме реального времени с последующей обработкой их с помощью фреймворков Apache Spark Streaming и MLLib – для построения моделей машинного обучения (Machine Learning) в рамках задач обнаружения мошеннических операций (antifraud) и предиктивной аналитики.
Machine Learning, Data Streaming
Конвейер предиктивной аналитики MasterCard

Шлюз данных для обеспечения кибербезопасности в ИТ-инфраструктуре страховой компании

Aetna Inc., американская компания медицинского страхования, использует Apache NiFi в качестве ETL-шлюза, обеспечивающего сбор, агрегацию и первичную обработку неструктурированных и полуструктурированных данных более чем из 60 различных источников. При этом 95% информационных потоков (более 20 миллиардов событий в день) обрабатывается в реальном времени. Шлюз данных на основе Apache NiFi заменил собой ранее используемую комбинацию из фреймворков Flume, Sqoop и PySpark, позволяя корпоративным аналитикам и ученым по данным (Data Analyst) автоматически собирать всю информацию от журналов приложений и облачных сервисов, сетевых и бизнес-событий, систем аутентификации, IoT-устройств и прочих источников данных. Инструменты Machine Learning (Spark MLLib, а также собственные разработки на Scala, R и Python) помогают выявить угрозы информационной безопасности и аномалиях в использовании данных практически в реальном времени. Кроме того, Apache NiFi отправляет необходимые данные в центры кибербезопасности (SOC, Security Operation Center) и BI-систему Tableau для отображения важных бизнес-метрик (KPI) на графических дэшбордах и формирования деловых отчетов [4].

ETL-шлюз в больших данных, Apache NiFi
Apache NiFi как ETL-шлюз для сбора, агрегации и первичной обработки неструктурированных и полуструктурированных данных в Aetna Inc

Big Data система оперативного взаимодействия с клиентами на основе Apache Flink и NiFi

Американская телекоммуникационная корпорация Comcast разработала собственную платформу взаимодействия с клиентами, которая анализирует пользовательское поведение почти в реальном времени и оперативно реагирует на события. Это позволяет эффективно работать с потребителями в режиме онлайн, обеспечивая их потребности и предугадывая желания. Очень низкая временная задержка обработки потоковых данных (latency), характерная для Apache Flink комбинируется с возможностями NiFi для запуска, обогащения, фильтрации и реагирования на события пользовательского поведения [5]. Также в этой Big Data системе используется Apache Kafka в качестве источника данных о событиях (поведенческих тригерах), которые обрабатываются Apache Flink. NiFi подключается на этапах обогащения данных и отправки уведомлений пользователям, выполняя роль быстрого ETL-шлюза, легко интегрируемого с разными источниками и приемниками потоковых данных.

Apache Flink, NiFi
Big Data система предиктивной аналитики пользовательского поведения на базе Apache Flink и NiFi

Логистическая холодовая цепь на блокчейне и Apache NiFi

В фармацевтике и пищевой промышленности соблюдение температурного режиме – это критично важное условие сохранения и обеспечения срока годности продукции. В частности, для таких товаров, как свежие сельскохозяйственные продукты, морепродукты, замороженная рыба и мясо, фотопленка, химикаты и многие лекарственные препараты необходимо поддерживать непрерывную холодовую цепь – серию операций по производству, хранению и распределению в холодильнике и сопутствующем оборудовании, которые обеспечивают желаемый диапазон низких температур. Логистика холодовой цепи включает в себя все средства, используемые для обеспечения постоянной температуры продукта, который не является термостабильным, с момента его изготовления до момента его использования. Проверка соответствия холодовой цепи является задачей производителей и импортеров продукции, а также регулирующих органов, например, в США – это Управление по санитарному надзору за качеством пищевых продуктов и медикаментов.

Технологически представить информацию обо всех операциях холодовой сети можно с помощью блокчейн-сети, в которой сохраняются данные от каждого участника логистического процесса. Данные о температуре продукции регистрируются с помощью IIoT-датчиков, которые через MiNiFi-агенты отправляют информацию в кластер Apache NiFi. За blockhain-часть отвечает Hyperledger Fabric – программный фреймворк для разработки приложений и специализированных бизнес-решений на основе блокчейна. Apache NiFi маршрутизирует потоки данных в дальнейших процессах обработки и хранения информации с помощью соответствующих Big Data средств: Spark Streaming, HBase, HDFS, Phoenix и т.д. Конечные пользователи просматривают информацию о холодовой сети и сохраняемой в ней продукции с помощью графических дэшбордов в соответствии со своими правами доступа [6].

Apache Nifi, blockchain, блокчейн, data Streaming
Архитектура блокчейн-системы для логистической холодовой цепи

Читайте в нашей следующей статье про главные преимущества Apache NiFi в контексте его прикладного использования в Big Data системах и IoT/IIoT-проектах.

Все подробности по работе с Apache NiFi и другими технологиями Big  Data и интернета вещей (Spark, Kafka, Hbase и т.д.) разбираются на наших практических курсах для менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков больших данных в лицензированном учебном центре обучения и повышения квалификации ИТ-специалистов в Москве:

расписание компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Смотреть расписание занятий
регистрация на компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Зарегистрироваться на курс

Источники

  1. https://dataworkssummit.com/berlin-2018/session/apache-NiFi-best-practices-and-lessons-learnt/
  2. https://medium.com/@abdelkrim.hadjidj/best-practices-for-using-apache-NiFi-in-real-world-projects-3-takeaways-1fe6912101db
  3. https://dataworkssummit.com/san-jose-2018/session/using-nifi-to-simplify-data-flow-streaming-use-cases-mastercard/
  4. https://dataworkssummit.com/washington-dc-2019/session/building-the-high-speed-cyber-security-data-pipeline-using-apache-NiFi/
  5. https://dataworkssummit.com/washington-dc-2019/session/event-driven-messaging-and-actions-using-apache-flink-and-apache-NiFi/
  6. https://dataworkssummit.com/washington-dc-2019/session/cold-supply-chain-logistics/