Что такое Arenadata Streaming: сочетаем Apache Kafka с NiFi в корпоративном масштабе

Arenadata Streaming Kafka NiFi? Arenadata, Big Data, Большие данные, обработка данных, Kafka, NiFi, архитектура, администрирование, ETL

Мы уже рассказывали про преимущества совместного использования Apache Kafka и NiFi. Сегодня рассмотрим, как эти две популярные технологии потоковой обработки больших данных (Big Data) сочетаются в рамках единого решения от отечественного разработчика — Arenadata Streaming. Читайте далее про основные сценарии использования и ключевые достоинства этого современного продукта класса Event Stream Processing в режиме реального времени.

Что такое Arenadata Streaming и зачем она нужна

Напомним, удобный веб-GUI и обилие готовых обработчиков событий (процессоров) с множеством настроек и поддержкой Python в NiFi отлично дополняют возможности сбора и агрегации потоковых данных Apache Kafka. Комбинация этих Big Data фреймворков дает максимальную гибкость разработчику Data Flow и инженеру Big Data, которые поддерживают этот конвейер обработки данных (data pipeline). Поэтому неудивительно, что именно эти две open-source технологии положены в основу Arenadata Streaming (ADS) – корпоративной платформы потоковых операций с большими данными в режиме онлайн. ADS также может использоваться в качестве корпоративной шины обмена данными, эффективно решая следующие задачи:

  • получение данных в реальном времени из различных внешних систем, включая реляционные и NoSQL-СУБД;
  • агрегация и преобразование потоков данных в распределенном режиме;
  • надежное хранение данных в течение заданного периода времени;
  • возвращение потребителям нужной информации, с автоматической балансировкой нагрузки и изоляцией критически важной информации от несанкционированного доступа.
Arenadata Streaming, Kafka, NiFi
Arenadata Streaming в качестве корпоративной шины данных

7 главных преимуществ ADS

Дополнительно к плюсам Apache Kafka и NiFi, о которых мы писали здесь и здесь, ключевыми достоинствами Arenadata Streaming считаются следующие:

  • надежность – в отличие от брокеров сообщений, которые хранят данные до востребования потребителями, информация в ADS доступна в течение всего заданного периода хранения, независимо от факта потребления. Также важно, что ADS предоставляет полную гарантию доставки сообщений за счет строго однократной семантики Exactly Once, реализуемой в Apache Kafka.
  • расширенная интеграция с внешними системами за счет гибко настраиваемых коннекторов. Кроме того, доступ к данным предоставляется сразу для несколько систем с возможностью перечитать информацию заново в случае ошибки.
  • безопасность – ADS поддерживает разграничение прав доступа к потокам данных NiFi, позволяя изолировать критически важную информацию от несанкционированного доступа. Кроме того, в будущие версии ADS планируется включение Apache Ranger – централизованной инфраструктуры для обеспечения, мониторинга и управления комплексной безопасностью данных на платформе Hadoop, а также защищенного протокола Kerberos.
  • высокая производительность за счет использования стандартного бинарного формата сообщений, используемого поставщиком, брокером и потребителем, оптимизации сетевой передачи персистентных блоков журнала.
  • вариативность развертывания и эксплуатации на локальных серверах собственного Big Data кластера, а также гибридная инфраструктура в частном или публичном облаке.
  • официальный статус отечественного программного обеспечения, зарегистрированного в Едином реестре российских программ для электронных вычислительных машин и баз данных Минкомсвязи РФ. Потому Arenadata Streaming отлично подходит для практического применения в проектах цифровизации государственных и муниципальных предприятий России без политических, санкционных и валютных рисков со стороны других государств.
  • низкий порог входа в технологию для администраторов и пользователей благодаря дружественному GUI, а также русскоязычной документации, техподдержке и обучающим курсам.

Наконец, ADS без проблем интегрируется с другими решениями Arenadata (ADH-Hadoop, QuickMarts, DB), обеспечивая надежное хранение и аналитику больших данных на базе открытых технологий от отечественного разработчика.

Что внутри Arenadata Streaming: состав компонентов

Теперь рассмотрим, из чего, помимо Apache Kafka и NiFi, состоит ADS. В состав текущей версии Arenadata Streaming 1.5, доступной на сентябрь 2020 года, входят следующие компоненты:

  • Arenadata Cluster Manager — универсальный оркестратор гибридного ландшафта, который позволяет быстро устанавливать, настраивать и управлять всеми корпоративными data-сервисами на различных типах инфраструктур: в облаке, on-premise или PaaS.
  • Apache Kafka – Manager, Rest Proxy, KSQL, Schema Registry;
  • Apache Zookeeper – централизованный сервис для поддержки информации о конфигурации, именования, обеспечения синхронизации распределенных приложений и предоставления групповых служб. Почему Zookeeper нужен Kafka и можно ли без него обойтись, мы разбирали здесь.
  • Apache NiFi, включая NiFi Registry и MiNiFi, о котором мы писали в этой статье.

Также, как уже было упомянуто выше, в версию ADS 2.0 и последующие релизы будут включены Apache Ranger и поддержка Kerberos.

Arenadata Streaming, Kafka, NiFi
Компонентный состав Arenadata Streaming

Освоить все вышерассмотренные технологии, а также администрирование и эксплуатацию Arenadata Streaming, включая сертификационный экзамен по этой корпоративной платформе потоковой обработки больших данных, вы сможете на авторизованных курсах по Arenadata в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

 

Источники

  1. https://arenadata.tech/products/arenadata-streaming/
  2. https://docs.arenadata.io/ads/Intro/index.html