Arenadata

ArenaData Hadoop, ArenaData DB, ArenaData Streaming, АренаДата продукты, Big Data

Arenadata — российская ИТ-компания, разработчик первых отечественных Big Data решений, основанных на свободном программном обеспечении с открытым исходным кодом без использования проприетарных компонентов:

  • Arenadata Hadoop (ADH) – полноценный дистрибутив распределенной платформы хранения больших данных на базе Apache Hadoop, адаптированный для корпоративного использования и зарегистрированный в государственном реестре программ для ЭВМ;
  • Arenadata DB (ADB) – распределенная масштабируемая отказоустойчивая СУБД на базе аналитической массивно-параллельной системы с открытым исходным кодом Greenplum, адаптированная для российского использования и зарегистрированная в государственном реестре программ для ЭВМ;
  • Arenadata Streaming (ADS) – эффективное масштабируемое отказоустойчивое решение для потоковой обработки данных в режиме реального времени, зарегистрированное в государственном реестре программ для ЭВМ, адаптированное для корпоративного использования и построенное на базе проектов с открытым исходным кодом – Apache Kafka и Apache Nifi.
  • Arenadata Cluster Manager (ADCM) — платформа для эффективного развертывания и управления всеми data-сервисами компании независимо от используемой инфраструктуры – в облаке, on-premise или в качестве PaaS-сервисов.
  • Arenadata Grid (ADG) — платформа вычислений в памяти, которая позволяет значительно ускорить приложения без необходимости замены существующих СУБД. 
  • Arenadata QuickMarts (ADQM) — кластерная колоночная система управления базами данных (СУБД) для быстрого анализа больших объёмов данных при одновременном снижении нагрузки на системы их хранения.
  • Analytic Workspace (AAW) — платформа быстрого развертывания программного обеспечения для DataScience/BI на базе Apache Zeppelin, а также начального обучения по работе с сервисом аналитиков и администраторов.

Далее мы рассмотрим подробнее ключевые компоненты экосистемы Arenadata: Arenadata Hadoop, Arenadata DB и Arenadata Streaming, по которым наш учебный центр «Школа Больших Данных» реализует авторизованные курсы и сертификационные экзамены.

ArenaData Hadoop, ArenaData DB, ArenaData Streaming, АренаДата продукты,

Что такое Arenadata Hadoop

Arenadata Hadoop (ADH) — это полноценный дистрибутив распределенной платформы хранения и обработки больших данных на базе Apache Hadoop, включая средства управления сервисами, анализа информации, инструменты обеспечения безопасности, брокеры сообщений и потоковую обработку.

Arenadata Hadoop
Компоненты ADH

В 2016 году дистрибутив ADH прошел сертификацию на соответствие требованиям спецификации ODPi Run Time Compliant (ODPi) [1] и получил подтверждение о полном соответствии стандартам ODPi – крупнейшего мирового сообщества разработчиков проектов хранения больших данных с открытым кодом под эгидой Linux Foundation [2].

Что такое Arenadata DB

Arenadata DB (ADB) – это масштабируемая кластерная СУБД на базе аналитической массивно-параллельной системы с открытым исходным кодом Greenplum. Концепция MPP (massively parallel processing, массивно-параллельные вычисления) позволяет надежно хранить и быстро анализировать большие объемы структурированных и слабоструктурированных данных (до сотен терабайт).

В ADB используется полиморфное хранение данных, когда одну таблицу можно разделить на вертикальные разделы (partitions), часть из которых будет храниться в виде строк, а часть – как колоночные объекты. При этом для пользователя такая таблица остается одним объектом [1].

Информационная безопасность хранения и передачи данных в ADB обеспечивается поддержкой защищенного протокола SSL и шифрованием с помощью ключей PGP (на уровне таблиц или колонок в таблицах), а также ролевой модели доступа к данным (Role Based Access Control, RBAC). Гибкость и производительность при обмене данными с внешними системами реализуется за счет протокола параллельного обмена PXF (Platform eXtension Framework), который обеспечивает взаимодействие с внешней системой одновременно всех сегментов кластера. Отказоустойчивость распределенной СУБД достигается за счет настраиваемой системы резервирования [1].

ArenaData DB

 

Что такое Arenadata Streaming

Arenadata Streaming (ADS) – это отказоустойчивая масштабируемая система потоковой обработки распределенных данных в режиме реального времени, разработанная на базе проектов с открытым исходным кодом – Apache Kafka и Apache Nifi. ADS интегрируется со множеством сторонних систем (Elasticsearch, SAP HANA, Vertica, Couchbase, Cassandra, CouchDB, IBM MQ и пр.) с помощью широкого набора коннекторов и API-интерфейсов. 

Инструментарий транзакционных журналов, гибкие механизмы контроля доступа к данным и обеспечения консистентности при потоковой передаче в режиме реального времени гарантируют безопасность хранения и обработки корпоративной информации. ADS может использоваться в качестве корпоративной шины обмена данными для всех бизнес-приложений путем решения следующих задач [1]:

  • публикация и подписка на потоковую передачу данных в очереди сообщений или корпоративной системе обмена сообщениями;
  • отказоустойчивое хранение потоков записей;
  • оперативная обработка потоков записей по мере их возникновения.

ADS является комплексным Big Data решением потоковой обработки, включая все необходимые компоненты для сбора, анализа и обработки данных в режиме реального времени, а также для хранения и передачи в семантике в точности однократной доставки (exactly once).  Продукт отличается высокой степенью надежности, отказоустойчивости, безопасности и простотой эксплуатации за счет наличия удобных интерфейсов администрирования и разработки [1].

Arenadata Streaming

 

7 главных преимуществ продуктов Arenadata

  1. Полная локализация: для российских пользователей предлагается поддержка в России и на русском языке, с полным набором возможностей по автоматическому развертыванию в облаке и on-premises, оригинальную документацию на русском языке, а также удаленную или on-site поддержку [1].
  2. Возможность offline-установки: пакет утилит для развертывания без доступа к сети Интернет [1];
  3. Автоматизация процессов развертывания как на «голом железе», так и на виртуальных машинах (в «облаке»). В частности, для Arenadata Hadoop средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность каждого компонента системы. Apache Ambari обеспечивает интерфейсы для интеграции с существующими системами управления (Microsoft System Center и Teradata ViewPoint) [1].
  4. Отсутствие зависимости от производителя («вендор-лог») — дистрибутивы собраны на основе открытых проектов Apache Software Foundation без использования проприетарных компонентов.
  5. Адаптация для корпоративного использования — продукты ориентированы на эксплуатацию в условиях высоких нагрузок, включают широкие возможности по обеспечению информационной безопасности и защиты данных, а также содержат средства интеграции с другими популярными Big Data решениями, корпоративными информационными системами, база и хранилищами данных.
  6. Российское программное обеспечение: в 2017 году Минкомсвязь РФ включило Arenadata Hadoop в Единый реестр российских программ для электронных вычислительных машин и баз данных [2]. В 2018  и 2019 аналогичным образом были зарегистрированы ADB и ADS.
  7. Гибкая ценовая политика — каждый продукт компании Arenadata доступен в двух версиях: бесплатной (community) и платной (enterprise), которые отличаются друг от друга составом компонентов и функциональными возможностями. Бесплатный пакет включает ядро проекта и небольшую часть собственных разработок компании Arenadata. Enterprise-версия представляет собой максимально полное решение, созданное вендором [1].

Источники

  1. Сайт компании производителя Arenadata 
  2. https://www.ibs.ru/media/news/distributiv-arenadata-hadoop-vklyuchen-v-reestr-rossiyskogo-po/