Очень быстрая аналитика больших данных: Arenadata QuickMarts и яндексовский ClickHouse

Arenadata QuickMarts, ClickHouse, Аренадата, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, цифровизация, цифровая трансформация, DWH, ритейл

Вчера мы рассказывали про применение Arenadata DB в крупной отечественной сети розничного ритейла. Сегодня рассмотрим еще один Big Data продукт от российской компании Аренадата, который Х5 Retail Group использует для быстрой аналитики больших данных. Читайте в нашей статье, что такое Arenadata QuickMarts и при чем здесь ClickHouse от Яндекса.

Что такое Arenadata QuickMarts и зачем она нужна

Начнем с определения: Arenadata QuickMarts (ADQM) – это кластерная колоночная СУБД для генерации аналитических отчетов по большим данным в режиме реального времени. Подчеркнем, что основным назначением систем интерактивной аналитики OLAP (Online Analytical Processing) является именно построение отчетов, а не как таковое хранение данных (data storage) и обработка транзакций в реальном времени (OLTP, Online Transaction Processing). Подробнее об отличиях OLAP и OLTP мы писали здесь. Именно столбцовые СУБД лучше подходят для OLAP-сценариев, когда данные в основном считываются, а не записываются, транзакции отсутствуют, а результат выполнения SQL-запроса существенно меньше исходных данных [1].

В отличие от MPP-СУБД, к которым относится Arenadata DB на базе Greenplum, ADQM оптимизирована для хранения информации в колоночных форматах на жестких дисках. Это, вместе с векторной обработкой данных на C++, позволяет до 2,5 раз повысить скорость формирования аналитических отчетов. Такие результаты особенно востребованы в следующих прикладных отраслях работы с Big Data [2]:

  • веб-аналитика и контекстная реклама;
  • real time мониторинг бизнес-метрик, например, анализ потребительского поведения на сайте;
  • интерактивное взаимодействие с пользователями, например, онлайн-игры;
  • контроль технических показателей, в т.ч. интернет вещей (Internet of Things).

Из вышеотмеченных кейсов в индустрии e-commerce наиболее востребована аналитика пользовательского поведения. Поэтому один из ведущих отечественных ритейлеров, торговая сеть Х5 Retail Group выбрала Arenadata QuickMarts для быстрого построения аналитических витрин в рамках своей Big Data платформы на базе Arenadata DB [3].

Аренадата, Arenadata QuickMarts, аналитика больших данных
Источники и приемники данных для Arenadata QuickMarts

ADQM vs ClickHouse: 5 главных отличий

В основе Arenadata QuickMarts лежит ClickHouse – open-source СУБД от корпорации Яндекс, созданная отечественным ИТ-гигантом в 2009 году для собственных нужд веб-аналитики в рамках продукта «Яндекс.Метрика». В 2016 году Яндекс открыл исходный код ClickHouse [4] и на базе этого проекта в 2019 году отечественный разработчик Apache Hadoop, компания Arenadata, представила свою корпоративную СУБД для быстрой аналитики больших данных. Из наиболее крупных внедрений ClickHouse стоит отметить сервисы Яндекс (Метрика, Почта, Маркет, Танк), а также сторонние корпорации: Bloomberg, ВКонтакте, Rambler, Тинькофф банк, Avito.ru, СМИ2, ivi.ru, Mail.ru и множество других компаний, которым нужна быстрая аналитика больших объемов структурированных данных [5].

При общих принципах колоночного хранения информации, однотипных движках (баз данных, таблиц и интеграции с другими системами, например, с Apache Kafka или MySQL), а также строго реляционной модели данных, ADQM отличается от ClickHouse. В частности, компания-разработчик выделяет следующие особенности, важные для корпоративного использования [2]:

  • гибкая авторизация пользователей и разграничение доступов благодаря прокси-серверу Arenadata Baje, который поддерживает прикладной протокол доступа к службе каталогов LDAP, а также помогает сбалансировать нагрузку и распределить доступ к базам данных;
  • поддержка колоночного формата ORC;
  • наличие инструментов администратора Graphite и Grafana для мониторинга производительности кластера;
  • поддержка безопасного протокола взаимной аутентификации клиента и сервера Kerberos, который стал стандартом де-факто для экосистемы Apache Hadoop;
  • бесшовная интеграция с другими продуктами компании Аренадата — Arenadata Hadoop, Arenadata DB, Arenadata Streaming.

Также производитель отмечает следующие отличительные преимущества ADQM [2]:

  • простота развёртывания с помощью специализированного модульного инструмента Arenadata Cluster Manager;
  • оптимизация распределения запросов;
  • отечественное происхождение продукта и российская техподдержка с постоянной доработкой и выпуском новых версий.

Эти достоинства уже успела оценить Х5 Retail Group [3]. Ожидается, что в ближайшем будущем мы узнаем еще много интересных примеров внедрения Arenadata QuickMarts в ИТ-ландшафты крупных предприятий с целью оперативной аналитики большого объема структурированных данных, а также хранения широких витрин и таблиц фактов при организации современных КХД. В следующей статье мы продолжим разговор про СУБД для хранения и аналитики больших данных — расскажем про достоинства и недостатки MPP-систем на примере Greenplum и Arenadata DB. А про другой продукт компании Аренадата, In-Memory СУБД Arenadata Grid, читайте здесь.

Стать профессионалом по аналитике Big Data с помощью продуктов Arenadata вам поможет наш лицензированный учебный центр повышения квалификации Школа Больших Данныхединственный авторизованный партнер компании Аренадата по обучению и сертификации специалистов в Москве:

Источники

  1. https://clickhouse.tech/docs/ru/single/
  2. https://arenadata.tech/products/adqm/
  3. https://globalcio.ru/live/projects/3293/
  4. https://habr.com/ru/post/322724/
  5. https://ru.wikipedia.org/wiki/ClickHouse