Еще больше данных для торговой аналитики: Arenadata в Х5 Retail Group

Автор Категория , , ,
Еще больше данных для торговой аналитики: Arenadata в Х5 Retail Group

Продолжая разговор про успехи применения отечественных Big Data продуктов, сегодня мы рассмотрим пример использования Arenadata DB в одной из ведущих отечественных компаний розничного ритейла. Читайте в нашей статье про особенности внедрения распределенной отказоустойчивой MPP-СУБД для аналитики больших данных в Х5 Retail Group.

Зачем ритейлеру еще одно Big Data решение: специфика проекта

Еще в 2016 году компания X5 Retail Group начала выстраивать комплексный data-driven подход к бизнесу, чтобы оперативно и даже заблаговременно принимать управленческие решения на основе данных. Для этого было решено создать глобальную аналитическую платформу, которая будет агрегировать все корпоративные данные, автоматизируя задачи Data Governance и отвечая на вопросы менеджеров и аналитиков компании. При этом пользоваться такой Big Data системой будут более 2000 аналитиков, задавая около 800 конкурентных запросов одновременно. Следовательно, отказоустойчивость и способность выдерживать высокие нагрузки без потери скорости и качества работы стали главными требованиями к СУБД. Также важно критерием выбора СУБД является разнообразие данных, которые планируется хранить и анализировать: сведения о товарах, клиентах и контрагентах, а также чеки и другая торговая информация [1].

Этим требованиям соответствует массивно-параллельная архитектура (Massive Parallel Processing, MPP), суть которой физическом разделении памяти локальных узлов, объединённых в кластер. При том, что системы такого класса потребляют много ресурсов ЦП, памяти и места на жестком диске, они обладают рядом уникальных достоинств. Наиболее значимыми преимуществами MPP-СУБД считаются быстрота обработки даже огромного объема данных за счет распараллеливания операций, простота горизонтального масштабирования и отказоустойчивость [2]. Поэтому ИТ-специалисты X5 Retail Group стали смотреть в сторону MPP-систем, среди которых очень популярна open-source СУБД Greenplum. Ее коммерческим дистрибутивом с профессиональной технической поддержкой от отечественной компании Аренадата является Arenadata DB (ADB). Так в ноябре 2018 года ритейлер начал проект по внедрению ADB в качестве распределенной СУБД для хранения и аналитической обработки больших данных. Примечательно, что это был первый опыт промышленного использования Greenplum среди российского ритейла [1].

Основы Arenadata Hadoop + сертификация

Код курса
ADHI
Ближайшая дата курса
6 декабря, 2021
Длительность обучения
24 ак.часов
Стоимость обучения
90 000 руб.

Как это было: техническая сторона проекта по внедрению Arenadata DB

В X5 Retail Group уже работает кластер Hadoop, поэтому требовалось организовать взаимодействие ADB c существующей Big Data инфраструктурой. Такая бесшовная интеграция реализована с помощью Java-фреймворка PXF, позволяющего Greenplum параллельно обмениваться данными со сторонними системами за счет самостоятельно написанных коннекторов. Напомним, PXF появился в рассматриваемой MPP-СУБД еще в 2017 году в версии 5. Этот фреймворк представляет собой отдельный процесс на сервере, который общается с сегментами Greenplum через REST API с одной стороны, а с другой использует сторонние Java-клиенты и библиотеки. Таким образом можно организовать обмен данными между Apache HDFS, Hbase и Hive с внешними СУБД через JDBC. Это позволяет строить на базе Greenplum гибкие и производительные платформы обработки больших данных по типу Лямбда-архитектуры: хранить самую свежую информацию, например, в Oracle, а архивные – в Hadoop. При этом пользователь будет видеть все данные в одной таблице за счет механизма партиционирования с подключением внешних таблиц [3]. Подробнее о том, как работает PXF в Greenplum, читайте в нашей новой статье.

Сперва X5 Retail Group строил конфигурацию кластера Arenadata DB на минимальной технической инфраструктуре вычислительных мощностей с возможностью дальнейшего масштабирования при росте нагрузки. Однако, на практике компания столкнулась со следующими проблемами [4]:

  • неоптимальное распределение сегментов, что негативно сказалось на производительности кластера при его расширении. Это вообще характерно для MPP-систем из-за зеркальной топологии, которая обеспечивает отказоустойчивость. 6-я версия, вышедшая в конце 2019 года, позволяет побороть этот недостаток с помощью алгоритма consistent hashing, который разрешает перераспределять только часть блоков при добавлении новых узлов в кластер, ускоряя фоновое перераспределение таблиц [5].
  • разграничение ресурсов кластера по нагрузке на дисковую подсистему. Это можно решить разделением хранилища данных на сегменты, например, один — только для Greenplum, другой — общий. Так было сделано в компании КРОК, которая предоставляет ADB по SaaS-модели [6].

Greenplum для инженеров данных

Код курса
GPDE
Ближайшая дата курса
2 марта, 2022
Длительность обучения
24 ак.часов
Стоимость обучения
54 000 руб.

Тем не менее, даже при перечисленных сложностях Arenadata DB позволила X5 Retail Group построить аналитический слой детальных данных с описанной моделью, бизнес-владельцами доменов, словарем данных и привязкой к другим функциям Data Governance. В результате ритейлер получил надёжный сервис, доступный любому аналитику компании, чтобы принимать быстрые решения на основе Big Data [4]. Примечательно, что этот проект вошел в число победителей профессионального ИТ-конкурса GlobalCio «Проект года-2019» в номинации «Выбор экспертов», наряду с другими системами на базе ADB и Arenadata Hadoop, о чем мы писали здесь [7]. А общую удовлетворенность заказчика продуктами Аренадата подтверждает факт использования и другого решения компании – кластерной колоночной СУБД Arenadata Quick Marts [1], о которой мы расскажем в следующей статье.

Greenplum, Hadoop, PXF
Обмен данными между Greenplum и Hadoop с помощью PXF-фреймворка

Пройти образовательные курсы и стать профессионалом по ADH и ADB поможет наш лицензированный учебный центр повышения квалификации “Школа Больших Данных”единственный авторизованный партнер компании Arenadata по сертификации специалистов и обучению в Москве:

Источники

  1. https://arenadata.tech/about/cases/x5-retail-dwh.php
  2. https://habr.com/ru/company/croccloudteam/blog/485896/
  3. https://habr.com/ru/company/ibs/blog/343640/
  4. https://globalcio.ru/live/projects/3309/
  5. https://habr.com/ru/post/474008/
  6. https://habr.com/ru/company/croccloudteam/blog/485896/
  7. https://arenadata.tech/about/news/proekt-x5-retail-group-i-arenadata-stal-pobeditelem-konkursa-proekt-goda-2019/