От банков до Газпрома: 4 крупных успеха Arenadata – интересные кейсы за последнюю пару лет

Аренадата, Aernadata, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake

Сегодня мы поговорим про продукты компании Arenadata – отечественного разработчика дистрибутива Apache Hadoop (ADH), массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB) и других Big Data платформ. Читайте в нашей статье, где внедрены эти решения и какую пользу они уже успели принести бизнесу.

Облака и банк: 3 примера внедрения Arenadata DB

Компания Mail.ru Group, один из ведущих облачных провайдеров в России, решила объединить преимущества своей инфраструктуры с достоинствами Arenadata DB – распределенной массивно-параллельной СУБД для анализа и хранения больших данных. С 29 апреля 2020 года Mail.ru Cloud Solutions запустила на своей платформе сервис по развертыванию и использованию ADB [1]. Аналогичную услугу с февраля 2020 года предлагает другой крупный SaaS-провайдер и системный интегратор – компания Крок [2].

Из наиболее известных внедрений Arenadata DB стоит отметить опыт розничного онлайн-банка Touch Bank, который с 2018 года вошел в состав OTP Group. Изначально с 2014 года банк использовал реляционную СУБД Pivotal Greenplum для своих аналитических задач. Однако, в 2017 году после ухода компании Pivotal с российского рынка и открытия исходного кода Greenplum под лицензией Apache 2.0 перед банком встал вопрос техподдержки СУБД и её миграции на следующие версии. Поэтому было решено перейти на ADB. В результате проекта Touch-банк значительно снизил расходы на использование СУБД при сохранении высокого уровня надёжности и доступности сервиса [3].

ArenaData DB
Основные компоненты Arenadata DB

Умное озеро данных на Arenadata Hadoop в ПАО «Газпромнефть»

Мы уже писали о тренде на интеграцию корпоративных хранилищ данных (КХД) с нереляционными озерами данных (Data Lake), где сохраняется множество разнообразной информации. Аналитическое агентство Gartner позиционирует такое объединение как современный архитектурный шаблон для комплексных аналитических платформ. Эта концепция предполагает совместную работу КХД и Data Lake для обеспечения операций управления данными (Data Governance), чтобы каждый сотрудник предприятия мог оперативно получить доступ к согласованной и актуальной для него информации через единый пользовательский интерфейс. Такая задача особенно востребована в крупных компаниях с большим объемом данных и высоким уровнем управленческой зрелости (4-5 по модели CMMI).

Заказчиком проекта выступила дирекция региональных продаж ПАО «Газпром нефть», которая управляет сетью АЗС в России, СНГ и странах Восточной Европы, включая магазины, кафе и топливные терминалы, а также производит биржевые и оптовые продажи, доставку и контроль качества нефтепродуктов. Была поставлена цель внедрения комплексной системы анализа больших данных и управления ими для решения следующих задач [4]:

  • снижение затрат на интеграцию данных;
  • централизация инфраструктуры и сервисов;
  • демократизация данных через общий пользовательский портал, в т.ч. доступ к единому бизнес-словарю всех аналитических витрин и приложений, актуальным картам происхождения, правилам и метрикам качества данных;
  • повышение доступности и качества данных, включая управление НСИ;
  • быстрое развертывание сред и предоставление датасетов для Data Science;
  • повышение эффективности работы аналитиков за счет средств контроля происхождения данных (data lineage и provenance), а также инструментов профилирования и автоматической разметки всех данных в едином каталоге.

Комплексная платформа для решения всех этих и множества сопутствующих задач была развернута на базе следующих компонентов [4]:

  • подсистемы Data Governance на платформе Informatica (Axon, Enterprise Data Catalog, Data Quality, Big Data Management, PowerCenter) для управления качеством данных, организации каталога, бизнес-глоссария и пользовательского портала;
  • Data Lake на основеArenadata Hadoop;
  • аналитическое хранилище данных (Microsoft SQL Server 2017);
  • BI-система Qlik;
  • инструменты Data Science для анализа данных и ML-моделирования (Apache Spark, RStudio, Scikit-learn и другие библиотеки машинного обучения для Python и прочих языков программирования). 

Arenadata Hadoop выполняла роль хранилища «сырых данных», куда попадала первичная информация из сторонних источников, а также данные, обработанные компонентами платформы Informatica Big Data Management, Enterprise Data Catalog, Data Quality. Наличие в дистрибутиве ADH средств обеспечения cybersecurity (Apache Ranger, Knox, Atlas) позволило обеспечить безопасность озера данных, а Airlow – реализацию потоковых ETL-процессов. Также Arenadata Hadoop включает и другие инструменты, необходимые для эффективного использования современного Data Lake: Apache Solr для полнотекстового поиска, Hive c HBase и Phoenix для быстрой SQL-аналитики больших данных, Spark для распределенных вычислений в режиме near real-time и другие полезные инструменты [5].

В результате проекта, который выполнялся с января 2018 по октябрь 2019 года, «умное» озеро данных развернуто в петербургском ЦОДе «Газпром нефти». Доступ к решению имеют аналитики бизнес-подразделений Дирекции региональных продаж, которые расположены в 29 регионах России и 4-х странах СНГ. Также эта Big Data система поставляет исходные данные для различных корпоративных систем и итоговые показатели для внешних партнеров [4].

Data Lake, Arenadata Hadoop, Газпром, озеро данных, большие данные в нефтегазовой промышленности
Умное озеро данных Газпромнефти на Arenadata Hadoop

Примечательно, что это Big Data решение ПАО «Газпромнефть» вошло в число победителей премии «Проекта Года 2019», наряду с 2-мя другими крупными внедрениями Arenadata Hadoop [6], о которых мы расскажем в следующей статье.

Школа Больших Данных как единственный авторизованный партнер компании Arenadata по сертификации специалистов и обучению работе с продуктами экосистемы Arenadata Enterprise Data Platform, реализует специализированные курсы по ADH и ADB:

Также навыки администрирования и эксплуатации Apache Hadoop вы можете получить на практических курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Источники

  1. https://arenadata.tech/about/news/mail-ru-cloud-solutions-zapustila-v-oblake-analiticheskuyu-bazu-dannykh-arenadata-db-na-osnove-greenplum/
  2. https://www.comnews.ru/digital-economy/content/204551/2020-02-12/2020-w07/krok-oblachnye-servisy-zapustil-uslugu-dlya-analiza-bolshikh-dannykh
  3. http://www.tadviser.ru/index.php/Проект:Touch_Bank_%28ADB_-_Arenadata_BD%29
  4. https://globalcio.ru/live/projects/3040/
  5. https://arenadata.tech/products/hadoop/
  6. https://arenadata.tech/about/news/proekt-x5-retail-group-i-arenadata-stal-pobeditelem-konkursa-proekt-goda-2019/