Практическая цифровизация с DataOps в Arenadata Analytic Workspace

Продолжая разговор про Apache Zeppelin, сегодня рассмотрим, как на его основе ведущий разработчик отечественных Big Data решений, компания «Аренадата Софтвер», построила самообслуживаемый сервис (self-service) Data Science и BI-аналитики – Arenadata Analytic Workspace. Читайте далее, как развернуть «с нуля» рабочее место дата-аналитика, где место этого программного решения в конвейере DataOps и при чем здесь цифровизация.

Аналитика больших данных, DataOps и цифровизация: модные слова или необходимость

Напомним, DataOps (от Data Operations) – это концепция непрерывной интеграции данных между процессами, командами и системами для повышения эффективности корпоративного управления за счет распределенного сбора, централизованной аналитики и гибкой политики доступа к информации с учетом ее конфиденциальности, ограничений на использование и соблюдения целостности. Данный термин впервые прозвучал в 2015 году в контексте демократизации Big Data. С тех пор он приобретает все большую популярность благодаря растущему тренду на цифровую трансформацию бизнеса и data-driven управление [1]. Таким образом, цифровизация выступает дополнительным драйвером развития концепции DataOps, требуя непрерывного конвейера операций по работе с данными, включая сбор, агрегацию, очистку, преобразование, обогащение, интеграцию, фильтрацию и предоставление результатов по требованию уполномоченных пользователей в нужном виде (графики, таблицы и прочие виды визуализации). Причем в идеальном случае это должно выполняться в каждом бизнес-процессе компании, обеспечивая сквозное и прозрачное управление на основе актуальных данных.

В 2018 году аналитическое агентство Gartner включило DataOps в свой ежегодный список наиболее перспективных технологий в категории «Управление данными» (Data Management), представив его в стадии роста ажиотажа на своем графике технологической зрелости (Hype Cycle). Прогнозируется, что на плато продуктивности концепция DataOps выйдет через 5-10 лет, т.е. к началу 2030-хх гг. Gartner позиционирует DataOps не как чистую технологию, строгий стандарт или жесткую догму, а обозначают этим понятием набор связанных практик по представлению и обновлению данных для удовлетворения потребностей корпоративных потребителей [2].

Hype Cycle Gartner Data Management , DataOps, управление данными — Hype Cycle от Gartner по направлению Data Management, 2018 года

С технологической точки зрения DataOps представляет собой конвейер взаимосвязанных операций с данными, от сбора и агрегации до визализации результатов преобразований, которые нужны для получения ценных бизнес-выводов (инсайтов). Реализация каждого этапа выполняется с использованием одной или сразу нескольких технологий Big Data, среди которых могут быть как проприетарные, так и open-source решения [3].

DataOps, Big Data, BI, Data Analytics — Процессы и технологии DataOps

С точки зрения конечного пользователя, аналитика больших данных занимает конечное место в этом конвейере обработки информации (data pipeline), предоставляя полезные прогнозы и рекомендации в визуальном интерфейсе BI-систем и интерактивных дэшбордов. При этом, в отличие от BI-систем прошлого десятилетия, сегодня Data Analyst работает не только с витринами данных реляционного КХД через SQL-запросы, а активно использует алгоритмы машинного обучения (Machine Learning) и прочие методы искусственного интеллекта, встроенные в современные Data Science/BI-сервисы. Как это реализовано в отечественном Big Data продукте, Arenadata Analytic Workspace, мы рассмотрим далее.

Arenadata Analytic Workspace: как это устроено и чем полезно бизнесу

Arenadata Analytic Workspace – это рабочее место аналитика Big Data в виде самообслуживаемого сервиса Data Science и BI. Как и другие продукты компании Arenadata, это решение основано на open-source технологиях, адаптированных к корпоративным потребностям, таких как интеграция со сторонними системами и разработка кастомных модулей Python [4].

О том, что такое self-service BI-аналитика больших данных, мы рассказывали здесь. Подчеркнем, что ключевыми достоинствами этого подхода считаются следующие [5]:

сокращение времени поставки и подготовки данных для анализа;
консолидация данных, кода и визуализации в одной системе;
дополнение традиционных BI-систем средствами расширенной аналитики (Augmented Analytics), такими как алгоритмы машинного обучения (Machine Learning) и другие методы искусственного интеллекта, а также облачная обработка больших данных во внешних кластерах в рамках DaaS-сервисов;
сокращение затрат на ИТ-инфраструктуру;
снижение порога входа в аналитику больших данных;
минимизация vendor-lock риска при использовании проприетарных BI-систем;
защита данных, кода и визуализации результатов от несанкционированного доступа.

Реализацию всех этих преимуществ Arenadata Analytic Workspace выполнила на основе Apache Zeppelin – интерактивного веб-блокнота, который полностью соответствует концепции DataOps, поддерживая все этапы работы с данными в Data Science, от извлечения до визуализации, включая интерактивный анализ и совместное использование документов. Непрерывность data pipeline’а между различными бизнес-процессами обеспечивается за счет бесшовной интеграции с Apache Spark, Flink, Hadoop, множеством реляционных и NoSQL-СУБД (Cassandra, HBase, Hive, PostgreSQL, Elasticsearch, Google Big Query, Mysql, MariaDB, Redshift). Также, с помощью соответствующих интерпретаторов (плагинов) Zeppelin поддерживает разные языки программирования для Big Data: Python, PySpark, R, Scala и SQL. Таким образом, Apache Zeppelin отлично подходит для аналитики больших данных в экосистеме Hadoop, в т.ч. с помощью собственных Spark-приложений. А защита данных и кода от несанкционированного доступа достигается благодаря LDAP и управление разрешениями в многопользовательском режиме [6]. Подробнее о том, что такое Apache Zeppelin и чем он отличается от Jupyter Notebook, мы писали здесь.

Возвращаясь к DataOps и цифровизации, отметим, что Arenadata Analytic Workspace на базе Apache Zeppelin также поддерживает тренд на демократизацию данных и процедур работы с ними, в т.ч. операций по установке и конфигурированию рабочих ИТ-инструментов. В частности, установка, настройка, расширение и обновление Arenadata Analytic Workspace сводится к загрузке Docker-образа из репозитория разработчика и создании на его основе нового контейнера [7]. Это очень удобно и в полной мере соответствует принципам self-service подхода.

В заключение стоит сказать, что Arenadata Analytic Workspace – это не единственный self-service Data Science и BI-аналитики. В плани функциональных возможностей к нему наиболее близок продукт одного из самых крупных зарубежных вендоров Big Data решений – Cloudera Data Science Workbench. Что собой представляет эта платформа и чем она отличается от Arenadata Analytic Workspace, мы рассмотрим завтра.

А как внедрить самообслуживаемую аналитику больших данных и другие элементы DataOps в проекты цифровизации своего бизнеса, а также государственных и муниципальных предприятий, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Смотреть расписание

Записаться на курс