Особенности построения озера данных (Data Lake)

5 уровней зрелости вашего предприятия и особенности  построения озера данных на каждом из них

Примерно с 2013 года тема технологий BigData преподносится в СМИ [1-3] как панацея решения почти всех бизнес-проблем, обещая многократное сокращение расходов, повышение прибыли и оптимизацию процессов за счет быстрой обработки больших объемов неструктурированной информации, поступающей из разных источников [4]. Однако, внедрение любых информационных технологий на предприятии без устоявшейся системы управления равнозначно автоматизации хаоса [5]. Прежде всего следует определить уровень корпоративной зрелости, применив для этого методологию оценки бизнес-процессов Capability Maturity Model Integration (CMMI) [6]. В таблице 1 показаны 5 уровней зрелости бизнес-процессов по CMMI-модели.

Уровни зрелости для внедрения  с учетом особенности построения озера данных Data Lakes
Уровень зрелости организации влияет на степень готовности к внедрению технологий BigData и Data Lakes

Таблица 1. 5 уровней зрелости бизнес-процессов по CMMI-модели

Уровень зрелости управления

Состояние бизнес-процессов

5. Оптимизируемый

Находятся в состоянии непрерывного мониторинга и улучшения

4. Управляемый на основе количественных данных

Измеряются и контролируются

3. Определенный

Определены на уровне всей организации и исполняются заблаговременно

2. Управляемый

Определены на уровне проектов, часто появляются в ответ на определенные события

1. Начальный

Непредсказуемые, слабо контролируемые, появляются в ответ на определенные события

При анализе следует учитывать состояние и структуру следующих объектов [6]:

  • Данные – полнота и корректность, а также способы хранения, представления и порядок обработки корпоративной информации;
  • Технологии – инструменты автоматизации информационных и производственных процессов, а также степень их интеграции между собой;
  • Люди – должности и подразделения (команды) взаимозаменяемы или результативность выполнения задач основана на конкретных личностях;
  • Процессы – полнота описания, порядок и характер выполнения деятельности, от спонтанного до контролируемого в любой момент времени.

Непрерывное улучшение корпоративного управления состоит в последовательном продвижении процессов с 1-го к 5-му уровню зрелости, включая соответствующее преобразование данных, технологий и людей. Например, сегодня ваша компания находится на начальной стадии развития, когда деятельность и ответственность исполнителей регламентирована не четко, данные находятся в разрозненном виде и не связаны между собой, а используемые программные средства решают только локальные задачи и не автоматизируют взаимный обмен информацией. В этом случае, прежде всего, необходимо формализовать бизнес-процессы, подробно описав направления деятельности предприятия, входные и выходные объекты, используемые средства автоматизации, а также обязанности и ответственность исполнителей [5].

Далее следует определить требования к форматам хранения и представления информации, а также к средствам и процедурам обмена данными. После этого можно говорить о внедрении технологий BigData и построении корпоративного озера данных. В таблице 2 показаны этапы формирования корпоративного озера данных в зависимости от уровня зрелости управления по CMMI-модели [6].

Таблица 2. Этапы формирования корпоративного озера данных в зависимости от уровня зрелости управления по CMMI-модели

Уровень зрелости управления

Состояние и характер данных

Этап формирования корпоративного озера данных

5. Оптимизируемый

Процедуры автоматизированного появления, обновления, обмена и синхронизации данных между различными процессами, системами и структурами предприятия отлажены и успешно работают

Самоорганизующееся

озеро данных

4. Управляемый на основе количественных данных

Синхронизация данных между различными процессами, системами и структурами предприятия автоматизирована не полностью, часть процедур запускается по требованию или вручную

Управляемое озеро данных

Managed Data Lake

3. Определенный

Обмен данными между различными процессами, системами и структурами предприятия частично автоматизирован, имеется единый каталог корпоративных данных

Озеро данных

(Data Lake)

2. Управляемый

Информация достаточно успешно обрабатывается автоматически в пределах одного подразделения, но не интегрирована с другими корпоративными процессами и структурами (отделами, филиалами и пр.)

Лужа или болото данных

(Data Swamp)

1. Начальный

Данные дублируются или частично отсутствуют, представлены в разных форматах и системах, не связаны между собой, велика доля ручной обработки данных

Локальное хранилище данных без определенного порядка автоматизированной обработки

Хотите узнать больше про особенности построения озера данных и как успешно построить свой Data Lake? Тогда приходите на наши практические курсы «Безопасность озера данных Hadoop», где вы получите знания и навыки по установке, конфигурированию, обслуживанию и управлению защищенной средой кластера, а также освоите средства развертывания и администрирования интегрированной архитектурой корпоративного информационного пространства на основе современных технологий BigData. Очередной набор на курс «Безопасность озера данных Hadoop» состоится уже в феврале 2019. Смотрите подробную информацию об обучении здесь. До встречи на занятиях!


Источники

  1. https://rb.ru/howto/chto-takoe-big-data/
  2. http://www.clouderp.ru/tags/big_data/
  3. https://postnauka.ru/faq/46974
  4. https://habr.com/ru/company/dca/blog/267361/
  5. https://wiseadvice-it.ru/o-kompanii/blog/articles/vnedrenie-informacionnyh-sistem/
  6.  https://resources.zaloni.com/i/1078782-data-lake-maturity-model/3