Особенности построения озера данных (Data Lake)

5 уровней зрелости вашего предприятия и особенности  построения озера данных на каждом из них

Примерно с 2013 года тема технологий Big Data преподносится в СМИ [1-3] как панацея решения почти всех бизнес-проблем, обещая многократное сокращение расходов, повышение прибыли и оптимизацию процессов за счет быстрой обработки больших объемов неструктурированной информации, поступающей из разных источников [4]. Однако, внедрение любых информационных технологий на предприятии без устоявшейся системы управления равнозначно автоматизации хаоса [5]. Прежде всего следует определить уровень корпоративной зрелости, применив для этого методологию оценки бизнес-процессов Capability Maturity Model Integration (CMMI) [6]. В таблице 1 показаны 5 уровней зрелости бизнес-процессов по CMMI-модели.

Уровни зрелости для внедрения  с учетом особенности построения озера данных Data Lakes
Уровень зрелости организации влияет на степень готовности к внедрению технологий BigData и Data Lakes

Таблица 1. 5 уровней зрелости бизнес-процессов по CMMI-модели

Уровень зрелости управления

Состояние бизнес-процессов

5. Оптимизируемый

Находятся в состоянии непрерывного мониторинга и улучшения

4. Управляемый на основе количественных данных

Измеряются и контролируются

3. Определенный

Определены на уровне всей организации и исполняются заблаговременно

2. Управляемый

Определены на уровне проектов, часто появляются в ответ на определенные события

1. Начальный

Непредсказуемые, слабо контролируемые, появляются в ответ на определенные события

При анализе следует учитывать состояние и структуру следующих объектов [6]:

  • Данные – полнота и корректность, а также способы хранения, представления и порядок обработки корпоративной информации;
  • Технологии – инструменты автоматизации информационных и производственных процессов, а также степень их интеграции между собой;
  • Люди – должности и подразделения (команды) взаимозаменяемы или результативность выполнения задач основана на конкретных личностях;
  • Процессы – полнота описания, порядок и характер выполнения деятельности, от спонтанного до контролируемого в любой момент времени.

Непрерывное улучшение корпоративного управления состоит в последовательном продвижении процессов с 1-го к 5-му уровню зрелости, включая соответствующее преобразование данных, технологий и людей. Например, сегодня ваша компания находится на начальной стадии развития, когда деятельность и ответственность исполнителей регламентирована не четко, данные находятся в разрозненном виде и не связаны между собой, а используемые программные средства решают только локальные задачи и не автоматизируют взаимный обмен информацией. В этом случае, прежде всего, необходимо формализовать бизнес-процессы, подробно описав направления деятельности предприятия, входные и выходные объекты, используемые средства автоматизации, а также обязанности и ответственность исполнителей [5].

Далее следует определить требования к форматам хранения и представления информации, а также к средствам и процедурам обмена данными. После этого можно говорить о внедрении технологий Big Data и построении корпоративного озера данных. В таблице 2 показаны этапы формирования корпоративного озера данных в зависимости от уровня зрелости управления по CMMI-модели [6].

Таблица 2. Этапы формирования корпоративного озера данных в зависимости от уровня зрелости управления по CMMI-модели

Уровень зрелости управления

Состояние и характер данных

Этап формирования корпоративного озера данных

5. Оптимизируемый

Процедуры автоматизированного появления, обновления, обмена и синхронизации данных между различными процессами, системами и структурами предприятия отлажены и успешно работают

Самоорганизующееся

озеро данных

4. Управляемый на основе количественных данных

Синхронизация данных между различными процессами, системами и структурами предприятия автоматизирована не полностью, часть процедур запускается по требованию или вручную

Управляемое озеро данных

Managed Data Lake

3. Определенный

Обмен данными между различными процессами, системами и структурами предприятия частично автоматизирован, имеется единый каталог корпоративных данных

Озеро данных

(Data Lake)

2. Управляемый

Информация достаточно успешно обрабатывается автоматически в пределах одного подразделения, но не интегрирована с другими корпоративными процессами и структурами (отделами, филиалами и пр.)

Лужа или болото данных

(Data Swamp)

1. Начальный

Данные дублируются или частично отсутствуют, представлены в разных форматах и системах, не связаны между собой, велика доля ручной обработки данных

Локальное хранилище данных без определенного порядка автоматизированной обработки

Хотите узнать больше про особенности построения озера данных и как успешно построить свое Data Lake? Тогда приходите на наши практические курсы «Безопасность озера данных Hadoop», где вы получите знания и навыки по установке, конфигурированию, обслуживанию и управлению защищенной средой кластера, а также освоите средства развертывания и администрирования интегрированной архитектурой корпоративного информационного пространства на основе современных технологий Big Data. Очередной набор на курс «Безопасность озера данных Hadoop» состоится уже совсем скоро. Смотрите подробную информацию об обучении здесь. До встречи на занятиях!


Источники

  1. https://rb.ru/howto/chto-takoe-big-data/
  2. http://www.clouderp.ru/tags/big_data/
  3. https://postnauka.ru/faq/46974
  4. https://habr.com/ru/company/dca/blog/267361/
  5. https://wiseadvice-it.ru/o-kompanii/blog/articles/vnedrenie-informacionnyh-sistem/
  6.  https://resources.zaloni.com/i/1078782-data-lake-maturity-model/3

 

4 комментария к “Особенности построения озера данных (Data Lake)”

Комментарии закрыты.