Кто такой Data Steward: как организовать обеспечение Big Data Quality

Big Data, Большие данные, обработка данных, ETL, бизнес-процессы, люди, Data Stewardship, Data Governance, Data Management

Продолжая разговор про качество данных, сегодня мы рассмотрим организационную сторону этого аспекта и расскажем, что такое ответственность за большие данные и чем занимается дата стюард. Читайте в нашей статье про процессы Data Governance и особенности тактического управления данными: зачем нужен Data Steward, какую пользу он приносит бизнесу и сколько ему за это платят.

Сложности управления данными или зачем помощники Data Quality инженеру

Управление качеством данных не сводится только к обнаружению пропусков, дублей или аномальных значений. Технической стороной этого вопроса обычно занимается инженер по качеству данных (Data Quality Engineer) или тестировщик, однако исходная точка процессов Data Governance лежит в бизнес-плоскости. Управления качеством данных – это сквозной процесс в рамках операционной деятельности всего предприятия. Поэтому, по аналогии с владельцами бизнес-процессов, необходимо выделение владельцев данных. Data Owner отвечает за ввод данных в информационные системы, регулируя процессы управления качеством и безопасности данных в зоне своей ответственности. При этом зона ответственности определяется лишь природой данных и не зависит от программных приложений их использования [1].

Однако владелец данных – это роль без регулярного выполнения определенных функциональных обязанностей. Она предполагает полномочия вносить изменения, а также иметь доступ к бюджету или ресурсам для проведения мероприятий по очистке данных, однако не включает выполнение самих этих операций [2]. Поэтому возникла профессия дата стюарда – специалиста, который определяет требования и решает инциденты с качеством данных в рамках своего бизнес-подразделения. На практике дата-стюарды тесно взаимодействуют с владельцами данных, экспертами предметной области и аналитиками, которые готовят бизнес-требования к отчетам, приложениям, бизнес-терминам, справочникам и расчетам [3].

Чем занимается дата стюард

Глобальное управление данными (Data Governance) сосредоточено на политиках и процедурах высокого уровня, а Data Stewardship – на тактической координации и реализации процессов работы с информацией. В частности, Data Steward отвечает за выполнение политик использования корпоративных данных и их безопасности, связывая ИТ-инженеров с бизнес-подразделениями. Обычно функциональные обязанности дата стюарда включают следующее [4]:

  • определение требований к данным на основе бизнес-контекста своего подразделения и способы их использования для достижения корпоративных целей;
  • документирование и обеспечение соблюдения правил сбора, хранения и использования данных;
  • определение степени доверия к источникам данных;
  • обеспечение и гарантия качества корпоративных данных (собранных, хранящихся и используемых);
  • контроль инцидентов, связанных с качеством данных;
  • выполнение политик и стандартов, установленных программой управления данными;
  • обеспечение доступа к нужным данным нужным пользователям в нужное время в зависимости от того, является ли информация личными, корпоративными или конфиденциальными данными и т. д.;
  • помощь инженерам и аналитикам данных, а также Data Scientist’ам в проектировании и реализации процессов и процедур для сбора, хранения, использования и безопасности данных.

Таким образом, дата стюард несет ответственность за управление данными внутри своего бизнес-подразделения и использование информации, а также следит за соблюдением правил работы с ней в соответствии с корпоративными программами и политиками управления данными.

Big Data Management, Data Strategy, Data Steward, Data Governance
Как связаны Data Strategy, Data Steward и Data Governance

Что должен знать и уметь Data Steward

При том, что дата стюард позиционируется, в первую очередь, как транслятор между бизнесом и инженерией управления данными, он должен обладать следующими hard skills [5]:

  • опыт в программировании и понимание теории баз данных (SQL, NoSQL, NewSQL);
  • знание принципов хранения и обработки данных в стеке Big Data – пакетные и потоковые вычисления, Hadoop MapReduce, функциональные возможности Apache Spark, Kafka, NiFi, AirFlow, HDFS, HBase, Hive, Impala и другие средства SQL-on-Hadoop;
  • основы проектирования и работы с корпоративными хранилищами и озерами данных (Data WareHouse, Data Lake), а также ETL/ELT-процессами;
  • знакомство с инструментами обеспечения качества данных, например, Informatica Data Quality, Microsoft Data Quality Services, Oracle Enterprise Data Quality, SAP Data Services, Talend Open Studio for Data Quality и другие подобные системы;
  • методы и техники бизнес-анализа для выявления и формализации требований к данным;
  • нотации моделирования данных, в т.ч. процессные, например, DFD-диаграммы, а также логические модели ERD с целью описания зависимостей между справочниками информационных систем;
  • навыки разработки технической документации.

Также стоит отметить soft skills, обязательные для успешного дата стюарда [6]:

  • коммуникативные навыки;
  • любознательность;
  • способности к командному взаимодействию;
  • системное мышление;
  • знание доменной области.

Сколько стоит Data Stewardship: обзор рынка труда

На апрель 2020 года отечественный рынок труда демонстрирует не слишком высокий спрос на дата стюардов. Большинство вакансий открыты крупными организациями, которые стремятся стать data-driven и тесно работают со стеком технологий Big Data, например, банки (Газпромбанк, Сбербанк), ритейл (X5 Retail Group), телекомы и т.д. При этом функциональные обязанности Data  Steward’а в российских компаниях сильно перекликаются с задачами аналитика и инженера данных, а также архитектора Big Data и Data Scientist’а. В большинстве объявлений зарплатная вилка не указана. Зарубежный рынок демонстрирует существенное разнообразие доменных областей: медицина, образование, промышленность, мода и прочие отрасли. Также иностранные HR-менеджеры не скупятся на детали, подробно описывая рабочие задачи и технический бэкграунд желаемого специалиста. Годовая зарплата дата стюарда варьируется от 50 до 100 тысяч долларов, что составляет от 300 до 600 тысяч рублей в месяц [7]. Однако, с учетом цифровизации каждого сектора отечественной экономики, логично спрогнозировать увеличение интереса к дата стюардам на российском рынке труда. Возможно, уже в ближайшем будущем Data Steward станет еще одной востребованной профессией в мире Big Data, которая принесет бизнесу следующие преимущества [4]:

  • улучшенное качество данных;
  • документация данных;
  • четкие политики управления и процессы обработки данных;
  • эффективные программы аналитики;
  • объективное принятие управленческих решений на основе данных;
  • улучшенное соблюдение правил работы с данными;
  • снижение ошибок в процессах и решениях, основанных на данных;
  • снижение рисков, связанных с требованиями безопасности и конфиденциальности данных.

В следующей статье мы рассмотрим процессы управления основными данными или нормативно-справочной информацией (НСИ). А как организовать эффективное управление большими данными и обеспечить их качество, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Источники

  1. http://www.tadviser.ru/index.php/Статья:Управление_качеством_данных
  2. https://www.nicolaaskham.com/blog/2019/8/2/data-owners-and-data-stewards-what-is-the-difference
  3. https://www.e-xecutive.ru/management/itforbusiness/1988069-zachem-bankam-nuzhen-chief-data-officer.amp
  4. https://searchdatamanagement.techtarget.com/definition/data-stewardship
  5. https://analyticsindiamag.com/data-steward-roles-responsibilities/
  6. https://blogs.sas.com/content/datamanagement/2018/11/27/data-steward-concierge-analytics/
  7. https://www.salary.com/research/salary/benchmark/data-steward-salary