Кто такой Data Scientist в Big Data: профессиональные компетенции исследователя данных

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, предиктивная аналитика, машинное обучение, Machine Learning

В этом выпуске мы продолжаем введение в Data Science для чайников, разбирая профессии Big Data, и рассказываем, кто такой Data Scientist: что необходимо знать ученому по данным и чем исследователь отличается от аналитика.

Что делает ученый по данным

Как и Data Analyst, исследователь данных тоже работает с информационными массивами путем выполнения следующих операций:

  • поиск закономерностей в информационных наборах;
  • подготовка данных к моделированию (выборка, очистка, генерация признаков, интеграция, форматирование);
  • моделирование и визуализация данных;
  • разработка и тестирование гипотез по улучшению бизнес-метрик через построение моделей машинного обучения (Machine Learning).

Data Scientist, в большинстве случаев, ориентирован на предиктивную аналитику, тогда как аналитик данных чаще всего рассматривает информацию пост-фактум. Тем не менее, основная цель исследователя данных созвучна главной рабочей цели аналитика Big Data – извлечение из информационных массивов сведений, полезных для бизнеса с точки зрения принятия оптимальных управленческих решений.

Data Scientist, ученый по данным, исследователь данных, аналитик данных, Data Analyst, аналитик Big Data
Портрет профессиональных компетенций ученого по данным

Профессиональные компетенции исследователя данных: что должен знать Data Scientist

Чтобы решать вышеописанные задачи, ученый по данным должен быть компетентным в следующих областях знаний:

  • информационные технологии – методы и средства интеллектуального анализа данных (Data Mining): алгоритмы и структуры данных, машинное обучение и другие разделы искусственного интеллекта (искусственные нейронные сети, генетические алгоритмы, deep learning), языки программирования (R, Python, Julia, Haskell), среды статистического анализа (R-Studio, MatLab, Jupyter Notebook);
  • математика (статистика, теория вероятностей, дискретная математика);
  • знание предметной области – отраслевая или корпоративная специфика.

Отметим, что, в отличие от аналитика данных, Data Scientist концентрируется на технических сторонах исследования информации, уделяя меньшее внимание системному анализу и бизнес-процессам.

Data Science, Data Mining, Анализ данных, аналитика данных, большие данных, Big Data
Области знаний Data Science

Чем отличается аналитик Big Data от исследователя данных

На первый взгляд может показаться, что Data Scientist ничем не отличается от Data Analyst, ведь их рабочие обязанности и профессиональные компетенции частично пересекаются. Однако, это не совсем взаимозаменяемые специальности. При значительном сходстве, отличия между ними также весьма существенные:

  • по инструментариюаналитик чаще всего работает с ETL-хранилищами и витринами данных, тогда как исследователь взаимодействует с Big Data системами хранения и обработки информации (стек Apache Hadoop, NoSQL-базы данных и т.д.), а также статистическими пакетами (R-studio, Matlab и пр.);
  • по методам исследований – Data Analyst чаще использует методы системного анализа и бизнес-аналитики, тогда как Data Scientist, в основном, работает с математическими средствами Computer Science (модели и алгоритмы машинного обучения, а также другие разделы искусственного интеллекта);
  • по зарплате – на рынке труда Data Scientist стоит чуть выше, чем Data Analyst (100-200 т.р. против 80-150 т.р., по данным рекрутингового портала HeadHunter в августе 2019 г.). Возможно, это связано с более высоким порогом входа в профессию: исследователь по данным обладает навыками программирования, тогда как Data Analyst, в основном, работает с уже готовыми SQL/ETL-средствами.

На практике в некоторых компаниях всю работу по данным, включая бизнес-аналитику и построение моделей Machine Learning выполняет один и тот же человек. Однако, в связи с популярностью T-модели компетенций ИТ-специалиста, при наличии широкого круга профессиональных знаний и умений предполагается экспертная концентрация в узкой предметной области. Поэтому сегодня все больше компаний стремятся разделять обязанности Data Analyst и Data Scientist, а также инженера по данным (Data Engineer) и администратора Big Data, о чем мы расскажем в следующих статьях.

Data Scientist, ученый по данным, исследователь данных, аналитик данных, Data Analyst, аналитик Big Data
Data Scientist — одна из самых востребованных профессий на современном ИТ-рынке

В области Big Data ученому по данным пригодятся практические знания по облачным вычислениям и инструментам машинного обучения. Эти и другие вопросы по исследованию данных мы рассматриваем на наших курсах обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве:

расписание компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Смотреть расписание занятий
регистрация на компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Зарегистрироваться на курс