Профессии в Data Science

Две базовые профессии в Data Science — это инженер данных (data engineer) и дата сайентист (data scientist). Если совсем кратко, то дата сайентист занимается построением моделей, инженер данных обеспечивает дата сайентиста данными.

Если рассмотреть работу инженера данных более подробно, то можно выделить следующие категории работ и работы в этих категориях (см. картинку Data Science Hierarchy Of Needs):

категория «Move/Store» (хранение и перемещение данных)
хранилища структурированных и неструктурированных данных
конвейеры и ETL
инфраструктура данных
надежные потоки данных
категория «Explore/Transform» (изучение и подготовка)
очистка
работа с аномалиями
подготовка данных

Типичный инструментарий инженера данных включает:

python — основной язык
желательны более «быстрые» языки (Scala/Java/C++)
jupter notebook — основной рабочий инструмент (DE и DS)
Spark — основной фреймворк для работы с данными
hdfs, Hive — основное хранилище
noSQL часто требуется
SQL — работа с источниками структурированых данных
файлы, Kafka — источники (неструктурированные данные)
Airflow — оркестрация конвейеров обработки данных
NiFi, StreamSets — потоковая обработка