Прогнозирование

установление функциональной зависимости между зависимыми и независимыми переменными

Профессии в Data Science

Две базовые профессии в Data Science — это инженер данных (data engineer) и дата сайентист (data scientist). Если совсем кратко, то дата сайентист занимается построением моделей, инженер данных обеспечивает дата сайентиста данными. Если рассмотреть работу инженера данных более подробно, то можно выделить следующие категории работ и работы в этих категориях (см. картинку Data Science Hierarchy Of Needs): категория «Move/Store» (хранение и перемещение данных) хранилища структурированных и неструктурированных данных конвейеры и ETL инфраструктура данных надежные потоки данных категория «Explore/Transform» (изучение и подготовка) очистка работа с аномалиями подготовка данных Типичный инструментарий инженера данных включает: python — основной язык желательны более «быстрые» языки (Scala/Java/C++) jupter notebook — основной рабочий инструмент (DE и DS) Spark — основной фреймворк для работы с данными hdfs, Hive Далее …