DPREP: Подготовка данных в процессе Data Mining

Практический курс Подготовка данных в процессе Data Mining

Ближайшая дата курса по подготовке данных к ML-моделированию и анализу 18 — 21 мая
  29 сентября — 02 октября
   
Стоимость обучения    72.000 рублей

курсы по большим данным, Hadoop и машинного обучения

Практический курс для статистиков, начинающих Data Scientist’ов, архитекторов Data Lake, аналитиков и инженеров данных по подготовке Big Data к машинному обучению, моделированию и интеллектуальному анализу на примере использования Apache Spark и Python.

Что такое подготовка данных в процессе Data Mining и зачем она нужна

Подготовка данных выполняется при загрузке информации в корпоративное озеро (Data Lake), интеллектуальном анализе данных (Data Mining) и моделировании в рамках машинного обучения (Machine Learning). Вообще процесс сбора и подготовки данных — один из самых трудоемких и сложных этапов в анализе информации, который занимает до 80% времени. Сама подготовка данных состоит из следующих этапов:

  • выборка;
  • очистка;
  • генерация признаков;
  • интеграция;
  • форматирование.

Статистические методики и специальное программное обеспечение позволяют значительно сократить временные и финансовые затраты всех этих процессов, а также повысить качество конечных результатов.

Кому нужны курсы по подготовке данных

Наши практические курсы по подготовке данных к Data Mining ориентированы на статистиков, исследователей, начинающих Data Scientist’ов, специалистов по машинному обучению,  архитекторов Data Lake, аналитиков и инженеров данных, которые отвечают за сбор, подготовку и очистку Big Data.

Если вы хотите разобраться с основами Data Mining и научиться самостоятельно формировать датасеты для машинного обучения, а также освоить современные программные инструменты для статистической обработки больших данных, вам необходим курс подготовка данных для Data Mining.

Предварительный уровень подготовки:

  • знания любого языка программирования

  • базовые знания в области высшей математики

  • основы статистики 

Программа курса обучения

Как устроены курсы по подготовке данных

Продолжительность: 4 дня, 32 академических часа
Документ об окончании курса: сертификат учебного центра.

Курс Подготовка данных в процессе Data Mining включает в себя теорию и практику по формированию датасетов из больших объемов «сырой информации», начиная от базовых понятий интеллектуального анализа данных и заканчивая прикладной работой с Apache Spark и Python.

На реальных примерах вы узнаете, как сформировать целевую функцию, отобрать наиболее важные предикторы и избавиться от мультиколлинеарности данных. Также поработаете с регрессионными моделями и самостоятельно сформируете собственный датасет для машинного обучения и интеллектуального анализа данных, очистив его от ошибок, пропущенных значений и выбросов.

В рамках обучения каждый слушатель выполнит собственный проект, чтобы закрепить все полученные знания и умения.

курсы по большим данным, Hadoop и машинного обучения

Программа курса Подготовка данных в процессе Data Mining

  1. Введение в Data Mining

    • Процесс Data Mining и его стандартизация (на примере CRISP-DM)
    • Участники процесса (Data Scientist и Data Engineer) и их роли
    • Этапы процесса подготовки данных
    • Подготовка данных и Data Lake
  2. Инструментарий подготовки данных 

    • Проблематика больших данных (Bid Data)
    • Подготовка данных с помощью pandas
    • Промышленная подготовка данных с помощью Apache Spark
  3. Идеальный dataset

    • Требования к данным в Machine Learning
    • Типичные проблемы (отсутствующие значения, дубликаты и выбросы, нормализация, категориальные значения и т.п.)
    • Выборки (обучающая, тестовая, валидационная)
  4. Отсутствующие значения

    • Понятие отсутствующего значения (missing value)
    • Способы борьбы (генерация или удаление).
  5. Дубликаты и выбросы

    • Анализ выбросов (outliers)
    • Борьба с дубликатами
  6. Нормализация данных

    • Нормализация и нормировка – что есть что
    • Технические аспекты.
  7. Категориальные значения

    • Строки, даты и другие источники категориальных значений
    • Способы представления и техника генерации
  8. Отcутствующие значения в исходных данных

    • Отсутствующих данные.
    • Правила замены(генерации) отсутствующих данных или опущения(omit)
  9. Заключительный проект по подготовке данных

    • Выполнение полного цикла очистки и подготовки данных на примере выбранного dataset.
    • Знакомство с данными и предметной областью
    • Подготовка данных от начала до конца
    • Формирование выборок.

Курс Подготовка данных для формирования Data Lake

Скачать программу курса «Подготовка данных для инженеров данных» в формате pdf

Курс Архитектура Модели Данных

Курс Большие данные Big Data для руководителей

7 популярных ошибок при работе с данными по стандарту CRISP-DM

20 проблем для Data Scientist, от которых не спасет CRISP-DM