DPREP: Подготовка данных для Data Mining

DPREP: Подготовка данных для Data Mining

Ближайшая дата курса по подготовке данных  
  22-25 июля 
  16-19 декабря 
Стоимость обучения    72.000 рублей

курсы по большим данным, Hadoop и машинного обучения

Формирование базовых компетенций слушателей при подготовке данных в области больших объемов данных (На примере использования технологий SAS для подготовки данных).

 

О Курсе: Процесс сбора и подготовки данных — один из самых трудоемких и сложных этапов в анализе больших объемов данных, который порой занимает до 80% всего времени. Использование статистических методик и современного программного обеспечения позволяет значительно сократить временные и финансовые затраты на данном этапе, и повысить эффективность и качество конечных результатов.

Аудитория: Архитекторы Data lakes,  Аналитики данных, дата-инженеры, отвечающие за процессы сбора, подготовки данных и очистки больших данных.

Предварительный уровень подготовки:

  • знания любого языка программирования

  • базовые знания в области высшей математики

  • основы статистики 

Продолжительность: 4 дня, 32 академических часа
Документ об окончании курса: сертификат учебного центра.

Программа курса

  1. Введение в Data Mining

    • Процессный подход Data Mining. Data Lake концепция
    • Стандарты CRISP-DM и SEMMA
    • Фазы жизненного цикла процессов Data Mining
    • Подход Data provenance — происхождение данных. Тэгирование данных
    • Подход Data Lineage и документирование
    • Важность фазы подготовки данных для формирования озера данных
  2. Целевая функция

    • Целевая функции, и ее содержание.
    • Основные принципы формирования целевой функции
  3. Формат зависимых переменных

    • Зависимые переменные. Типы зависимых переменных и преобразование шкал (нормализация данных)
    • Приведение форматов даты и времени
    • Приведение форматов Locale
  4. Тестовая выборка

    • Формирование тестовой выборки, ее содержание и объем по отношению ко всему объему исходных данных
    • Основные принципы формирования тестовой выборки
  5. Валидационная выборка

    • Понятие валидационной выборки, ее содержание и объем по отношению ко всему объему исходных данных
    • Основные принципы формирования тестовой выборки и валидационной
  6. Анализ выбросов

    • Понятие «выбросов» (Outliers) и их анализ
  7. Проверка на нормальность распределения

    • Тестирование входных параметров на нормальность распределения
    • Параметрическая статистика
  8. Отcутствующие значения в исходных данных

    • Отсутствующие значения (Missing values)
    • Правила замены (генерации) отсутствующих данных или опущения (ommit)
  9. Регрессионные модели данных

  10. Заключительный проект по подготовке данных

    • Выполнение полного цикла очистки и подготовки данных на примере выбранного dataset
    • Формирование тестовой и валидационной выборки
    • Документирование

Курс Подготовка данных для формирования Data Lake

Скачать программу курса «Подготовка данных для инженеров данных » в формате pdf

У Вас остались вопросы позвоните нам пожалуйста по телефону +7 (985) 162-29-63 или заполните анкету обратной связи на сайте

Если телефон занят,то  мы на обучении. Оставьте пожалуйста сообщение, и мы перезвоним Вам в ближайшее время.

ARMG: Архитектура Модели Данных

BDAM: Аналитика больших данных для руководителей

7 популярных ошибок при работе с данными по стандарту CRISP-DM

20 проблем для Data Scientist, от которых не спасет CRISP-DM