DPREP: Подготовка данных для Data Mining

DPREP: Подготовка данных для Data Mining

Ближайшая дата курса по подготовке данных  
  22-25 июля 
  16-19 декабря 
Стоимость обучения    72.000 рублей

курсы по большим данным, Hadoop и машинного обучения

Формирование базовых компетенций слушателей при подготовке исходных данных в области больших объемов данных (На примере использования технологий SAS).

 

О Курсе: Процесс сбора и подготовки исходных данных, является одним из самых трудоемких и сложных этапов в анализе больших объемов данных, который порой занимает до 80% всего времени. Использование статистических методик и современного программного обеспечения позволяет значительно сократить временные и финансовые затраты на данном этапе и повысить эффективность и качество конечных результатов.

Аудитория: Архитекторы Data lake,  Аналитики данных, дата инженеры отвечающие за процессы сбора, подготовки и очистки данных.

Предварительный уровень подготовки:

  • базовые знания в области программирования

  • базовые знания в области высшей математики

  • базовые знания в области статистики 

Продолжительность: 4 дня, 32 академических часа
Документ об окончании курса: сертификат учебного центра.

Программа курса

  1. Введение в Data Mining

    • Процессный подход Data Mining. Data Lake концепция. Стандарты СRISP-DM и SEMMA.
    • Фазы жизненного цикла процессов Data Mining
    • Подход Data provenance — происхождение данных
    • Подход Data Lineage и документирование
  2. Целевая функция

    • Целевая функции, и ее содержание.
    • Основные принципы формирования целевой функции
  3. Формат зависимых переменных

    • Зависимые переменные. Типы зависимых переменных и преобразование шкал(Нормализация)
    • Приведение форматов даты и времени
    • Приведение форматов Locale
  4. Тестовая выборка

    • Формирование тестовой выборки, ее содержание и объем по отношению ко всему объему исходных данных
    • Основные принципы формирования тестовой выборки
  5. Валидационная выборка

    • Понятие валидационной выборки, ее содержание и объем по отношению ко всему объему исходных данных
    • Основные принципы формирования тестовой выборки и валидационной
  6. Анализ выбросов

    • Понятие «выбросов» (Outliers) и их анализ
  7. Проверка на нормальность распределения

    • Тестирование входных параметров на нормальность распределения
    • Параметрическая статистика
  8. Отcутствующие значения в исходных данных

    • Отсутствующих данные
    • Правила замены(генерации) отсутствующих данных или опущения
  9. Регрессионная модель

  10. Заключительный проект

    • Выполнение полного цикла очистки и подготовки данных на примере выбранного dataset
    • Формирование тестовой и валидационой выборки
    • Документирование

курсы для инженеров данных

Скачать программу курса «Подготовка данных для инженеров данных » в формате pdf

Если у Вас остались вопросы позвоните нам по телефону +7 (985) 162-29-63 

Если телефон занят, мы на обучении. Оставьте сообщение, и мы перезвоним Вам в ближайшее время.