SPARK2: Анализ данных с Apache Spark

Курс: «Анализ данных с Apache Spark, Spark SQL и библиотек машинного обучения Spark MLlib»

Ближайшая дата курса 19-20 апреля
   
Стоимость обучения    36.000 рублей

курсы обучения Hadoop и машинного обучения

2-дневный практический курс для разработчиков Apache Spark и специалистов Data Scientists , использующих Spark SQL, библиотеки машинного обучения Spark MLlib, построение графов Spark GraphX 

Аудитория: Специалисты, аналитики данных и разработчики, желающие получить опыт настройки и использования компонентов Apache Spark (Spark SQL, MLLib, Spark GraphX)

Предварительный уровень подготовки:

  • Начальный опыт работы в Unix/SQL
  • Начальный опыт программирования (Scala/Python/Java)

Продолжительность: 2 дня, 16 академических часа.

2-дневный интенсивный практический тренинг по использованию платформы распределенной обработки больших данных Apache Spark при работе с большими массивами неструктурированных данных.

На курсе вы научитесь:

  • применять алгоритмы машинного обучения встроенных библиотек Spark MLLib;
  • понимать разницу использования различных форматов хранения данных и использования RDD , dataframes и datasets;
  • обращаться к данным с использование Spark SQL или Hive QL;
  • настраивать и использовать компонент GraphX.

Соотношение теории к практике 40/60

Программа курса

  1. Spark SQL, Data Frames, Data Set
    • Альтернатива RDDs
    • Сравнение DataFrame, DataSet и SQL API
    • Введение  в Spark SQL, пользовательские функции в Spark SQL
    • Использование Data Frames и Data Set, Data Sets вместо RDD
    • Простые запросы, фильтрация и агрегация Data Frames
    • Объединение (JOIN) Data Frames
    • Интеграция Hive и Spark: Hive запросы в Spark, создание Hive контекста, запись Data frame в Hive
    • Архитектура Apache Spark.
  2. Машинное обучение(Machine Learning) в Apache Spark MLlib
    • Введение в  Machine Learning с использованием MLLib
    • Алгоритм линейной регрессии (Linear Regression)
    • Деревья решений (Decision Trees)
    • Случайные леса (Random Forest)
    • Использование DataFrames с MLLib Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов, работа с внешними и внутренними таблицами Hive
  3. Введение в GraphX
    • GraphX и Pregel
    • Поиск в ширину (Breadth-First-Search) с использование GraphX

 

курсы « Анализ данных с Apache Spark» -Spark SQL, Spark GraphX, MLlib

Скачать программу курса «Анализ данных с Apache Spark» в формате pdf