SPARK2: Анализ данных с Apache Spark

Apache Spark SQL

Курс: «Анализ данных с Apache Spark Streaming, Spark SQL и GraphX»

Ближайшая дата курса 25- 27 марта 2020
  20 — 22 мая 2020
Стоимость обучения    54.000 рублей

курсы обучения Hadoop и машинного обучения

3-дневный практический курс для разработчиков Apache Spark и специалистов Data Scientists , использующих Spark SQL, потоковую обработку Spark Streaming, построение графов Spark GraphX 

Аудитория: Специалисты, аналитики данных и разработчики, желающие получить опыт настройки и использования компонентов Apache Spark (Spark SQL, Spark Streaming, Spark GraphX)

Предварительный уровень подготовки:

  • Опыт работы в Unix/SQL
  • Начальный опыт программирования (Python/Java)
  • Знание языка программирования Scala 

Продолжительность: 3 дня, 24 академических часа.

3-дневный интенсивный практический тренинг по использованию платформы распределенной обработки больших данных Apache Spark при работе с большими массивами неструктурированных данных и потоковой обработкой.

На курсе вы научитесь:

  • Использовать Spark Streaming для создания приложений потоковой обработки данных
  • понимать разницу использования различных форматов хранения данных и использования RDD , dataframes и datasets
  • обращаться к данным с использование SQL или Hive QL
  • настраивать и использовать компонент GraphX

Соотношение теории к практике 40/60

Программа курса

  1.  Экосистема Apache Spark — Spark RDD
    • Архитектура Spark. Принципы работы Resilent Data Distribution
    • Обзор компонентов Spark и их назначения
    • Конфигурация Spark из Java. Запуск на одной или нескольких машинах. Запуск поверх hadoop
    • основные классы и базовый workflow — Spark RDD 
    • Spark core- работа с аккумуляторами и переменными среды
  2. Apache Spark SQL
    • Расширение базовой системы классов- DataSet и DataFrame
    • Получение данных из SQL-источников с помощью Spark SQL
    • Отправка данных в SQL СУБД и работа с Hive QL 
    • Spark SQL и Hadoop
    • Планы выполнения. Logical и physical планы. Настройки планов выполнения
  3. Spark Streaming
    • Разница работы в режимах OLAP и OLTP. Основной workflow
    • Виды Spark Stream-ов. Особенности исполнения streaming кода
    • Windows в Spark Streaming
    • Кеширование в Spark Streaming
    • Checkpoint-ы в Spark Streaming
  4. GraphX
    • Задачи графов в программировании. Место графов в модели распределенных вычислений
    • Представление графов в GraphX. Создание графов
    • Операции с графами в GraphX
    • Выбор модели распределения графа в GraphX

 

курсы « Анализ данных с Apache Spark» -Spark SQL, Spark GraphX, Spark Streaming

Скачать программу курса «Анализ данных с Apache Spark, Spark Streaming» в формате pdf

 

DEVKA1: Kafka Streams для разработчиков

DEVKA2: Kafka Интеграция для разработчиков