Курс Анализ данных с Apache Spark

Apache Spark SQL, Big Data Analysis course

Обучающий курс «Анализ данных с Apache Spark Streaming, Spark SQL и GraphX»

Ближайшая дата курса  31 марта — 02 апреля
  20 — 22 мая
   
Стоимость обучения    54.000 рублей
Код курса    SPARK

курсы обучения Hadoop и машинного обучения

3-дневный практический курс для разработчиков Apache Spark, аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming и построение графов Spark GraphX.

Что такое Apache Spark и где это используется

Apache Spark – это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop.

Спарк состоит из следующих компонентов:

  • Ядро (Core);
  • SQL – инструмент для аналитической обработки данных с помощью SQL-запросов;
  • Streaming – надстройка для обработки потоковых данных;
  • MLlib – набор библиотек машинного обучения (Machine Learning);
  • GraphX – модуль распределённой обработки графов.

Благодаря такому разнообразию инструментов интерактивной аналитики данных, Спарк активно используется в системах интернета вещей (IoT/IIoT), а также в различных бизнес-приложениях, в т.ч. для машинного обучения. Например, для прогнозирования оттока клиентов и оценки финансовых рисков.

Apache Spark может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра хадуп, в частности, на базе системы управления кластером Mesos. Спарк поддерживает несколько популярных распределённых систем хранения данных: HDFS, OpenStack Swift, Cassandra, Amazon S3. Также Spark предоставляет API-интерфейсы для часто используемых в области Big Data языков программирования: Java, Scala, Python и R.

Кому нужны курсы по  Apache Spark

Практический курс по Спарк рассчитан на разработчиков Big Data, аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования компонентов Apache Spark: Spark SQL, Spark Streaming, Spark GraphX.

Предварительный уровень подготовки:

  • Опыт работы в Unix/SQL
  • Начальный опыт программирования (Python/Java)
  • Знание языка программирования Scala 

Успешно окончив курсы по Spark в нашем лицензированном учебном центревы получите сертификат о повышении квалификации государственного образца.

Программа курса обучение Spark

Как устроено обучение Spark в  «Школе Больших Данных»

Продолжительность: 3 дня, 24 академических часа

Соотношение теории к практике 40/60

Практический курс «Анализ данных с Apache Spark Streaming, Spark SQL и GraphX» представляет собой 3-дневный интенсивный тренинг по использованию платформы распределенной обработки больших данных Apache Spark для работы с большими массивами неструктурированных данных и потоковой обработки информации.

Обучение Спарк содержит теоретический минимум, необходимый для эффективного использования всех компонентов Apache Spark (Spark Streaming, Spark SQL и GraphX) для потоковой обработки данных. Практическая часть включает запуск и настройку компонентов, а также их прикладное использование для разработки собственных распределенных приложений потоковой обработки информации и анализа данных.

На курсе вы научитесь:

  • использовать Spark Streaming для создания распределенных приложений потоковой обработки данных;
  • понимать отличия различных форматов хранения больших данных и особенности использования RDD, dataframes и datasets;
  • обращаться к большим данным с использование SQL или Hive QL;
  • настраивать и использовать компонент GraphX.

курсы « Анализ данных с Apache Spark» -Spark SQL, Spark GraphX, Spark Streaming

Программа курса «Анализ данных с Apache Spark Streaming, Spark SQL и GraphX»

  1.  Экосистема Apache Spark — Spark RDD

    • Архитектура Spark. Принципы работы Resilent Data Distribution (Spark RDD)
    • Обзор компонентов Spark и их назначения
    • Конфигурация Spark из Java. Запуск на одной или нескольких машинах. Запуск поверх hadoop
    • Основные классы и базовый workflow — Spark RDD 
    • Spark core — работа с аккумуляторами и переменными среды
  2. Apache Spark SQL

    • Расширение базовой системы классов- DataSet и DataFrame
    • Получение данных из SQL-источников с помощью Spark SQL
    • Отправка данных в SQL СУБД и работа с Hive QL 
    • Spark SQL и Hadoop
    • Планы выполнения. Logical и physical планы. Настройки планов выполнения
  3. Spark Streaming

    • Разница работы в режимах OLAP и OLTP. Основной workflow
    • Виды Spark Stream-ов. Особенности исполнения streaming кода
    • Windows в Spark Streaming
    • Кеширование в Spark Streaming
    • Checkpoint-ы в Spark Streaming
  4. GraphX

    • Задачи графов в программировании. Место графов в модели распределенных вычислений
    • Представление графов в GraphX. Создание графов
    • Операции с графами в GraphX
    • Выбор модели распределения графа в GraphX

курсы « Анализ данных с Apache Spark» -Spark SQL, Spark GraphX, Spark Streaming

Скачать программу курса «Анализ данных с Apache Spark, Spark Streaming» в формате pdf

 

DEVKA1: Kafka Streams для разработчиков

DEVKA2: Kafka Интеграция для разработчиков