Курс Анализ данных с Apache Spark

Курс Apache Spark SQL, Big Data Analysis course

Обучающий курс «Анализ данных с Apache Spark Streaming, Spark SQL, MLLib и GraphX»

Ближайшая дата курса 30 ноября — 2 декабря
  24-26 февраля
  12-14 мая
Стоимость обучения    54.000 рублей
Код курса    SPARK

3-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming, машинное обучение MLLib и построение графов Spark GraphX.

Что такое Apache Spark и где это используется

Apache Spark – это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop.

Спарк состоит из следующих компонентов:

  • Ядро (Core);
  • SQL – инструмент для аналитической обработки данных с помощью SQL-запросов;
  • Streaming – надстройка для обработки потоковых данных;
  • MLlib – набор библиотек машинного обучения (Machine Learning);
  • GraphX – модуль распределённой обработки графов.

Благодаря такому разнообразию инструментов интерактивной аналитики данных, Спарк активно используется в системах интернета вещей (IoT/IIoT), а также в различных бизнес-приложениях, в т.ч. для машинного обучения. Например, для прогнозирования оттока клиентов и оценки финансовых рисков.

Apache Spark может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра хадуп, в частности, на базе системы управления кластером Mesos. Спарк поддерживает несколько популярных распределённых систем хранения данных: HDFS, OpenStack Swift, Cassandra, Amazon S3. Также Spark предоставляет API-интерфейсы для часто используемых в области Big Data языков программирования: Java, Scala, Python и R.

Кому нужны курсы по  Apache Spark

Практический курс по Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования компонентов Apache Spark: Spark Core, Spark SQL, Spark Streaming, Spark MLLib и Spark GraphX.

Предварительный уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
  • Начальный опыт программирования (Python/Java)
  • Начальный опыт в экосистеме Hadoop

Успешно окончив курсы по Spark в нашем лицензированном учебном центре «Школа Больших Данных»вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельств о повышении квалификации.

Как устроено обучение Spark в  «Школе Больших Данных»

Продолжительность: 3 дня, 24 академических часа

Соотношение теории к практике 40/60

Практический курс «Анализ и обработка данных с Apache Spark, включая Streaming, Spark SQL, MLLib и GraphX» представляет собой 3-дневный интенсивный тренинг по использованию распределенной платформы Apache Spark для работы с большими массивами неструктурированных данных и потоковой обработки информации.

Обучение Спарк содержит теоретический минимум, необходимый для эффективного использования всех компонентов Apache Spark (Spark Core, Spark Streaming, Spark SQL, MLLib и GraphX) для пакетной и потоковой обработки данных. Практическая часть включает запуск и настройку компонентов, работу в среде Jupyter Notebook, прикладное использование Спарк для разработки собственных распределенных приложений пакетной и потоковой обработки информации и анализа больших данных.

На курсе вы научитесь:

  • понимать особенности использования RDD и dataframe;
  • обращаться к большим данным с использование SQL или HiveQL;
  • использовать Spark Streaming для создания распределенных приложений потоковой обработки больших данных;
  • настраивать и использовать компоненты MLLib и GraphX;
  • обрабатывать слабоструктурированные данные, представленные в форматах JSON или XML.

Программа курса «Анализ данных с Apache Spark Streaming, Spark SQL, MLLib и GraphX«

1. Обзор Apache Spark, знакомство со Spark RDD и Dataframe

  • Архитектура Spark. Принципы работы Resilent Data Distribution (Spark RDD)
  • Обзор компонентов Spark и их назначения
  • Low Level API, использование Resilient Distributed Dataset
  • Structured API и основная абстракция SparkDataframe

2. Apache Spark SQL

  • Получение данных из SQL-источников и обработка данных с помощью Spark SQL
  • Отправка данных в SQL СУБД и работа с Hive QL
  • Spark SQL и Hadoop

3. Производительность и параллелизм в Apache Spark

  • Планы выполнения. Logical и physical планы
  • Конфигурирование Apache Spark

4. Spark Streaming

  • Разница работы в режимах OLAP и OLTP. Основной workflow
  • Виды Spark Stream-ов. Особенности исполнения streaming кода
  • Checkpoint’ы в Spark Streaming

5. GraphX и MLLib

  • Задачи графов в программировании. Место графов в модели распределенных вычислений
  • Представление графов в GraphX. Операции с графами
  • Задачи машинного обучения и проблематика больших данных
  • Основные возможности Spark MLLib

6. Обработка слабоструктурированных данных

  • Работа с JSON файлами и строками
  • Обработка информации, представленной в виде XML

Программа курса «Анализ данных с Apache Spark, Spark Streaming»

Скачать программу курса «Анализ данных с Apache Spark, Spark Streaming» в формате pdf

Отправить ссылку на e-mail:

Курс Kafka Streams для разработчиков

Курс Kafka Интеграция для разработчиков