Курс Анализ данных с Apache Spark

6-дневный курс обучения по использованию распределенной платформы Apache Spark для работы с большими массивами данных, в том числе — неструктурированных и потоковой обработки информации.

Вы пройдете путь от основ архитектуры Spark до работы с продвинутыми компонентами, такими как GraphX, ML, Structured Streaming и Delta Lake. Программа охватывает как классические подходы (RDD, DataFrames, Spark SQL), так и актуальные тренды: интеграцию с Kubernetes, pandas API в Spark и управление данными через Delta Lake.

Код курса	Даты начала курса	Стоимость обучения	Длительность обучения	Формат обучения
SPARK	01 июня 2026 21 сентября 2026 14 декабря 2026	102 400 руб.	32 ак.часов Количество дней: 6	Дистанционный
Регистрация

О продукте

Apache Spark — это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки данных (в том числе неструктурированных и слабоструктурированных), входящий в экосистему проектов Hadoop.

Spark состоит из следующих компонентов:

Ядро (Core Spark), включающее Spark SQL — возможность аналитической обработки данных с помощью SQL-запросов;
Streaming — надстройка для обработки потоковых данных;
ML — набор библиотек для подготовки данных и машинного обучения (Machine Learning);
GraphX — модуль распределённой обработки графов.

Благодаря такому разнообразию инструментов интерактивной аналитики данных, Спарк активно используется в системах интернета вещей (IoT/IIoT), а также в различных бизнес-приложениях, в т.ч. для машинного обучения. Например, для прогнозирования оттока клиентов и оценки финансовых рисков.

Современный Apache Spark может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра Hadoop, в частности, с использованием Kubernetes в качестве системы управления кластером. Спарк поддерживает несколько популярных распределённых систем хранения данных (HDFS и совместимые с HDFS файловые системы, объектное хранилище Amazon S3), а также может работать с Delta Lake. Apache Spark предоставляет языковые API для часто используемых в области Big Data языков программирования: Java, Scala, Python и R, в современных версиях добавлен Pandas API, возможность работы со Spark Connect, полезная при использовании территориально или сетево удаленных кластеров. Во время курса мы подробно разберем эти и другие особенности современного Apache Spark.

Аудитория

Data Engineers и аналитики, работающие с большими данными.
Разработчики, желающие создавать масштабируемые ETL-процессы и ML-модели.
Архитекторы, планирующие внедрение Spark в облачные среды (Kubernetes)

Уровень подготовки

Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX)
Начальный опыт программирования (Python)
Начальный опыт в экосистеме Hadoop

О курсе

Курс обучения содержит теоретический минимум, необходимый для эффективного использования всех компонентов Apache Spark: от основ RDD до современных инструментов (Delta Lake, Spark on Kubernetes).

Практическая часть включает запуск и настройку компонентов, работу в среде Jupyter Notebook, прикладное использование Спарк для разработки собственных распределенных приложений пакетной и потоковой обработки информации и анализа больших данных.

Программа курса «Анализ данных с Apache Spark»

1. Обзор Apache Spark

- Архитектура Spark. Обзор компонентов Spark и их назначения

2. Основные абстракции Apache Spark

- Трансформации и действия, Lazy Evaluation

3. Знакомство с Dataframes

- Structured API и основная абстракция Spark – Dataframe

4. Знакомство со Spark RDD

- Low Level API, использование Resilient Distributed Dataset

5. Apache Spark SQL

- Получение данных из SQL-источников и обработка данных с помощью Spark SQL
- Отправка данных в SQL СУБД и работа с Hive QL
- Spark SQL и Hadoop

6. Работа с источниками данных

- Ввод и вывод в Apache Spark
- Работа с файлами и базами данных

7. Производительность и параллелизм в Apache Spark

- Планы выполнения запроса: логические и физические

8. Конфигурирование Apache Spark

- Принципы конфигурирования и основные настройки

9. Spark Streaming и Structured Streaming

- Виды потоковой обработки в Apache Spark
- Особенности исполнения streaming кода
- Checkpoint в Spark Streaming

10. GraphX и ML

- Место и особенности графовых моделей в программировании
- Задачи машинного обучения и проблематика больших данных
- Основные возможности Spark ML

11. Обработка слабоструктурированных данных

- Работа с JSON и XML файлами, особенности и возможности

12. Современный Spark

- pandas API в spark
- Spark Connect: долгоживущие сессии
- Spark on Kubernetes (будущее в настоящем)
- Delta Lake — технологическая основа LakeHouse

Чему Вы научитесь

Эффективно обрабатывать данные любого объема и формата (структурированные, потоковые, графовые);
Понимать особенности использования RDD и dataframe;
Настраивать и оптимизировать Spark-приложения для production-сред
Использовать Spark Streaming для создания распределенных приложений потоковой обработки больших данных;
Использовать Spark для машинного обучения и интеграции с облачными платформами;
обрабатывать слабоструктурированные данные, представленные в форматах JSON или XML;
Работать с современными инструментами экосистемы, включая Delta Lake и Kubernetes.

Что Вы получите

Окончив курс «Анализ данных с помощью современного Apache Spark» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение о повышении квалификации установленного образца.

Кто проводит курс

Королев Михаил

МГУ им. М.В. Ломоносова (Москва, 1988)

Сертифицированный разработчик Spark и Hadoop (CCA Cloudera)
Сертифицированный разработчик (Cloudera Certified Professional Data Engineer)
Построение корпоративных хранилищ и озер данных (Cloudera CDH, Arenadata Hadoop, Arenadata DB)
Организация ETL-конвейеров (Airflow, Spark, Flink, Trino)
Обработка потоковых данных (Kafka, Kafka Streams, Flink)
Поддержка и развитие инфраструктуры больших данных

Отзывы слушателей курса

SPARK: Анализ данных с помощью современного Apache Spark

Александр Горелов

В октябре прошел курс Анализ данных с Apache Spark, это был второй раз, когда я обучался в этом месте. В целом, все хорошо, думаю что не последний. Не могу не подчеркнуть профессионализм преподавателя Королева Михаила, отвечал на поставленные вопросы, делился своим опытом. В общем, рекомендую!

SPARK: Анализ данных с помощью современного Apache Spark

Никита

отзыв на Яндексе

Прошел курс "Анализ данных в Apache Spark". Курс хороший, есть и теория, и практика. Помог структурировать имеющиеся знания про Спарк и узнать новое. Преподаватель отвечал на все мои вопросы. Были и домашние задания. Не все выполнил, т.к. для меня задания были немного сложными

SPARK: Анализ данных с помощью современного Apache Spark

Кристина

отзыв на Яндексе

Проходила курс Core Spark. Понравилось:Стиль преподавателя, объяснял все досконально. Отвечал на все вопросы. Сам курс в сжатые сроки сможет донести информацию, полезную для дальнейшей практики. Из минусов: короткие сроки и достаточно большая стоимость

SPARK: Анализ данных с помощью современного Apache Spark

Александр Горелов

отзыв на Google

Оставить отзыв

Чтобы записаться на курс SPARK: Курс Анализ данных с Apache Spark позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.