
Ближайшая дата курса | |
Стоимость обучения | 54.000 рублей |
Регистрация3-дневный практический курс администрирования кластера Apache Spark, организации потоковой обработки Spark Streaming, настройкам производительности
Аудитория: Специалисты, администраторы, желающие получить опыт настройки и использования компонентов Apache Spark (Spark Streaming, Spark Core)
Предварительный уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
- Начальный опыт программирования (Scala/Python/Java)
Продолжительность: 3 дня, 24 академических часа.
3- дневный интенсивный практический тренинг по знакомству с платформой для распределенной обработки больших данных Apache Spark.
В ходе лекций и лабораторных работы вы научитесь:
- настраивать кластер Apache Spark для запуска задач на Scala и R при обработке больших массивов неструктурированных данных;
- поймете разницу использования различных форматов хранения данных и использования RDD , dataframes и datasets;
- настраивать и анализировать данные в потоке Spark Streaming;
- интегрировать компоненты Apache Spark с другими компонентами экосистем Hadoop.
Соотношение теории к практике 40/60
Программа курса
- Введение в Apache Spark
- Введение в RDD — Resilient Distributed Dataset
- Запуск задач в Apache Spark
- Управление ресурсами в кластере Apache Spark
- Архитектура Apache Spark
- Особенности управления ресурсами в автономном режиме кластера (Standalone)
- Особенности управления ресурсами в режиме Hadoop кластера с YARN
- Динамическое распределение ресурсов Dynamic Resource Allocation
- Оптимизация Apache Spark: использование разделов (partition hash,range,map, static), управление расписанием (dynamic, fair scheduler), использование переменных (shared, broadcast) и аккумуляторов (accumulators)
- Использование Catalyst Optimizer для оптимизации исполнения запросов
- Project Tungsten — Оптимизация управления памятью и кэшом CPU
- Импорт и обработка данных в кластере Hadoop
- Потоковая обработка (Streaming) в Apache Spark
- Потоковая обработка данных для аналитики больших данных
- Особенности реализации потоковой обработки данных в Apache Spark
- Основные концепции потоковой обработки
- Аггрегированные и не аггрегированные запросы
- Обработка событий Event Time, Window и Late Events (скользящее окно событий)
- Поддержка последних событий (Late Events) в потоковой обработке данных в Apache Spark
- Режимы работы Apache Spark с потоковыми данными
Cписок практических занятий:
РегистрацияСкачать программу курса «Администрирование кластера Apache Spark» в формате pdf