Все курсы

Основы Apache Spark для разработчиков и аналитиков Big Data

Практический курс «Основы Apache Spark для разработчиков и аналитиков Big Data»

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
CORS
13 мая 2024
01 июля 2024
07 октября 2024
48 000 руб. 16 ак.часов Дистанционный
Регистрация

Что такое Apache Spark

Apache Spark – это фреймворк с открытым исходным кодом для разработки приложений распределённых пакетных и потоковых вычислений над большим объемом неструктурированных и слабоструктурированных данных. Он входит в экосистему проектов Hadoop, поддерживает вычислительную модель MapReduce, но сохраняет промежуточные результаты вычислений в памяти вместо записи на диск. Поэтому Spark работает гораздо быстрее и позволяет создавать высокопроизводительные приложения, способные быстро выполнять множество операций с огромными объемами данных. Фреймворк имеет модульный состав, поддерживая различные сценарии использования распределенных приложений, от интернета вещей до машинного обучения. Поэтому Spark-приложения активно используются в различных бизнес-задачах анализа и обработки больших данных.

О курсе

2-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют или планируют использовать Spark для обработки и анализа больших данных.

Аудитория

Практический курс по Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования базовых компонентов Apache Spark: Low Level API, Structured API и Spark SQL.

Соотношение теории к практике 50/50

Предварительная подготовка

  • Опыт работы в Unix/SQL;
  • Начальный опыт программирования (Python/Scala);
  • Начальный опыт в экосистеме Hadoop

Программа курса

1. Обзор Apache Spark
  • Архитектура Spark
  • Обзор компонентов Spark и их назначения
  • Spark API и разработка программ.
2. Основные абстракции — знакомство со Spark RDD и Dataframe
  • Low Level API, использование Resilient Distributed Dataset
  • Structured API и основная абстракция Spark – Dataframe
  • Основные трансформации и действия.
3. Работа с источниками данных
  • Ввод и вывод данных в Spark
  • Работа с файлами и базами данных
  • Совместная работа с Apache Hive
4. Apache Spark SQL
  • Получение данных из SQL-источников
  • Обработка данных с помощью Spark SQL
  • Интероперабельность Dataframe и SQL
5. Основы настройки и конфигурирования
  • Знакомство с основными Shell
  • Запуск приложений с помощью spark-submit
  • Конфигурирование Spark
  • Планы запросов и Web GUI

Практические занятия будут проводиться на языках Python или Scala.

 

 

Кто проводит курс

prepod-mihail-korolev.jpg
Преподаватель Школы Больших Данных

Королев Михаил

МГУ им. М.В. Ломоносова (Москва, 1992)
Профессиональные компетенции:

Отзывы наших клиентов о курсе

География наших клиентов

  • Москва
  • Санкт-Петербург
  • Нижний Новгород
  • Екатеринбург
  • Казань
  • Краснодар
  • Красноярск
  • Перьм
  • Челябинск
  • Новосибирск
  • Томск
  • Тверь
  • Саратов
  • Самара
  • Ростов-на-Дону
  • Хабаровск
  • Волгоград
  • Калуга
  • Якутск
  • Севастополь
  • Тольяти
  • Владивоссток
  • Тюмень
  • Южно-Сахалинск
  • Уфа
  • Ставрополь
  • Минск
  • Алматы
  • Астана
  • Ташкент
  • Душанбе
  • Бешкек

Программа курса «CORS: Core Spark - основы для разработчиков»

Скачать программу курса «Core Spark - основы для разработчиков» в формате pdf

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21  или заполнить форму обратной связи на сайте.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту