Все курсы

Потоковая обработка данных с помощью Apache Flink

Потоковая обработка данных с помощью Apache Flink

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
FLINK
01 августа 2024
28 октября 2024
48 000 руб. 16 ак.часов Дистанционный
Регистрация

Что такое Apache Flink и где это используется

Apache Flink – это фреймворк и распределённый вычислительный движок для обработки ограниченных и неограниченных потоков данных с сохранением состояния (stateful computations). Flink относят к потоковым процессорам третьего поколения, он обладает интуитивными и выразительными API, с помощью которых можно создать масштабируемую отказоустойчивую систему обработки потока данных. Flink хорошо подходит для реализации систем потоковой обработки, использующих состояние (stateful stream processing), его уникальный механизм точек сохранения (checkpoints и savepoints) позволяет реализовать exactly-once гарантию консистентности данных и эффективно восстанавливать потоковую обработку без потери и дублирования в случае сбоев или регламентных окон, а также обеспечивает легкие и понятные способы масштабирования работающих в продуктивной среде приложений.

На практике Apache Flink широко используется для решения широкого спектра задач, начиная от построения процессоров потоковой обработки данных реального времени и заканчивая реализацией сложных сценариев потоковой подготовки данных и потоковой аналитики данных. С помощью Flink можно построить приложения, использующие парадигму «событийного управления» (Event Driven Applications).

Flink может использоваться не только для потоковой обработки, но и для обработки статических массивов данных (batch processing), хорошо взаимодействует с источниками потоковых и статических данных, такими как Apache Kafka, Kinesis, RabbitMQ, Apache Nifi, Cassandra, ElasticSearch, а также JDBC источниками и различными файловыми системами.

О Курсе “Потоковая обработка данных с помощью Apache Flink”

2-хдневный курс обучения по Flink позволит вам получить и систематизировать знания по использованию Flink для построения систем потоковой обработки данных. Курс нацелен на вопросы использования возможностей Apache Flink для обработки прежде всего потоковых данных, включая нюансы извлечения меток времени и генерации watermarks, лучшие практики (best practices) использования механизмов временных окон, работы с локальным состоянием, вопросы эффективности и параллелизма обработки, тонкости работы с источниками данных и многое другое.

Вы изучите необходимый теоретический минимум, чтобы понять основные концепции фреймворка Flink, его подходы к преобразованию потока данных, нюансы работы с потоком в терминах времени событий или времени обработки (event vs processing time), виды сохраняемого состояния (state type and primitives), работу с источниками потоковых данных. Преподаватель курса “Потоковая обработка данных с помощью Apache Flink” подробно объяснит все тонкости и особенности настройки механизмов извлечения времени, работы с состоянием и локальным кластером Apache Flink с тем, чтобы вы могли самостоятельно разрабатывать собственные системы потоковой обработки данных по окончании курса.

На практике вы реализуете собственные потоковые процессоры с помощью Apache Flink, научитесь работать с метками времени и watermarks, сможете выполнять базовые трансформации потоковых данных, использовать временные окна, обрабатывать данные из Apache Kafka и файловых источников.

Во время курса вы также получите информацию о сравнении возможностей Apache Flink с аналогами (Kafka Streams и Spark Structured Streaming).

Курс предполагает использование языка Scala.

Продолжительность: 16 ак. часа, 2 дня (теория / практика).
Аудитория: Дата-инженеры и специалисты по данным, которые хотят изучить необходимый теоретический минимум по Apache Flink, чтобы понять основные концепции фреймворка, stateful преобразований и доставки данных из сторонних систем, а также узнать особенности подхода Flink к построению масштабируемых надежных конвейеров обработки потоковых данных.
Требования к предварительному уровню подготовки: Уверенное знание базовых команд Linux (опыт работы с командной строкой), знания языка Scala (способность создания не сложных OOP приложений).

Учебный план

  1. Введение и архитектура Apache Flink
  • Потоковая и Batch обработка
  • Основные понятия и особенности потоковой обработки
  • Встречаем Flink: компоненты и первое приложение
  • Основные API
  1. Datastream API: Базовые трансформации и работа с источниками данных
  • Основные операторы (трансформации)
  • Роллинг агрегации и reduce
  • Работа с источниками (Apache Kafka, файловые источники)
  1. Datastream API: Работа с учетом времени
  • Архитектура Apache Flink
  • Event Time Processing
  • Оконные операции и джойны
  1. Datastream API: Работа с состоянием
  • Низкоуровневые «process» функции и управление состоянием
  • Checkpoints, savepoints
  1. Другие API, языки и системы
  • Flink Table API и SQL
  • Flink и python
  • Сравнение Flink с Kafka Streams и Spark Structured Streaming

FLINK: Потоковая обработка данных с помощью Apache Flink

Скачать программу курса «Потоковая обработка данных с помощью Apache Flink» в формате pdf

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Кто проводит курс

prepod-mihail-korolev.jpg
Преподаватель Школы Больших Данных

Королев Михаил

МГУ им. М.В. Ломоносова (Москва, 1992)
Профессиональные компетенции:

География наших клиентов

  • Москва
  • Санкт-Петербург
  • Нижний Новгород
  • Екатеринбург
  • Казань
  • Краснодар
  • Красноярск
  • Перьм
  • Челябинск
  • Новосибирск
  • Томск
  • Тверь
  • Саратов
  • Самара
  • Ростов-на-Дону
  • Хабаровск
  • Волгоград
  • Калуга
  • Якутск
  • Севастополь
  • Тольяти
  • Владивоссток
  • Тюмень
  • Южно-Сахалинск
  • Уфа
  • Ставрополь
  • Минск
  • Алматы
  • Астана
  • Ташкент
  • Душанбе
  • Бешкек
Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21  или заполнить форму обратной связи на сайте.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту