Все курсы

Авторский курс Greenplum для инженеров данных: 3 дня практики

Авторский курс Greenplum для инженеров данных

Ближайшая дата курса
17 мая 2023
03 июля 2023
04 сентября 2023
Стоимость обучения 66 000 руб. Регистрация
Длительность обучения 24 ак.часов
Код курса GPDE

3 дня практического обучения аналитиков, дата-инженеров и администраторов баз данных: анализ Big Data, организация ETL/ELT-процессов, построение корпоративных озер и хранилищ данных с масштабируемой отказоустойчивой open-source СУБД Greenplum Database.

Что такое GreenPlum

Greenplum – это массивно-параллельная (Massive Parallel Processing, MPP) реляционная СУБД с открытым исходным кодом для хранилищ данных с гибкой горизонтальной масштабируемостью и столбцовым хранением данных на основе PostgreSQL. Несколько взаимосвязанных экземпляров базы данных PostgreSQL объединены в кластер Greenplum без разделения ресурсов (Shared Nothing). Каждый узел кластера взаимодействует с другими для выполнения вычислительных операций, но имеет собственные ресурсы: оперативную память, операционную систему и жесткие диски. Благодаря особенностям MPP-архитектуры и мощному оптимизатору запросов, эта NoSQL-СУБД отличается надежностью и высокой скоростью обработки SQL-запросов над большими объемами данных.

Эта MPP-СУБД широко применяется для аналитики больших данных в промышленных масштабах. Она обеспечивает надежное безопасное хранение и аналитическую обработку сотен терабайт структурированных и слабоструктурированных данных для решения различных бизнес-задач. Например, построение систем предиктивной аналитики, корпоративных озер и хранилищ данных, организации регулярной отчетности и анализа оттока клиентов. Поэтому Greenplum широко применяется в ритейле, банках, телекоммуникационных компаниях, государственных предприятиях и других секторах экономики для организации витрин данных и быстрой аналитики Big Data с генерацией сложных отчетов в режиме практически реального времени.

Именно на базе Greenplum разработана отечественная MPP-СУБД Arenadata DB (ADB), адаптированная для корпоративного использования и зарегистрированная в Едином реестре российских программ. Поэтому Arenadata DB полностью соответствует политике импортозамещения и активно используется множеством государственных организаций и частных компаний России в качестве надежного средства построения многоуровневых озер и хранилищ данных в рамках комплексной цифровизации предприятий.

 

 

Кому нужны курсы по GreenPlum

Авторский курс по Greenplum в Школе Больших Данных ориентирован на следующие категории ИТ-специалистов:

  • инженер данных (Data Engineer);
  • администратор больших данных (Big Data Administrator);
  • администратор баз данных (Database Administrator);
  • аналитик больших данных (Data Analyst).

Практические курсы по Greenplum предназначены для дата-инженеров, администраторов, системных архитекторов, аналитиков и разработчиков, которые хотят получить практические навыки по эффективной организации ETL/ELT-процессов, а также построению корпоративных озер и хранилищ данных на базе MPP-СУБД Greenplum.

Необходимая предварительная подготовка

  • Знание базовых команд Linux(опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vinano)
  • Опыт работы с SQL

О курсе

Обучающий курс «Greenplum для дата-инженеров» предназначен для инженеров и аналитиков данных, администраторов баз данных, разработчиков и специалистов по ETL/ELT-процессам, а также архитекторов корпоративных озер и хранилищ данных. Курс даёт необходимые знания по эффективной и безопасной эксплуатации GreenPlum в качестве средства быстрой аналитики больших данных, а также основы многоуровневых Data Lake и КХД. Освоение каждой практической темы подкрепляется лабораторной работой. Выполнять лабораторные работы предлагаем на базе дистрибутива native Greenplum или Arenadata DB — выбор по желанию Слушателя.

 

Аудитория

Инженеры данных, аналитики Big Data, администраторы баз данных, системные архитекторы и разработчики, желающие получить практические навыки по эксплуатации кластера Greenplum.

Соотношение теории к практике 50/50

По завершении курса вы получите сертификат нашего учебного центра «Школа Больших Данных».

Программа курса GreenPlum для инженеров данных

Часть 1. Основы GreenPlum: GreenPlum как реляционная MPP СУБД

  • Введение в GreenPlum
  • Архитектура GreenPlum
  • Партиционирование таблиц, индексы
  • Транзакции и блокировки
  • Оптимизация и планы запросов
  • Лабораторная работа

Часть 2. Внешние данные и код: GreenPlum как агрегатор данных и исполнитель кода

  • Механизм внешних таблиц, протоколы, PXF
  • Загрузка данных в GreenPlum
  • Механизм UDF
  • Работа с JSON, XML
  • Экосистема и дополнительные библиотеки
  • Лабораторная работа

Часть 3. GreenPlum в современных хранилищах данных

  • Архитектура озера данных
  • ETL, ELT и подготовка данных
  • GPSS и интеграция GreenPlum с Kafka и Nifi
  • Обработка данных из GreenPlum с помощью Spark
  • Построение многоуровневого хранилища на GreenPlum
  • Лабораторная работа

Программа курса «GPDE: Greenplum для инженеров данных»

Скачать программу курса «Greenplum для инженеров данных»

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21  или заполнить форму обратной связи на сайте.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Поиск по сайту