ZEPP: Использование Apache Zeppelin
Ближайшая дата курса
28 октября 2021
23 декабря 2021
Стоимость обучения 36.000 руб. Регистрация
Код курса ZEPP

2 дня практического обучения аналитиков и дата-инженеров: реализация Data Science проектов, анализ Big Data в компонентах экосистемы Hadoop (Spark, Hive, Hbase, Flink) и организация ETL/ELT-процессов с интерактивной многопользовательской кросс-платформенной средой Apache Zeppelin.

ЧТО ТАКОЕ Apache Zeppelin

Apache Zeppelin – это интерактивный веб-блокнот с открытым исходным кодом для поддержки всех этапов работы Data Scientist’а с данными, от извлечения до визуализации, включая интерактивный анализ и совместное использование документов. Он интегрирован с Apache Spark, Flink, Hadoop, реляционными и NoSQL-СУБД (Cassandra, HBase, Hive, PostgreSQL, Elasticsearch, Google Big Query, Mysql, MariaDB, Redshift). За счет интерпретаторов Apache Zeppelin поддерживает различные языки программирования (Python, PySpark, R, Scala, SQL).

Особым преимуществом Zeppelin является встроенная интеграция с Apache Spark и его REST-API Livy, что дает общие контексты (SparkContext и SQLContext), загрузку jar-зависимостей из локальной файловой системы или Maven-репозитория во время выполнения задачи, а также возможность отмены задания и отображение хода его выполнения. Благодаря Python-интерпретатору, Apache Zeppelin включает все возможности этого языка для Data Science: библиотеки Matplotlib, Conda, Pandas и прочие инструменты аналитики больших данных. Средства визуализации позволяет автоматически строить круговые, столбчатые и прочие наглядные диаграммы, чтобы наглядно показать статистику датасета или результаты исследования.

Также Zeppelin позволяет создавать интерактивные дэшборды с формами ввода данных в виде веб-страниц. Отчеты для конечных пользователей могут быть экспортированы в формат CSV или TSV. Для многопользовательского режима поддерживается LDAP-авторизация с настройками доступа. Наконец, Zeppelin является частью экосистемы Apache Hadoop, что позволяет легко и удобно использоваться его вместе с Pig, Hive и другими компонентами этой платформы хранения и аналитики больших данных.

 

 

Кому нужны курсы по Apache Zeppelin

Авторский курс по Apache Zeppelin в Школе Больших Данных ориентирован на следующие категории ИТ-специалистов:

  • инженер данных (Data Engineer);
  • аналитик больших данных (Data Analyst);
  • специалист по разработке и сопровождению ETL/ELT-процессов и КХД.

Практические курсы по Apache Zeppelin предназначены для дата-инженеров, администраторов, системных архитекторов, аналитиков и разработчиков, которые хотят получить практические навыки по эффективной интеграции компонентов экосистемы Apache Hadoop и интерактивному анализу больших данных с помощью многопользовательской кросс-платформенной среды.

Необходимая предварительная подготовка

  • Знание Hadoop
  • Знание базовых команд Linux: опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano
  • Знание SQL

О курсе по Apache Zeppelin

Практический курс по Apache Zeppelin ориентирован на инженеров данных и специалистов, отвечающих за сопровождение и разработку data pipelines и процессов ETL/ELT в кластерных решениях Hadoop, NoSQL, а также интеграцию с существующими корпоративными хранилищами данных.

В курсе рассматриваются способы интеграции экосистемы Hadoop и решения для анализа и визуализации данных, а также совместной работы над данными с использованием средств Apache Spark – Apache Zeppelin.  Этот многопользовательский интерактивный аналог Jupyter notebook в браузере позволяет пользователям создавать запросы к данным в Hadoop и в СУБД на SQL, Scala и Python, а также отображать результаты в виде таблиц, графиков и диаграмм.

Всего за 2 дня вы научитесь устанавливать, настраивать и эффективно использовать Apache Zeppelin для реальных Data Science проектов, анализа Big Data в компонентах экосистемы Hadoop и организации ETL/ELT-процессов на практических примерах для фреймворков Spark, HBase и Hive с Python-интерпретатором.

Аудитория

Инженеры данных, аналитики Big Data, системные архитекторы и разработчики, желающие получить практические навыки по эксплуатации Apache Zeppelin.

Соотношение теории к практике 40/60

По завершении курса вы получите сертификат нашего учебного центра «Школа Больших Данных».

 

 

Программа курса «Использование Apache Zeppelin»

 

  1. Введение в Zeppelin
  • Основные принципы
  • Требования по установке
  • Настройка
  • Базовые интерпретаторы: md
  • Визуализация
  • Хранение Notebooks
  • Интеграция
  1. Настройка и использование интерпретаторов Zeppelin
  • Интерпретатор Spark
  • Интерпретатор Hive
  • Интерпретатор HBase
  • Интерпретатор Flink
  • Интерпретатор Python
  1. Установка и настройка безопасности для Zeppelin
  • Базовая аутентификация
  • SHIRO провайдер
  • Интеграция с CDP, Arenadata, Apache Hadoop

 

Программа курса «Использование Apache Zeppelin»

Скачать программу курса «Использование Apache Zeppelin» в формате pdf

Укажите e-mail, на который будет оправлена ссылка для скачивания файла: