Использование Apache Zeppelin

2 дня практического обучения аналитиков и дата-инженеров: реализация Data Science проектов, анализ Big Data в компонентах экосистемы Hadoop (Spark, Hive, Hbase, Flink) и организация ETL/ELT-процессов с интерактивной многопользовательской кроссплатформенной средой Apache Zeppelin.

О продукте:

Apache Zeppelin – это интерактивный веб-блокнот с открытым исходным кодом для поддержки всех этапов работы Data Scientist’а с данными, от извлечения до визуализации, включая интерактивный анализ и совместное использование документов. Он интегрирован с Apache Spark, Flink, Hadoop, реляционными и NoSQL-СУБД (Cassandra, HBase, Hive, PostgreSQL, Elasticsearch, Google Big Query, Mysql, MariaDB, Redshift). За счет интерпретаторов Apache Zeppelin поддерживает различные языки программирования (Python, PySpark, R, Scala, SQL).

Особым преимуществом Zeppelin является встроенная интеграция с Apache Spark и его REST-API Livy, что дает общие контексты (SparkContext и SQLContext), загрузку jar-зависимостей из локальной файловой системы или Maven-репозитория во время выполнения задачи, а также возможность отмены задания и отображение хода его выполнения. Благодаря Python-интерпретатору, Apache Zeppelin включает все возможности этого языка для Data Science: библиотеки Matplotlib, Conda, Pandas и прочие инструменты аналитики больших данных. Средства визуализации позволяет автоматически строить круговые, столбчатые и прочие наглядные диаграммы, чтобы наглядно показать статистику датасета или результаты исследования.

Также Zeppelin позволяет создавать интерактивные дэшборды с формами ввода данных в виде веб-страниц. Отчеты для конечных пользователей могут быть экспортированы в формат CSV или TSV. Для многопользовательского режима поддерживается LDAP-авторизация с настройками доступа. Наконец, Zeppelin является частью экосистемы Apache Hadoop, что позволяет легко и удобно использоваться его вместе с Pig, Hive и другими компонентами этой платформы хранения и аналитики больших данных.

Аудитория:

Авторский курс по Apache Zeppelin в Школе Больших Данных ориентирован на следующие категории ИТ-специалистов:

инженер данных (Data Engineer);
аналитик больших данных (Data Analyst);
специалист по разработке и сопровождению ETL/ELT-процессов и КХД.

Практические курсы по Apache Zeppelin предназначены для дата-инженеров, администраторов, системных архитекторов, аналитиков и разработчиков, которые хотят получить практические навыки по эффективной интеграции компонентов экосистемы Apache Hadoop и интерактивному анализу больших данных с помощью многопользовательской кроссплатформенной среды.

Уровень подготовки:

Знание Hadoop
Знание базовых команд Linux: опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano
Знание SQL

О курсе:

Практический курс по Apache Zeppelin ориентирован на инженеров данных и специалистов, отвечающих за сопровождение и разработку data pipelines и процессов ETL/ELT в кластерных решениях Hadoop, NoSQL, а также интеграцию с существующими корпоративными хранилищами данных.

В курсе рассматриваются способы интеграции экосистемы Hadoop и решения для анализа и визуализации данных, а также совместной работы над данными с использованием средств Apache Spark – Apache Zeppelin. Этот многопользовательский интерактивный аналог Jupyter notebook в браузере позволяет пользователям создавать запросы к данным в Hadoop и в СУБД на SQL, Scala и Python, а также отображать результаты в виде таблиц, графиков и диаграмм.

Всего за 2 дня вы научитесь устанавливать, настраивать и эффективно использовать Apache Zeppelin для реальных Data Science проектов, анализа Big Data в компонентах экосистемы Hadoop и организации ETL/ELT-процессов на практических примерах для фреймворков Spark, HBase и Hive с Python-интерпретатором.

Соотношение теории к практике 40/60

Программа курса «Использование Apache Zeppelin»

1. Введение в Zeppelin

- Основные принципы
- Требования по установке
- Настройка
- Базовые интерпретаторы: md
- Визуализация
- Хранение Notebooks
- Интеграция

2. Настройка и использование интерпретаторов Zeppelin

- Интерпретатор Spark
- Интерпретатор Hive
- Интерпретатор HBase
- Интерпретатор Flink
- Интерпретатор Python

3. Установка и настройка безопасности для Zeppelin

- Базовая аутентификация
- SHIRO провайдер
- Интеграция с CDP, Arenadata, Apache Hadoop

Что Вы получите:

Окончив курс «Использование Apache Zeppelin» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат установленного образца, который может засчитываться в качестве свидетельства о повышении квалификации.

Чтобы записаться на курс ZEPP: Использование Apache Zeppelin позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.