Развивая наши курсы по Apache Spark и AirFlow для дата-инженеров и администраторов кластеров, сегодня рассмотрим кейс крупного маркетплейса Joom по переходу от 2-ой версии фреймворка на облачной платформе EMR к…
Метка: Livy
Доступ к пользовательским JAR из Spark-заданий на AWS EMR
Автор Анна ВичуговаКатегория Spark, СтатьиВ рамках обучения разработчиков распределенных Spark-приложений, сегодня рассмотрим, как добавить функции из пользовательских JAR-файлов в кластер AWS EMR. Достоинства и недостатки действия начальной загрузки EMR с переопределением конфигурации Spark, а…
4 причины сбоя в системах на Apache Hadoop, Spark и Livy + способы их лечения от дата-инженеров Pinterest
Автор Анна ВичуговаКатегория Spark, СтатьиСегодня разберем типовые ошибки, которые часто возникают в системах аналитики больших данных на базе Apache Hadoop YARN, Spark и RESTful-интерфейсу Livy, а также каким образом их избежать. В качестве практического…
Интерактивная аналитика больших данных с Apache Spark SQL и Livy: кейс Pinterest
Автор Анна ВичуговаКатегория Spark, Use Cases, СтатьиСегодня в качестве полезного примера для обучения дата-инженеров и разработчиков Spark-приложений, разберем кейс компании Pinterest по интерактивной аналитике больших данных средствами SQL-модуля этого популярного фреймворка. Читайте далее, почему дата-инженеры решили…
Зачем вам Hue или как писать SQL-запросы к Apache Spark еще проще
Автор Анна ВичуговаКатегория Hive, Spark, СтатьиСегодня рассмотрим инструмент, который облегчает практическое использование Apache Spark, позволяя дата-аналитику и разработчику распределенных приложений быстро писать и выполнять SQL-запросы в рамках удобного веб-редактора. Читайте далее, что такое Hue, как…
Apache Spark для инженера данных: 3 полезных инструмента построения ETL-конвейеров
Автор Анна ВичуговаКатегория Spark, Use Cases, СтатьиДополняя наши курсы дата-инженеров полезными примерами, сегодня рассмотрим, как упростить разработку и мониторинг ETL-конвейеров с помощью дополнительных технологий Big Data, совместимых с Apache Spark. Читайте далее, когда и зачем инженеру…
Чем Apache Zeppelin лучше Jupyter Notebook для интерактивной аналитики Big Data: 4 ключевых преимущества
Автор Анна ВичуговаКатегория Spark, Use Cases, СтатьиВ этой статье мы рассмотрим, что такое Apache Zeppelin, как он полезен для интерактивной аналитики и визуализации больших данных (Big Data), а также чем этот инструмент отличается от популярного среди…
Как управлять собственным Data Flow на Apache Spark с NiFi через Livy: разбираемся с процессорами и контроллерами
Автор Анна ВичуговаКатегория NiFi, Spark, Use Cases, СтатьиApache Livy полезен не только при организации конвейеров обработки больших данных (Big Data pipelines) на Spark и Airflow, о чем мы рассказывали здесь. Сегодня рассмотрим, как организовать запланированный запуск пакетных…
Apache Livy vs Oozie: сравнительный обзор инструментов удаленного запуска Spark-задач
Автор Анна ВичуговаКатегория Spark, Use Cases, СтатьиПродолжая разговор про Apache Livy, сегодня мы сравним этот REST API для Spark c другой популярной Big Data системой планирования рабочих процессов для управления заданиями Hadoop – Oozie. Читайте в…
Что под капотом Apache Livy: принципы и особенности работы со Spark
Автор Анна ВичуговаКатегория AirFlow, Spark, Use Cases, СтатьиВчера мы рассказывали про особенности совместного использования Apache Spark с Airflow и достоинства подключения Apache Livy к этой комбинации популярных Big Data фреймворков. Сегодня рассмотрим подробнее, как работает Apache Livy,…