Apache Spark для инженера данных: 3 полезных инструмента построения ETL-конвейеров

Автор Категория , ,
Apache Spark для инженера данных: 3 полезных инструмента построения ETL-конвейеров

Дополняя наши курсы дата-инженеров полезными примерами, сегодня рассмотрим, как упростить разработку и мониторинг ETL-конвейеров с помощью дополнительных технологий Big Data, совместимых с Apache Spark. Читайте далее, когда и зачем инженеру…

3 проблемы с топиками Kafka для администратора кластера и способы их решения

Автор Категория ,
3 проблемы с топиками Kafka для администратора кластера и способы их решения

В этой статье рассмотрим типичные проблемы топиков Apache Kafka, с которыми сталкивается каждый администратор Big Data кластера. Читайте далее, почему топики чрезмерно разрастаются, как работает очистка логов, когда старые сообщения…

Что не так с конвейером Apache Kafka и Spark Structured Streaming для потоковой аналитики больших данных в AWS: практический пример

Автор Категория ,
Что не так с конвейером Apache Kafka и Spark Structured Streaming для потоковой аналитики больших данных в AWS: практический пример

Чтобы дополнить наши курсы по Spark для разработчиков распределенных приложений и инженеров данных практическими примерами, сегодня рассмотрим кейс американской ИТ-компании ThousandEyes, которая разрабатывает программное обеспечение для анализа производительности локальных и…

Конфигурирование исполнителей Spark-заданий в AWS: ядра ЦП и проблемы с памятью

Автор Категория ,
Конфигурирование исполнителей Spark-заданий в AWS: ядра ЦП и проблемы с памятью

Продолжая вчерашний разговор про оптимизацию Spark-приложений в облачном кластере Amazon Web Services, сегодня рассмотрим типовую последовательность действий по конфигурированию заданий и настройке узлов для снижения затрат на аналитику больших данных.…

Как сэкономить на AWS-кластере: экономика Big Data и конфигурирование облачных Spark-приложений

Автор Категория , ,
Как сэкономить на AWS-кластере: экономика Big Data и конфигурирование облачных Spark-приложений

В рамках обучения администраторов Apache Hadoop и инженеров Big Data, сегодня поговорим про стоимость аналитики больших данных с помощью Spark-приложений в облачном кластере Amazon Web Services и способы снижения этих…

Что такое бакетирование таблиц в Apache Spark SQL и как это улучшает аналитику больших данных

Автор Категория ,
Что такое бакетирование таблиц в Apache Spark SQL и как это улучшает аналитику больших данных

Сегодня поговорим про бакетирование таблиц в Apache Spark для оптимизации производительности заданий и снижения затрат на кластер при их выполнении. Читайте далее, что такое Bucketing в Spark SQL и как…

ksqlDB и Kafka Streams: versus или вместе – сходства и различия инструментов потоковой аналитики Big Data

Автор Категория ,
ksqlDB и Kafka Streams: versus или вместе – сходства и различия инструментов потоковой аналитики Big Data

Продолжая разговор про обучение разработчиков Apache Kafka, сегодня рассмотрим, чем ksqlDB отличается от Kafka Streams. Также читайте далее про основные достоинства и недостатки перезапуска KSQL в виде отдельной базы данных…

Потоковая аналитика больших данных с ksqlDB на Kubernetes: практический пример

Автор Категория , ,
Потоковая аналитика больших данных с ksqlDB на Kubernetes: практический пример

В этой статье поговорим про KSQL на примере кейса компании американской компании Pluralsight, которая предлагает различные обучающие видео-курсы для разработчиков ПО, ИТ-администраторов и творческих профессионалов. Читайте далее, как использовать Apache…

Почему ваши Spark-приложения такие медленные: устраняем задержки аналитики Big Data

Автор Категория ,
Почему ваши Spark-приложения такие медленные: устраняем задержки аналитики Big Data

Недавно мы уже рассказывали про ускорение целых аналитических конвейеров на Apache Spark и отдельных задач, а также рассматривали способы оптимизации Shuffle-операций в SQL-модуле этого Big Data фреймворка. Сегодня разберем, какие…

Apache Hadoop 3.2.2 - свежий релиз 2021: краткий обзор главной технологии Big Data

Автор Категория ,
Apache Hadoop 3.2.2 - свежий релиз 2021: краткий обзор главной технологии Big Data

Месяц назад, в начале января 2021 года вышел новый релиз Apache Hadoop 3.2.2. Читайте далее, чего ждать от самой главной технологии Big Data, какие ошибки исправлены, зачем внесены изменения и…