3 задания по Apache Hadoop для чайников: развлекательная проверка знаний

Автор Категория , ,
3 задания по Apache Hadoop для чайников: развлекательная проверка знаний

Сегодня в качестве пятничного развлечения для дата-инженеров, разработчиков распределенных приложений, администраторов, аналитиков и других специалистов по большим данным мы приготовили небольшой квиз по Apache Hadoop. Проверьте свое знание главной технологии…

Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto

Автор Категория , , ,
Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto

В этой статье рассмотрим, как сделать SQL-запросы к колоночному хранилищу больших данных с поддержкой ACID-транзакций Delta Lake еще быстрее с помощью Apache Presto. Читайте далее про синергию совместного использования Apache…

Что под капотом ретаргетинга: прогнозирование намерений пользователя с Apache Hadoop и Spark Structured Streaming на сервисах Amazon

Автор Категория , , ,
Что под капотом ретаргетинга: прогнозирование намерений пользователя с Apache Hadoop и Spark Structured Streaming на сервисах Amazon

Мы уже рассказывали о возможностях ретаргетинга и использовании Apache Spark Structured Streaming для реализации этого рекламного подхода на примере Outbrain. Такое применение технологий Big Data сегодня считается довольно распространенным. Чтобы…

10 вопросов на знание основ Big Data: открытый интерактивный тест для начинающих

Автор Категория , , , , , , ,
10 вопросов на знание основ Big Data: открытый интерактивный тест для начинающих

Чтобы сделать самостоятельное обучение технологиям Big Data по статьям нашего блога еще более интересным, сегодня мы предлагаем вам простой интерактивный тест по основам больших данных, включая администрирование кластеров, инженерию конвейеров…

Как спроектировать идеальный Big Data Pipeline: 5 главных качеств конвейера обработки больших данных с примерами

Автор Категория , , ,
Как спроектировать идеальный Big Data Pipeline: 5 главных качеств конвейера обработки больших данных с примерами

В этой статье разберем ключевые характеристики идеального конвейера обработки больших данных. Читайте далее, чем отличается Big Data Pipeline, а также какие приемы и технологии помогут инженеру данных спроектировать и реализовать…

Чем отличаются Apache AirFlow и Luigi: выбираем оркестратор для Big Data Pipeline'ов

Автор Категория , ,
Чем отличаются Apache AirFlow и Luigi: выбираем оркестратор для Big Data Pipeline'ов

Продвигая наши курсы по Apache AirFlow для инженеров Big Data, сегодня расскажем, чем этот фреймворк отличается от Luigi – другого достаточно известного инструмента оркестровки ETL-процессов и конвейеров обработки больших данных.…

5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc

Автор Категория , , , ,
5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc

Сегодня поговорим про особенности перехода с локального Hadoop-кластера в облачное SaaS-решение от Google – платформу Dataproc. Читайте далее, какие 5 шагов нужно сделать, чтобы быстро развернуть и эффективно использовать облачную…

Как работает облачная аналитика больших данных на Apache Hadoop и Spark в Dataproc

Автор Категория , , ,
Как работает облачная аналитика больших данных на Apache Hadoop и Spark в Dataproc

В этой статье рассмотрим архитектуру и принципы работы системы хранения, аналитической обработки и визуализации больших данных на базе компонентов Hadoop, таких как Apache Spark, Hive, Tez, Ranger и Knox, развернутых…

Что не так с Delta Lake на Apache Spark: 7 основных проблем и их решения

Автор Категория , ,
Что не так с Delta Lake на Apache Spark: 7 основных проблем и их решения

При всех своих достоинствах Delta Lake, включая коммерческую реализацию этой Big Data технологии от Databricks, оно обладает рядом особенностей, которые могут расцениваться как недостатки. Сегодня мы рассмотрим, чего не стоит…

Как сократить цикл BI-аналитики Big Data в тысячи раз или ETL-конвейер Apache Kafka-Storm-Kudu-Impala в Xiaomi

Автор Категория , , , , ,
Как сократить цикл BI-аналитики Big Data в тысячи раз или ETL-конвейер Apache Kafka-Storm-Kudu-Impala в Xiaomi

Сегодня мы рассмотрим практический кейс использования Apache Kudu с Kafka, Storm и Cloudera Impala в крупной китайской корпорации, которая производит смартфоны. На базе этих Big Data технологий компания Xiaomi построила…