Сегодня в качестве пятничного развлечения для дата-инженеров, разработчиков распределенных приложений, администраторов, аналитиков и других специалистов по большим данным мы приготовили небольшой квиз по Apache Hadoop. Проверьте свое знание главной технологии…
Метка: HBase
Как спроектировать идеальный Big Data Pipeline: 5 главных качеств конвейера обработки больших данных с примерами
Автор Анна ВичуговаКатегория Hive, Spark, Use Cases, Статьи
В этой статье разберем ключевые характеристики идеального конвейера обработки больших данных. Читайте далее, чем отличается Big Data Pipeline, а также какие приемы и технологии помогут инженеру данных спроектировать и реализовать…
Как построить ML-pipeline на Qlik Replicate, Apache Kafka и других технологиях Big Data: архитектура real-time аналитики больших данных
Автор Анна ВичуговаКатегория Kafka, Machine Learning, Use Cases, Статьи
Сегодня поговорим про ETL-процессы в мире Big Data на примере построения непрерывного конвейера поставки больших данных о транзакциях для сервисов машинного обучения. Читайте далее, из чего состоит типичная архитектура такой…
Что не так с Delta Lake на Apache Spark: 7 основных проблем и их решения
Автор Анна ВичуговаКатегория Hive, Spark, Статьи
При всех своих достоинствах Delta Lake, включая коммерческую реализацию этой Big Data технологии от Databricks, оно обладает рядом особенностей, которые могут расцениваться как недостатки. Сегодня мы рассмотрим, чего не стоит…
3 достоинства и 5 особенностей интеграции Apache Kudu и Spark с примерами
Автор Анна ВичуговаКатегория Cloudera, Spark, Статьи
Недавно мы разбирали особенности интеграции Apache Kudu и Spark. В продолжение этой темы, сегодня поговорим про некоторые особенности выполнения SQL-операций с данными при интеграции этих Big Data фреймворков, а также…
Как организовать конвейер self-service Machine Learning на Apache Kafka, Spark Streaming, Kudu и Impala: пример расширенной BI-аналитики Big Data
Автор Анна ВичуговаКатегория Cloudera, Kafka, Machine Learning, Spark, Use Cases, Статьи
Продолжая разбирать production-кейсы реального использования этих технологий Big Data, сегодня поговорим подробнее, каковы плюсы совместного применения Kudu, Spark Streaming, Kafka и Cloudera Impala на примере аналитической платформы для мониторинга событий…
Как сократить цикл BI-аналитики Big Data в тысячи раз или ETL-конвейер Apache Kafka-Storm-Kudu-Impala в Xiaomi
Автор Анна ВичуговаКатегория Cloudera, Hive, Kafka, Spark, Use Cases, Статьи
Сегодня мы рассмотрим практический кейс использования Apache Kudu с Kafka, Storm и Cloudera Impala в крупной китайской корпорации, которая производит смартфоны. На базе этих Big Data технологий компания Xiaomi построила…
BI-аналитика больших данных и другие Big Data системы: 5 примеров применения Apache Kudu
Автор Анна ВичуговаКатегория Cloudera, Use Cases, Новости, Статьи
Вчера мы говорили про интеграцию Apache Kudu со Spark SQL, Kafka и Cloudera Impala для эффективной организации озера данных (Data Lake), обеспечивающего быструю аналитику больших данных в режиме реального времени.…
Быстрая аналитика больших данных в Data Lake на Apache Kudu с Kafka и Spark
Автор Анна ВичуговаКатегория Cloudera, Hive, Kafka, Spark, Use Cases, Статьи
В продолжение темы про совместное использование Apache Kudu с другими технологиями Big Data, сегодня рассмотрим, как эта NoSQL-СУБД работает вместе с Kafka, Spark и Cloudera Impala для построения озера данных…
Синергия Apache Kudu с HDFS и Impala для быстрой аналитики Big Data в Hadoop
Автор Анна ВичуговаКатегория Hive, Use Cases, Статьи
В этой статье продолжим разговор про Apache Kudu и рассмотрим, как эта NoSQL-СУБД используется с Hadoop и Cloudera Impala, чем она полезна в организации озера данных (Data Lake) и почему…