Что не так с Delta Lake на Apache Spark: 7 основных проблем и их решения

Spark, архитектура, обработка данных, большие данные, Big Data, Hadoop, Data Lake, Hive, SQL, NoSQL, MLOps, DataOps, Delta Lake, обучение Apache Spark, курсы по Spark

При всех своих достоинствах Delta Lake, включая коммерческую реализацию этой Big Data технологии от Databricks, оно обладает рядом особенностей, которые могут расцениваться как недостатки. Сегодня мы рассмотрим, чего не стоит ожидать от этого быстрого облачного хранилище для больших данных на Apache Spark и как можно обойти эти ограничения. Читайте далее, как реализовать потоковое чтение и запись данных при отсутствии Sqoop, что делать для изменения типа столбца и при чем тут Hive. Не все так просто или ключевые особенности Delta Lake Подчеркнем, что облачное Delta Lake располагается поверх корпоративной системы хранения данных, но не заменяет ее, а добавляет возможность работать с ACID-транзакциями в Hadoop HDFS, BLOB-объекты Azure и Amazon S3. Загрузка информации в Delta Lake возможна из любой системы хранения, которая Далее …

3 достоинства и 5 особенностей интеграции Apache Kudu и Spark с примерами

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, SQL, NoSQL, Kudu, Spark, HDFS

Недавно мы разбирали особенности интеграции Apache Kudu и Spark. В продолжение этой темы, сегодня поговорим про некоторые особенности выполнения SQL-операций с данными при интеграции этих Big Data фреймворков, а также рассмотрим пример записи данных в мульти-мастерный кластер Куду через Impala с помощью API Data Frame на PySpark. Что приносит Kudu в Spark: 3 преимущества совместного использования Напомним, Apache Kudu – это механизм хранения больших данных с открытым исходным кодом для экосистемы Hadoop, который обеспечивает высокоскоростную аналитику Big Data практически в режиме онлайн, соблюдая баланс между высокой пропускной способностью для объемных сканирований и низкой задержкой для произвольного доступа. Совмещая Spark и Kudu, можно создавать приложения, которые с помощью SQL запрашивают и анализируют постоянно изменяющиеся наборы данных. При этом производительность системы остается Далее …

Как организовать конвейер self-service Machine Learning на Apache Kafka, Spark Streaming, Kudu и Impala: пример расширенной BI-аналитики Big Data

Big Data, Большие данные, обработка данных, архитектура, HBase, Impala, SQL, NoSQL, Kudu, Spark, Kafka, банки, security, машинное обучение, Machine Learning

Продолжая разбирать production-кейсы реального использования этих технологий Big Data, сегодня поговорим подробнее, каковы плюсы совместного применения Kudu, Spark Streaming, Kafka и Cloudera Impala на примере аналитической платформы для мониторинга событий информационной безопасности банка «Открытие». Также читайте в нашей статье про возможности этих технологий в контексте машинного обучения (Machine Learning), в т.ч. самообслуживаемого (self-service ML). BI-система на базе Big Data для банковской безопасности Apache Kudu, Spark, Kafka и прочие технологии Big Data активно используются не только в типовых BI-приложениях, но и в аналитических системах обеспечения информационной безопасности. В частности, в январе 2020 года банк «Открытие» совместно с компанией «Неофлекс» завершил проект по внедрению аналитической платформы мониторинга событий информационной безопасности на базе технологий Big Data. Система обеспечивает непрерывный мониторинг и позволяет в Далее …

Как сократить цикл BI-аналитики Big Data в тысячи раз или ETL-конвейер Apache Kafka-Storm-Kudu-Impala в Xiaomi

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, SQL, NoSQL, Kudu, Spark, Kafka, Storm

Сегодня мы рассмотрим практический кейс использования Apache Kudu с Kafka, Storm и Cloudera Impala в крупной китайской корпорации, которая производит смартфоны. На базе этих Big Data технологий компания Xiaomi построила собственную платформу для BI-аналитики больших данных и генерации отчетности в реальном времени. История Kudu-проекта в Xiaomi Корпорация Xiaomi начала использовать Kudu еще в 2016 году, вместе с Cloudera Impala, которая на тот момент еще находилась в стадии инкубации open-source проектов фонда Apache Software Foundation [1]. До применения Kudu архитектура аналитической Big Data системы выглядела следующим образом [2]: данные из различных источников (более 20 миллиардов записей в день) сохранялись в HBase и в отдельной базе файлов последовательности в формате Sequence; далее эти данные обрабатывались с помощью Apache Hive, классического Hadoop MapReduce Далее …

BI-аналитика больших данных и другие Big Data системы: 5 примеров применения Apache Kudu

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, SQL, NoSQL, Kudu

Вчера мы говорили про интеграцию Apache Kudu со Spark SQL, Kafka и Cloudera Impala для эффективной организации озера данных (Data Lake), обеспечивающего быструю аналитику больших данных в режиме реального времени. В продолжение этой темы, сегодня рассмотрим 5 примеров практического использования kudu в Big Data проектах, уделив особое внимание системам бизнес-аналитики или BI (Business Intelligence). ТОП-5 примеров использования Apache Kudu в Big Data проектах Напомним, Kudu дает возможность потокового ввода практически в режиме реального времени, позволяя запускать приложения временных рядов с различными схемами доступа и разрабатывать модели предопределенного обучения. Также этот Hadoop-движок предоставляет свободу доступа и запроса данных из любых существующих источников или форматов с помощью Impala, о чем мы писали здесь. В этой статье мы перечисляли основные области применения Kudu. Далее …

Быстрая аналитика больших данных в Data Lake на Apache Kudu с Kafka и Spark

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, Data Lake, SQL, NoSQL, Hive, Kafka, Spark, Kudu

В продолжение темы про совместное использование Apache Kudu с другими технологиями Big Data, сегодня рассмотрим, как эта NoSQL-СУБД работает вместе с Kafka, Spark и Cloudera Impala для построения озера данных (Data Lake) для быстрой аналитики больших данных в режиме реального времени. Также читайте в нашей статье про особенности интеграции Apache Kudu со Spark SQL. Зачем совмещать Apache Kudu с Kafka и Spark или быстрая альтернатива традиционному Data Lake на Hadoop Рассмотрим пример типичной Big Data для потокового анализа данных на базе Data Lake, куда информация непрерывно передается из кластера Kafka. Там новые данные обогащаются историческими, чтобы конечные пользователи (BI-приложения, Data Scientist’ы и аналитики Big Data) использовали их для своих бизнес-нужд анализ. При этом производительность системы является ключевым фактором, который обеспечивает Далее …

Синергия Apache Kudu с HDFS и Impala для быстрой аналитики Big Data в Hadoop

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, Data Lake, SQL, NoSQL, Hive

В этой статье продолжим разговор про Apache Kudu и рассмотрим, как эта NoSQL-СУБД используется с Hadoop и Cloudera Impala, чем она полезна в организации озера данных (Data Lake) и почему Куду не заменяет, а успешно дополняет HDFS и HBase для эффективной работы с большими данными (Big Data). Apache Kudu в Data Lake для быстрой аналитики Big Data Классическая архитектура Data Lake, ориентированная на пакетную обработку, когда данные обновляются несколько раз в день, не совсем отвечает требованиям современного бизнеса. Многие системы аналитики больших данных с функциями предупреждающих оповещений, обнаружения аномалий и информирования в реальном времени основаны на потоковом режиме работы с Big Data. Более продвинутый подход к построению таких систем на базе лямбда-архитектуры предполагает использование Apache HBase для хранения «быстрых» данных Далее …

Не только HDFS: как Apache Kudu ускоряет аналитику Big Data в Hadoop

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala

Сегодня поговорим про движки хранения больших данных в экосистеме Apache Hadoop и рассмотрим, что такое Kudu, каковы особенности применения, достоинства и недостатки этой колоночной NoSQL-СУБД. Также читайте в нашей статье, как Kudu связан с Impala, Spark и другими Big Data фреймворками. Что такое Apache Kudu и где это используется Распределенная файловая система для Apache Hadoop, HDFS отлично подходит для эффективного хранения больших данных, обеспечивая надежность записи с высокой степенью сжатия. Однако, данные в HDFS не подлежат модификации, а из-за архитектурных особенностей этого движка он не подходит для быстрой аналитики Big Data в реальном времени. Колоночная СУБД Apache HBase, работающая поверх HDFS, характеризуется противоположными свойствами: она позволяет довольно оперативно искать данные в режиме real-time, однако долго сканирует записанные объемы информации [1]. Далее …

Зачем вам Apache Bigtop или как собрать свой Hadoop для Big Data

Apache Bigtop, Big Data, Большие данные, обработка данных, архитектура, Hadoop, MapReduce, Hbase

Сегодня поговорим про еще один open-source проект от Apache Software Foundation – Bigtop, который позволяет собрать и протестировать собственный дистрибутив Hadoop или другого Big Data фреймворка, например, Greenplum. Читайте в нашей статье, что такое Apache Bigtop, как работает этот инструмент, какие компоненты он включает и где используется на практике. Что такое Apache Bigtop и при чем тут Gradle с Maven Согласно официальной документации, Bigtop – это проект с открытым исходным кодом от Apache Software Foundation для инженеров данных и Data Scientist’ов, который включает комплексную упаковку, тестирование и настройку ведущих компонентов Big Data инфраструктуры. Bigtop поддерживает широкий спектр компонентов, включая Hadoop, HBase, Spark и другие фреймворки для обработки и хранения больших данных. Bigtop позволяет создать собственные RPM и DEB Hadoop-дистрибутивы, предоставляет Далее …

Еще больше данных для торговой аналитики: Arenadata в Х5 Retail Group

Arenadata, Аренадата, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, Hive, цифровизация, цифровая трансформация, DWH, ритейл, HBase

Продолжая разговор про успехи применения отечественных Big Data продуктов, сегодня мы рассмотрим пример использования Arenadata DB в одной из ведущих отечественных компаний розничного ритейла. Читайте в нашей статье про особенности внедрения распределенной отказоустойчивой MPP-СУБД для аналитики больших данных в Х5 Retail Group. Зачем ритейлеру еще одно Big Data решение: специфика проекта Еще в 2016 году компания X5 Retail Group начала выстраивать комплексный data-driven подход к бизнесу, чтобы оперативно и даже заблаговременно принимать управленческие решения на основе данных. Для этого было решено создать глобальную аналитическую платформу, которая будет агрегировать все корпоративные данные, автоматизируя задачи Data Governance и отвечая на вопросы менеджеров и аналитиков компании. При этом пользоваться такой Big Data системой будут более 2000 аналитиков, задавая около 800 конкурентных запросов одновременно. Далее …