Что не так с Delta Lake на Apache Spark: 7 основных проблем и их решения

Spark, архитектура, обработка данных, большие данные, Big Data, Hadoop, Data Lake, Hive, SQL, NoSQL, MLOps, DataOps, Delta Lake, обучение Apache Spark, курсы по Spark

При всех своих достоинствах Delta Lake, включая коммерческую реализацию этой Big Data технологии от Databricks, оно обладает рядом особенностей, которые могут расцениваться как недостатки. Сегодня мы рассмотрим, чего не стоит ожидать от этого быстрого облачного хранилище для больших данных на Apache Spark и как можно обойти эти ограничения. Читайте далее, как реализовать потоковое чтение и запись данных при отсутствии Sqoop, что делать для изменения типа столбца и при чем тут Hive. Не все так просто или ключевые особенности Delta Lake Подчеркнем, что облачное Delta Lake располагается поверх корпоративной системы хранения данных, но не заменяет ее, а добавляет возможность работать с ACID-транзакциями в Hadoop HDFS, BLOB-объекты Azure и Amazon S3. Загрузка информации в Delta Lake возможна из любой системы хранения, которая Далее …

Быстрая аналитика больших данных в Data Lake на Apache Kudu с Kafka и Spark

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, Data Lake, SQL, NoSQL, Hive, Kafka, Spark, Kudu

В продолжение темы про совместное использование Apache Kudu с другими технологиями Big Data, сегодня рассмотрим, как эта NoSQL-СУБД работает вместе с Kafka, Spark и Cloudera Impala для построения озера данных (Data Lake) для быстрой аналитики больших данных в режиме реального времени. Также читайте в нашей статье про особенности интеграции Apache Kudu со Spark SQL. Зачем совмещать Apache Kudu с Kafka и Spark или быстрая альтернатива традиционному Data Lake на Hadoop Рассмотрим пример типичной Big Data для потокового анализа данных на базе Data Lake, куда информация непрерывно передается из кластера Kafka. Там новые данные обогащаются историческими, чтобы конечные пользователи (BI-приложения, Data Scientist’ы и аналитики Big Data) использовали их для своих бизнес-нужд анализ. При этом производительность системы является ключевым фактором, который обеспечивает Далее …

Синергия Apache Kudu с HDFS и Impala для быстрой аналитики Big Data в Hadoop

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, Data Lake, SQL, NoSQL, Hive

В этой статье продолжим разговор про Apache Kudu и рассмотрим, как эта NoSQL-СУБД используется с Hadoop и Cloudera Impala, чем она полезна в организации озера данных (Data Lake) и почему Куду не заменяет, а успешно дополняет HDFS и HBase для эффективной работы с большими данными (Big Data). Apache Kudu в Data Lake для быстрой аналитики Big Data Классическая архитектура Data Lake, ориентированная на пакетную обработку, когда данные обновляются несколько раз в день, не совсем отвечает требованиям современного бизнеса. Многие системы аналитики больших данных с функциями предупреждающих оповещений, обнаружения аномалий и информирования в реальном времени основаны на потоковом режиме работы с Big Data. Более продвинутый подход к построению таких систем на базе лямбда-архитектуры предполагает использование Apache HBase для хранения «быстрых» данных Далее …

Зачем вам Apache Bigtop или как собрать свой Hadoop для Big Data

Apache Bigtop, Big Data, Большие данные, обработка данных, архитектура, Hadoop, MapReduce, Hbase

Сегодня поговорим про еще один open-source проект от Apache Software Foundation – Bigtop, который позволяет собрать и протестировать собственный дистрибутив Hadoop или другого Big Data фреймворка, например, Greenplum. Читайте в нашей статье, что такое Apache Bigtop, как работает этот инструмент, какие компоненты он включает и где используется на практике. Что такое Apache Bigtop и при чем тут Gradle с Maven Согласно официальной документации, Bigtop – это проект с открытым исходным кодом от Apache Software Foundation для инженеров данных и Data Scientist’ов, который включает комплексную упаковку, тестирование и настройку ведущих компонентов Big Data инфраструктуры. Bigtop поддерживает широкий спектр компонентов, включая Hadoop, HBase, Spark и другие фреймворки для обработки и хранения больших данных. Bigtop позволяет создать собственные RPM и DEB Hadoop-дистрибутивы, предоставляет Далее …

Интеграция Elasticsearch с Apache Hadoop: примеры и особенности

Big Data, Большие данные, обработка данных, архитектура, NoSQL, Elasticsearch, Hadoop, Spark, банк, Hive

В этой статье поговорим про интеграцию ELK-стека с экосистемой Apache Hadoop: зачем это нужно и с помощью каких средств можно организовать обмен данными между HDFS и Elasticsearch, а также при чем здесь Apache Spark, Hive и Storm. Еще рассмотрим несколько практических примеров, где реализована такая интеграция Big Data систем для построения комплексной аналитической платформы. Зачем нужна интеграция Elasticsearch с Apache Hadoop Как обычно, начнем с описания бизнес-потребности, для чего вообще требуется обмен данными между компонентами Apache Hadoop и ELK Stack. Напомним, Hadoop отлично подходит для пакетной обработки Big Data, но не подходит для интерактивных вычислений из-за особенностей классического MapReduce, связанного с записью промежуточных вариантов на жесткий диск. Elasticsearch, напротив, работает в режиме near real-time, оперативно показывая результаты аналитической обработки неструктурированных Далее …

За что все его так любят: ТОП-5 достоинств ClickHouse для Big Data

g Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse, DWH, Kafka, Zookeeper, Hive, Hadoop

Сегодня рассмотрим основные преимущества ClickHouse – аналитической СУБД от Яндекса для обработки запросов по структурированным большим данным в реальном времени. Читайте в нашей статье, чем еще хорош Кликхаус, кроме высокой скорости, и почему эту систему так любят аналитики, разработчики и администраторы Big Data. Чем хорош ClickHouse: главные преимущества Напомним, основным сценарием использования ClickHouse считается генерация аналитических запросов по структурированным данным c минимальной задержкой, фактически в режиме в режиме real time. Таким образом, главными преимуществами этой OLAP-СУБД для Big Data являются следующие: скорость; масштабируемость; расширяемость; высокая доступность и отказоустойчивость; простота развертывания и удобство эксплуатации. Далее рассмотрим подробнее, какие именно архитектурные и конструктивные особенности ClickHouse обеспечивают все эти достоинства. Почему так быстро: 5 причин высокой скорости Внедрение ClickHouse на сервисе Яндекс.Метрика отмечает Далее …

Еще больше данных для торговой аналитики: Arenadata в Х5 Retail Group

Arenadata, Аренадата, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, Hive, цифровизация, цифровая трансформация, DWH, ритейл, HBase

Продолжая разговор про успехи применения отечественных Big Data продуктов, сегодня мы рассмотрим пример использования Arenadata DB в одной из ведущих отечественных компаний розничного ритейла. Читайте в нашей статье про особенности внедрения распределенной отказоустойчивой MPP-СУБД для аналитики больших данных в Х5 Retail Group. Зачем ритейлеру еще одно Big Data решение: специфика проекта Еще в 2016 году компания X5 Retail Group начала выстраивать комплексный data-driven подход к бизнесу, чтобы оперативно и даже заблаговременно принимать управленческие решения на основе данных. Для этого было решено создать глобальную аналитическую платформу, которая будет агрегировать все корпоративные данные, автоматизируя задачи Data Governance и отвечая на вопросы менеджеров и аналитиков компании. При этом пользоваться такой Big Data системой будут более 2000 аналитиков, задавая около 800 конкурентных запросов одновременно. Далее …

Завод, телеком и госсектор: 3 примера внедрения Arenadata

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake, цифровизация, цифровая трансформация, Kafka, Spark, NiFi, Airflow, DWH, Аренадата, Arenadata

В этой статье мы продолжим рассказывать про практическое использование отечественных Big Data решений на примере российского дистрибутива Arenadata Hadoop (ADH) и массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB). Сегодня мы приготовили для вас еще 3 интересных кейса применения этих решений в проектах цифровизации бизнеса и государственном управлении. Великолепная 5-ка в отечественном Big Data конкурсе Далее рассмотрим следующие Big Data проекты: технологическая платформа для объединения федеральных хранилищ данных (ХД) и аналитики в ПАО «Ростелеком»; цифровая платформа Счетной палаты РФ; озеро данных (Data Lake) Новолипецкого металлургического комбината; распределённая СУБД для аналитики больших данных в X5 Retail Group. Все эти проекты, участвовали в конкурсе ИТ-портала Global CIO «Проект года-2019» и вошли в ТОП-5 лучших решений, наряду с «умным» озером Далее …

От банков до Газпрома: 4 крупных успеха Arenadata – интересные кейсы за последнюю пару лет

Аренадата, Aernadata, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake

Сегодня мы поговорим про продукты компании Arenadata – отечественного разработчика дистрибутива Apache Hadoop (ADH), массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB) и других Big Data платформ. Читайте в нашей статье, где внедрены эти решения и какую пользу они уже успели принести бизнесу. Облака и банк: 3 примера внедрения Arenadata DB Компания Mail.ru Group, один из ведущих облачных провайдеров в России, решила объединить преимущества своей инфраструктуры с достоинствами Arenadata DB – распределенной массивно-параллельной СУБД для анализа и хранения больших данных. С 29 апреля 2020 года Mail.ru Cloud Solutions запустила на своей платформе сервис по развертыванию и использованию ADB [1]. Аналогичную услугу с февраля 2020 года предлагает другой крупный SaaS-провайдер и системный интегратор – компания Крок [2]. Из Далее …

5 достоинств и 2 недостатка Data Vault для КХД и архитектора Big Data

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, DWH, Hive, Data Vault, Data Warehouse, КХД, корпоративное хранилище данных, моделирование данных

В этой статье мы рассмотрим основные плюсы и минусы Data Vault – популярного подхода к моделированию сущностей при проектировании корпоративных хранилищ данных (КХД). Читайте сегодня, почему промежуточные базы перед витринами данных упрощают ETL-процессы, за счет чего обеспечивается отсутствие избыточности и как много таблиц могут усложнить жизнь архитектора Big Data. Чем хорош Data Vault: основные преимущества для дизайна КХД Ключевыми достоинствами подхода Data Vault считаются следующие [1]: Гибкость и простота моделирования, когда для описания предметной области используется минимум концептуальных понятий (хабы, ссылки и спутники), взаимоотношения между которыми описываются строгой системой правил. Подробнее об этом мы рассказывали здесь. Быстрота и удобство разработки ETL-процессов, которые реализуют последовательный подход к загрузке информации в хранилище с возможностью распараллеливания одного потока работ на несколько конвейеров, в Далее …