Как сократить цикл BI-аналитики Big Data в тысячи раз или ETL-конвейер Apache Kafka-Storm-Kudu-Impala в Xiaomi

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, SQL, NoSQL, Kudu, Spark, Kafka, Storm

Сегодня мы рассмотрим практический кейс использования Apache Kudu с Kafka, Storm и Cloudera Impala в крупной китайской корпорации, которая производит смартфоны. На базе этих Big Data технологий компания Xiaomi построила собственную платформу для BI-аналитики больших данных и генерации отчетности в реальном времени. История Kudu-проекта в Xiaomi Корпорация Xiaomi начала использовать Kudu еще в 2016 году, вместе с Cloudera Impala, которая на тот момент еще находилась в стадии инкубации open-source проектов фонда Apache Software Foundation [1]. До применения Kudu архитектура аналитической Big Data системы выглядела следующим образом [2]: данные из различных источников (более 20 миллиардов записей в день) сохранялись в HBase и в отдельной базе файлов последовательности в формате Sequence; далее эти данные обрабатывались с помощью Apache Hive, классического Hadoop MapReduce Далее …

Быстрая аналитика больших данных в Data Lake на Apache Kudu с Kafka и Spark

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, Data Lake, SQL, NoSQL, Hive, Kafka, Spark, Kudu

В продолжение темы про совместное использование Apache Kudu с другими технологиями Big Data, сегодня рассмотрим, как эта NoSQL-СУБД работает вместе с Kafka, Spark и Cloudera Impala для построения озера данных (Data Lake) для быстрой аналитики больших данных в режиме реального времени. Также читайте в нашей статье про особенности интеграции Apache Kudu со Spark SQL. Зачем совмещать Apache Kudu с Kafka и Spark или быстрая альтернатива традиционному Data Lake на Hadoop Рассмотрим пример типичной Big Data для потокового анализа данных на базе Data Lake, куда информация непрерывно передается из кластера Kafka. Там новые данные обогащаются историческими, чтобы конечные пользователи (BI-приложения, Data Scientist’ы и аналитики Big Data) использовали их для своих бизнес-нужд анализ. При этом производительность системы является ключевым фактором, который обеспечивает Далее …

Синергия Apache Kudu с HDFS и Impala для быстрой аналитики Big Data в Hadoop

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, Data Lake, SQL, NoSQL, Hive

В этой статье продолжим разговор про Apache Kudu и рассмотрим, как эта NoSQL-СУБД используется с Hadoop и Cloudera Impala, чем она полезна в организации озера данных (Data Lake) и почему Куду не заменяет, а успешно дополняет HDFS и HBase для эффективной работы с большими данными (Big Data). Apache Kudu в Data Lake для быстрой аналитики Big Data Классическая архитектура Data Lake, ориентированная на пакетную обработку, когда данные обновляются несколько раз в день, не совсем отвечает требованиям современного бизнеса. Многие системы аналитики больших данных с функциями предупреждающих оповещений, обнаружения аномалий и информирования в реальном времени основаны на потоковом режиме работы с Big Data. Более продвинутый подход к построению таких систем на базе лямбда-архитектуры предполагает использование Apache HBase для хранения «быстрых» данных Далее …

Самостоятельная и независимая аналитика больших данных: разбираемся с self-service BI для Big Data

Big Data, Большие данные, Hadoop, Data Lake, цифровизация, цифровая трансформация, Machine Learning, Машинное Обучение, предиктивная аналитика, SQL

Аналитика больших данных для руководителей и других конечных бизнес-пользователей – это не только графические дэшборды BI-систем. Сегодня рассмотрим, что такое самообслуживаемая аналитика Big Data, какова ее польза для бизнеса и чего не стоит ждать от self-service BI. Что такое self-service BI: определение, назначение и примеры Еще в 2018 году исследовательское агентство Gartner анонсировало тренд на увеличение интереса к самообслуживаемой бизнес-аналитике (self-service Business Intelligence, BI). Это стало возможным благодаря росту объема информации, распространению технологий Big Data и популяризации Data Science. Кроме того, цифровизация как основная идея современного подхода к бизнесу продвигает принципы data-driven, когда управленческие решения принимаются на основе объективного анализа данных [1]. Gartner предлагает следующее определение self-service BI: аналитика самообслуживания — это форма бизнес-аналитики, где профессионалы предметной области могут самостоятельно Далее …

От косметики до машиностроения: 3 кейса внедрения технологий Big Data на примере Data Lake

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, цифровизация, цифровая трансформация, IIoT, Internet of Things, IoT, Machine Learning, интернет вещей, Машинное Обучение, нефтегазовая отрасль, нефтегазовая промышленность, нефтянка, предиктивная аналитика

В продолжение темы про озера данных (Data Lake) и Apache Hadoop, сегодня мы рассмотрим еще 3 примера использования этих технологий Big Data для аналитики больших данных в промышленности. Читайте в нашей статье, как косметический гигант L’Oréal создает новые продукты с помощью платформы Talend Data Fabric, «УРАЛХИМ» прогнозирует объемы продукции и предупреждает поломки оборудования, а Ford повышает качество автомобилей и лояльность своих клиентов за счет озера данных на Apache Hadoop и решений Informatica. Озеро данных на Talend Data Fabric в L’Oréal Data Lake – это не обязательно локальный кластер Apache Hadoop. Например, в октябре 2019 года французский производитель косметики и парфюмерии, компания L’Oréal развернула озеро данных на базе Talend Data Fabric в облачной инфраструктуре Microsoft Azure. Цель этого проекта состояла в сокращении сроков исследования Далее …

Аналитика больших данных для фармацевтов: Arenadata Hadoop и другие Big Data системы в аптечной сети АСНА

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, DWH, цифровизация, цифровая трансформация, Arenadata

В этой статье разберем кейс построения экосистемы управления Big Data с озером данных на примере федеральной фармацевтической сети — российской Ассоциации независимых аптек (АСНА). Читайте в этом материале, зачем фармацевтическому ритейлеру большие данные, с какими трудностями столкнулся этот проект цифровизации и как открытые технологии (Arenadata Hadoop, Apache Spark, NiFi и Hive), взаимодействуют с проприетарными решениеми Informatica Big Data Management и 1С, а также облачными сервисами Azure. Постановка задачи от бизнеса: проблемы, возможности и ограничения АСНА позиционирует себя не просто информационным агрегатором по локальным и сетевым аптекам, а высокотехнологичной data-driven компанией с уникальной бизнес-моделью, в которой ключевую роль играет управление данными. Поэтому обеспечение их чистоты, качества и надежности является ключевой бизнес-задачей. Поскольку количество партнеров и поставщиков постоянно увеличивается, требование к быстрой Далее …

Зачем вам Apache Bigtop или как собрать свой Hadoop для Big Data

Apache Bigtop, Big Data, Большие данные, обработка данных, архитектура, Hadoop, MapReduce, Hbase

Сегодня поговорим про еще один open-source проект от Apache Software Foundation – Bigtop, который позволяет собрать и протестировать собственный дистрибутив Hadoop или другого Big Data фреймворка, например, Greenplum. Читайте в нашей статье, что такое Apache Bigtop, как работает этот инструмент, какие компоненты он включает и где используется на практике. Что такое Apache Bigtop и при чем тут Gradle с Maven Согласно официальной документации, Bigtop – это проект с открытым исходным кодом от Apache Software Foundation для инженеров данных и Data Scientist’ов, который включает комплексную упаковку, тестирование и настройку ведущих компонентов Big Data инфраструктуры. Bigtop поддерживает широкий спектр компонентов, включая Hadoop, HBase, Spark и другие фреймворки для обработки и хранения больших данных. Bigtop позволяет создать собственные RPM и DEB Hadoop-дистрибутивы, предоставляет Далее …

Интеграция Elasticsearch с Apache Hadoop: примеры и особенности

Big Data, Большие данные, обработка данных, архитектура, NoSQL, Elasticsearch, Hadoop, Spark, банк, Hive

В этой статье поговорим про интеграцию ELK-стека с экосистемой Apache Hadoop: зачем это нужно и с помощью каких средств можно организовать обмен данными между HDFS и Elasticsearch, а также при чем здесь Apache Spark, Hive и Storm. Еще рассмотрим несколько практических примеров, где реализована такая интеграция Big Data систем для построения комплексной аналитической платформы. Зачем нужна интеграция Elasticsearch с Apache Hadoop Как обычно, начнем с описания бизнес-потребности, для чего вообще требуется обмен данными между компонентами Apache Hadoop и ELK Stack. Напомним, Hadoop отлично подходит для пакетной обработки Big Data, но не подходит для интерактивных вычислений из-за особенностей классического MapReduce, связанного с записью промежуточных вариантов на жесткий диск. Elasticsearch, напротив, работает в режиме near real-time, оперативно показывая результаты аналитической обработки неструктурированных Далее …

Завод, телеком и госсектор: 3 примера внедрения Arenadata

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake, цифровизация, цифровая трансформация, Kafka, Spark, NiFi, Airflow, DWH, Аренадата, Arenadata

В этой статье мы продолжим рассказывать про практическое использование отечественных Big Data решений на примере российского дистрибутива Arenadata Hadoop (ADH) и массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB). Сегодня мы приготовили для вас еще 3 интересных кейса применения этих решений в проектах цифровизации бизнеса и государственном управлении. Великолепная 5-ка в отечественном Big Data конкурсе Далее рассмотрим следующие Big Data проекты: технологическая платформа для объединения федеральных хранилищ данных (ХД) и аналитики в ПАО «Ростелеком»; цифровая платформа Счетной палаты РФ; озеро данных (Data Lake) Новолипецкого металлургического комбината; распределённая СУБД для аналитики больших данных в X5 Retail Group. Все эти проекты, участвовали в конкурсе ИТ-портала Global CIO «Проект года-2019» и вошли в ТОП-5 лучших решений, наряду с «умным» озером Далее …

От банков до Газпрома: 4 крупных успеха Arenadata – интересные кейсы за последнюю пару лет

Аренадата, Aernadata, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake

Сегодня мы поговорим про продукты компании Arenadata – отечественного разработчика дистрибутива Apache Hadoop (ADH), массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB) и других Big Data платформ. Читайте в нашей статье, где внедрены эти решения и какую пользу они уже успели принести бизнесу. Облака и банк: 3 примера внедрения Arenadata DB Компания Mail.ru Group, один из ведущих облачных провайдеров в России, решила объединить преимущества своей инфраструктуры с достоинствами Arenadata DB – распределенной массивно-параллельной СУБД для анализа и хранения больших данных. С 29 апреля 2020 года Mail.ru Cloud Solutions запустила на своей платформе сервис по развертыванию и использованию ADB [1]. Аналогичную услугу с февраля 2020 года предлагает другой крупный SaaS-провайдер и системный интегратор – компания Крок [2]. Из Далее …