Не только HDFS: как Apache Kudu ускоряет аналитику Big Data в Hadoop

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala

Сегодня поговорим про движки хранения больших данных в экосистеме Apache Hadoop и рассмотрим, что такое Kudu, каковы особенности применения, достоинства и недостатки этой колоночной NoSQL-СУБД. Также читайте в нашей статье, как Kudu связан с Impala, Spark и другими Big Data фреймворками. Что такое Apache Kudu и где это используется Распределенная файловая система для Apache Hadoop, HDFS отлично подходит для эффективного хранения больших данных, обеспечивая надежность записи с высокой степенью сжатия. Однако, данные в HDFS не подлежат модификации, а из-за архитектурных особенностей этого движка он не подходит для быстрой аналитики Big Data в реальном времени. Колоночная СУБД Apache HBase, работающая поверх HDFS, характеризуется противоположными свойствами: она позволяет довольно оперативно искать данные в режиме real-time, однако долго сканирует записанные объемы информации [1]. Далее …

Расширенная аналитика больших данных с помощью Self-service Machine Learning и AutoML: как Data Science усиливает технологии Big Data

Big Data, Большие данные, цифровизация, цифровая трансформация, Machine Learning, Машинное Обучение, предиктивная аналитика

Продолжая разговор про расширенную аналитику больших данных с помощью инструментов Big Data и методов Data Science, сегодня рассмотрим, что такое самообслуживаемое машинное обучение, а также разберем, чем self-service Machine Learning отличается от AutoML. Что такое самообслуживаемое машинное обучение В июне 2020 года аналитическое агентство Gartner опубликовало очередной список самых перспективных трендов в области аналитики данных. Первое место в этой десятке топовых технологий занимает умный, быстрый и ответственный искусственный интеллект (ИИ), включая прозрачные датасеты и легко интерпретируемые алгоритмы машинного обучения. Анализируя другие тренды из этого исследования, можно сделать вывод об общей тенденции к повышению уровня демократизации технологий Big Data и Data Science, таких как расширенное управление данными, публичные облака, интеллектуальное принятие решений и аналитический подход к использованию информации [1]. Таким образом, Далее …

Самостоятельная и независимая аналитика больших данных: разбираемся с self-service BI для Big Data

Big Data, Большие данные, Hadoop, Data Lake, цифровизация, цифровая трансформация, Machine Learning, Машинное Обучение, предиктивная аналитика, SQL

Аналитика больших данных для руководителей и других конечных бизнес-пользователей – это не только графические дэшборды BI-систем. Сегодня рассмотрим, что такое самообслуживаемая аналитика Big Data, какова ее польза для бизнеса и чего не стоит ждать от self-service BI. Что такое self-service BI: определение, назначение и примеры Еще в 2018 году исследовательское агентство Gartner анонсировало тренд на увеличение интереса к самообслуживаемой бизнес-аналитике (self-service Business Intelligence, BI). Это стало возможным благодаря росту объема информации, распространению технологий Big Data и популяризации Data Science. Кроме того, цифровизация как основная идея современного подхода к бизнесу продвигает принципы data-driven, когда управленческие решения принимаются на основе объективного анализа данных [1]. Gartner предлагает следующее определение self-service BI: аналитика самообслуживания — это форма бизнес-аналитики, где профессионалы предметной области могут самостоятельно Далее …

От косметики до машиностроения: 3 кейса внедрения технологий Big Data на примере Data Lake

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, цифровизация, цифровая трансформация, IIoT, Internet of Things, IoT, Machine Learning, интернет вещей, Машинное Обучение, нефтегазовая отрасль, нефтегазовая промышленность, нефтянка, предиктивная аналитика

В продолжение темы про озера данных (Data Lake) и Apache Hadoop, сегодня мы рассмотрим еще 3 примера использования этих технологий Big Data для аналитики больших данных в промышленности. Читайте в нашей статье, как косметический гигант L’Oréal создает новые продукты с помощью платформы Talend Data Fabric, «УРАЛХИМ» прогнозирует объемы продукции и предупреждает поломки оборудования, а Ford повышает качество автомобилей и лояльность своих клиентов за счет озера данных на Apache Hadoop и решений Informatica. Озеро данных на Talend Data Fabric в L’Oréal Data Lake – это не обязательно локальный кластер Apache Hadoop. Например, в октябре 2019 года французский производитель косметики и парфюмерии, компания L’Oréal развернула озеро данных на базе Talend Data Fabric в облачной инфраструктуре Microsoft Azure. Цель этого проекта состояла в сокращении сроков исследования Далее …

Аналитика больших данных для фармацевтов: Arenadata Hadoop и другие Big Data системы в аптечной сети АСНА

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, DWH, цифровизация, цифровая трансформация, Arenadata

В этой статье разберем кейс построения экосистемы управления Big Data с озером данных на примере федеральной фармацевтической сети — российской Ассоциации независимых аптек (АСНА). Читайте в этом материале, зачем фармацевтическому ритейлеру большие данные, с какими трудностями столкнулся этот проект цифровизации и как открытые технологии (Arenadata Hadoop, Apache Spark, NiFi и Hive), взаимодействуют с проприетарными решениеми Informatica Big Data Management и 1С, а также облачными сервисами Azure. Постановка задачи от бизнеса: проблемы, возможности и ограничения АСНА позиционирует себя не просто информационным агрегатором по локальным и сетевым аптекам, а высокотехнологичной data-driven компанией с уникальной бизнес-моделью, в которой ключевую роль играет управление данными. Поэтому обеспечение их чистоты, качества и надежности является ключевой бизнес-задачей. Поскольку количество партнеров и поставщиков постоянно увеличивается, требование к быстрой Далее …

Зачем вам Apache Bigtop или как собрать свой Hadoop для Big Data

Apache Bigtop, Big Data, Большие данные, обработка данных, архитектура, Hadoop, MapReduce, Hbase

Сегодня поговорим про еще один open-source проект от Apache Software Foundation – Bigtop, который позволяет собрать и протестировать собственный дистрибутив Hadoop или другого Big Data фреймворка, например, Greenplum. Читайте в нашей статье, что такое Apache Bigtop, как работает этот инструмент, какие компоненты он включает и где используется на практике. Что такое Apache Bigtop и при чем тут Gradle с Maven Согласно официальной документации, Bigtop – это проект с открытым исходным кодом от Apache Software Foundation для инженеров данных и Data Scientist’ов, который включает комплексную упаковку, тестирование и настройку ведущих компонентов Big Data инфраструктуры. Bigtop поддерживает широкий спектр компонентов, включая Hadoop, HBase, Spark и другие фреймворки для обработки и хранения больших данных. Bigtop позволяет создать собственные RPM и DEB Hadoop-дистрибутивы, предоставляет Далее …

Big Data в профиль: что такое профилирование больших данных

Big Data, Большие данные, обработка данных, архитектура, Hadoop, ETL, DWH, нефтянка, нефтегазовая промышленность, Spark

Мы уже затрагивали тему корпоративных хранилищ данных (КХД), управления мастер-данными и нормативно-справочной информаций (НСИ) в контексте технологий Big Data. В продолжение этого, сегодня рассмотрим, что такое профилирование данных, зачем это нужно, при чем тут озера данных (Data Lake) и ETL-процессы, а также прочие аспекты инженерии и аналитики больших данных. Что такое Data Profiling и как это связано с Big Data Начнем с определения: профилирование данных (Data Profiling) – это процесс исследования данных для выяснения их статистических характеристик, таких как характер распределения величин, наличие выбросов, параметры выборки. Также сюда входит предварительная оценка качества данных: поиск пропущенных значений, нарушения целостности и бизнес-логики связей между значениями полей и пр. [1]. Можно выделить следующие практические приложения, когда профилирование данных является обязательной процедурой: исследование данных Далее …

Потоковая платформа для интеграции Big Data и не только: 7 плюсов Apache Kafka

Big Data, Большие данные, обработка данных, архитектура, Kafka, DevOps

Продолжая разговор про интеграцию информационных систем с помощью стриминговой платформы, сегодня мы рассмотрим преимущества event streaming архитектуры на примере Apache Kafka. Также читайте в нашей статье про 5 ключевых сценариев использования Кафка в потоковой обработке событий: от IoT/IIoT до микросервисного разделения в системах аналитики больших данных (Big Data) и машинного обучения (Machine Learning). 7 главных достоинств event streaming архитектура для интеграции информационных систем Напомним, SOA-подход к интеграции информационных систем отличается некоторыми характерными недостатками, среди которых слабой взаимозависимость и высокая связность компонентов [1]. Поэтому сегодня все большую популярность приобретают методы интеграции приложений на базе стриминговых платформ, обеспечивающих обработку данных в режиме реального времени. В области Big Data наиболее ярким примером такого фреймворка является Apache Kafka. Перечислим основные плюсы, которые ожидаются от Далее …

От беспорядочных связей к микросервисной консистентности: архитектурная история Big Data систем на примере Apache Kafka

Big Data, Большие данные, обработка данных, архитектура, Kafka, Agile, DevOps, DWH, Data Lake

В этой статье поговорим про интеграцию информационных систем: обсудим SOA и ESB-подходы, рассмотрим стриминговую архитектуру и возможности Apache Kafka для организации быстрого и эффективного обмена данными между различными бизнес-приложениями. Также обсудим, что влияет на архитектуру интеграции корпоративных систем и распределенных Big Data приложений, что такое спагетти-структура и почему много сервисов – это та же паста, только в профиль. Как рождаются спагетти или от чего зависит архитектура интеграции Чтобы пояснить, насколько сложны вопросы корпоративной ИТ-архитектуры, перечислим основные факторы, от которых зависит интеграция информационных систем [1]: Технологии (SOAP, REST, JMS, MQTT), форматы данных (JSON, XML, Apache Avro или Protocol Buffer), фреймворки и экосистемы (Nginx, Kubernetes, Apache Hadoop), собственные интерфейсы (EDIFACT, SAP BAPI и пр.); языки программирования и платформы, например, Java, .NET, Go Далее …

Роль Python в мире Big Data: 5 причин освоить этот язык программирования

Python, Big Data, Большие данные, обработка данных, администрирование, Kafka, Hadoop, Spark

Сегодня мы расскажем, почему каждый Big Data специалист должен знать этот язык программирования и как «Школа Больших Данных» поможет вам освоить его на профессиональном уровне. Читайте в нашей статье, кому и зачем нужны корпоративные курсы по Python в области Big Data, Machine Learning и других методов Data Science. Чем хорош Python: 3 главных достоинства При том, что Python считается универсальным языком программирования, который используется, в т.ч. для веб-разработки и создания специальных решений, наибольшую популярность он приобрел в области Big Data и Data Science благодаря следующим ключевым преимуществам [1]: низкий порог входа из-за простоты и лаконичности даже сложных логических конструкций. Этот язык программирования в разы проще Java и Scala, а аналогичный код на нем будет намного короче; множество готовых библиотек для Далее …