Блокчейн, озеро данных и еще 3 кейса Apache NiFi в комплексных Big Data системах

Большие данные, предиктивная аналитика, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kafka, Spark

В прошлый раз мы рассмотрели пример прототипа IIoT-системы на основе одноплатного мини-компьютера Raspberry Pi, брокере обмена сообщениями Mosquitto и платформе маршрутизации данных Apache NiFi. Сегодня мы покажем, что этот инструмент преобразования и доставки данных из множества сторонних систем может применяться не только в IoT-решениях. Читайте в нашей статье про 5 примеров практического использования Apache NiFi в реальных Big Data проектах, представленных на международном саммите DataWorks в 2018 и 2019 годах. Построение Data Lake в автомобилестроительной компании Renault В корпорации Renault Apache NiFi используется в 2-х направлениях [1]: Industrial Internet of Things, выполняя роль ETL-интегратора технологических данных с производственных участков, где производятся и собираются автомобильные запчасти; как распределенная платформа передачи информации в корпоративное озеро данных (Data Lake) и средство выгрузки из Далее …

12 уровней IIoT-архитектуры: от периферийных датчиков до аналитики Big Data

Big Data, Большие данные, Internet of Things, IoT, IIoT, интернет вещей, архитектура, Kafka, обработка данных, Spark, машинное обучение, Machine Learning

Мы уже рассматривали типовую архитектуру систем Internet of Things (IoT). Сегодня поговорим подробнее про уровневую модель передачи и обработки данных от конечных устройств до облачных IoT-платформ, а также приведем примеры наиболее популярных средств обеспечения каждого из уровней этой сложной архитектуры Industrial Internet of Things, включая инструменты Big Data. Многоуровневый IIoT: 12 слоев архитектуры В отличие от типовой Big Data системы, работающей по принципу клиент-серверного приложения, модель IIoT-решения гораздо сложнее. Аналогично клиент-серверному принципу, в IIoT-архитектуре можно выделить 2 разных по физическому расположению группы обязательных компонентов: периферия (Edge) — конечные smart-устройства, расположенные на технологическом оборудовании, за которым осуществляется удаленный мониторинг и управление; мощные Big Data инструменты, развернутые в центре обработки данных на серверах или в облаке (Backend). Тем не менее, из-за особенностей Далее …

Блеск и нищета главной технологии Big Data: достоинства и недостатки MapReduce

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop

MapReduce можно назвать основой Big Data, т.к. именно данная технология позволяет обрабатывать огромные массивы информации параллельно в распределенных кластерах. Эту вычислительную модель поддерживают множество различных коммерческих и свободных продуктов: Apache Hadoop, Spark, Greenplum, Hive, MongoDB, Phoenix, DryadLINQ и прочие Big Data фреймворки и библиотеки, написанные на разных языках программирования [1]. Сегодня мы рассмотрим главные достоинства и недостатки этой технологии и поговорим о том, как ведущие Big Data разработчики пытаются обойти ее основные проблемы. Чем хорош MapReduce: основные преимущества модели Ключевыми достоинствами MapReduce являются следующие [2]: возможность распределенного выполнения операций предварительной обработки (map) и свертки (reduce) большого объема данных. При этом функции map работают независимо друг от друга и могут выполняться параллельно на разных узлах кластера. Отметим, что на практике количество одновременно Далее …

Apache Kafka Streams, Spark Streaming, Flink, Storm или Samza: что и когда выбирать для обработки потоков Big Data

Big Data, Большие данные, архитектура, обработка данных, Spark

Проанализировав сходства и различия пяти самых популярных Big Data фреймворков для распределенных потоковых вычислений (Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza), в этой статье мы сравним их по 10 критериям и отметим, какие именно факторы являются наиболее значимыми для объективного выбора. Сравнительный анализ самых популярных фреймворков потоковой обработки больших данных Прежде всего, еще раз отметим, что Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza являются надежными, отказоустойчивыми, масштабируемыми и распределенными решениями с кластерной архитектурой. Все они предназначены специально для обработки потоков Big Data «на лету», распределяя вычисления по направленной графовой модели потоковых обработчиков, называемой DAG-топологией (Directed Acyclic Graph). Тем не менее, при всех вышеуказанных сходствах, они во многом существенно отличаются друг от друга. Для большей наглядности ниже Далее …

Сходства и различия популярных Big Data фреймворков распределенной потоковой обработки: сравниваем Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza

Big Data, Большие данные, архитектура, обработка данных, Spark, Kafka

В этой статье мы рассмотрим, чем похожи и чем отличаются 5 самых популярных инструментов распределенной обработки потоков Big Data: Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza, а также поговорим про наиболее значимые факторы выбора между этими программными средствами. 5 общих характеристик распределенных Big Data фреймворков потоковой обработки Прежде всего отметим, что Kafka Streams – это не самостоятельная среда, клиентская библиотека для разработки распределенных потоковых приложений и микросервисов, которые работают с данными, хранящимися в кластерах Кафка. Тем не менее, поскольку это средство позволяет эффективно обрабатывать потоки данных, мы также включим его в свой сравнительный анализ наряду с автономными фреймворками потоковых вычислений (Apache Spark, Flink, Storm и Samza). Итак, для каждого из рассматриваемых инструментов (Apache Kafka Streams, Spark Streaming, Flink, Далее …

Где и как используется Apache Samza: реальные примеры Big Data проектов

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Samza часто сравнивают с другими Big Data фреймворками распределенных потоковых вычислений в реальном времени (Real Time, RT): Kafka Streams, Spark Streaming, Flink и Storm. Apache Spark и Flink обладают практически одинаковым набором функциональных возможностей и компонентов, поэтому их можно сравнивать между собой более-менее объективно. Apache Samza является более простой средой, которая в некоторых случаях может конкурировать с Kafka Streams и Storm. Сегодня мы расскажем, как именно Apache Samza используется на практике и почему крупные data-driven компании выбирают этот фреймворк потоковых RT-вычислений. За и против Apache Samza: когда выбирать Прикладные варианты использования Apache Samza (use-cases) обусловлены достоинствами и недостатками этой Big Data системы. В частности, Samza сохраняет состояние приложений (stateful), используя отказоустойчивую систему контрольных точек, реализованную как локальное хранилище значений Далее …

Где и как в Big Data используется Apache Storm: примеры применения

Apache Storm, Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Storm (Сторм, Шторм) часто употребляется в контексте других BigData инструментов для распределенных потоковых вычислений в реальном времени (Real Time, RT): Spark Streaming, Kafka Streams, Flink и Samza. Однако, если Apache Spark и Flink по функциональным возможностям и составу компонентов еще могут конкурировать между собой, то сравнивать с ними Шторм, предназначенный только для относительно простой по логике распределенной обработки потоковых событий, не совсем объективно. Более целесообразно выбирать между Сторм и Apache Samza, что мы рассмотрим в нашей следующей статье. А сегодня поговорим о том, где используется Apache Storm и в каких случаях следует применять именно этот Big Data фреймворк потоковых RT-вычислений. Apache Storm – Hadoop для потоков Big Data Чтобы понять, где стоит использовать Шторм, следует вспомнить историю его появления. Далее …

Apache Flink vs Spark: что и когда выбрать для потоковой обработки Big Data

Flink vs Spark, Big Data, Большие данные, архитектура, обработка данных, Apache Spark

Flink часто сравнивают с Apache Spark, другим популярным инструментом потоковой обработки данных. Оба этих распределенных отказоустойчивых фреймворка с открытым исходным кодом используются в высоконагруженных Big Data приложениях для анализа данных, хранящихся в кластерах Hadoop [1] и других кластерных системах. В этой статье мы поговорим, чем похожи и чем отличаются Флинк и Спарк, а также рассмотрим, в каких случаях оптимально выбрать тот или иной продукт. 5 сходств Apache Flink и Spark Apache Flink и Spark во многом очень похожи: у них одно прикладное назначение и похожие особенности реализации кластерной обработки потоковых данных. Также для них обоих характерны следующие свойства: оба продукта вышли из академической среды – Спарк из университета Беркли (UC Berkley), а Флинк – из берлинского ВУЗа TU University [2]; оба решения поддерживают Далее …

Что выбрать для потоковой обработки Big Data: Apache Kafka Streams или Spark Streaming

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark

Проанализировав сходства и различия Apache Kafka Streams и Spark Streaming, можно сделать некоторые выводы относительно выбора того или иного решения в качестве основного инструмента потоковой обработки Big Data. В этой статье мы собрали для вас аргументы в пользу Кафка Стримс и Спарк Стриминг в конкретных ситуациях, а также нашли некоторые примеры их практического использования. Когда стоит выбрать Apache Kafka Streams Напомним, что Apache Kafka Streams – это клиентская библиотека для разработки распределенных потоковых приложений и микросервисов, в которых входные и выходные данные хранятся в кластерах Кафка. Кафка Стримс будет отличным инструментом потоковой обработки информации в следующих случаях: если источники входных и выходных данных находятся только в кластере Кафка, без подключения к сторонним Big Data системам [1]; когда необходим быстрый запуск Далее …

ТОП-7 сходств и различий между Apache Kafka Streams и Spark Streaming

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark

Сегодня мы рассмотрим популярные Big Data инструменты обработки потоковых данных: Apache Kafka Streams и Spark Streaming: чем они похожи и чем отличаются. Стоит сказать, что Спарк Стриминг и Кафка Стримс – возможно, наиболее популярные, но не единственные средства обработки информационных потоков Big Data. Для этой цели существует еще множество альтернатив, например, Flink, Storm, Samza, сравнению которых посвящена наша отдельная статья. Что общего между Apache Kafka Streams и Spark Streaming Прежде всего перечислим следующие сходства Кафка Стримс и Спарк Стриминг: надежность и отказоустойчивость – оба инструмента широко используются на практике в качестве инструментов потоковой обработки Big Data в реальных высоконагруженных проектах; распределенная архитектура, которая обеспечивает масштабируемость и высокую скорость обработки потоковых данных, позволяя выполнять код с помощью параллельных задач, распределенных по узлам Далее …