Где и как используется Apache Samza: реальные примеры Big Data проектов

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Samza часто сравнивают с другими Big Data фреймворками распределенных потоковых вычислений в реальном времени (Real Time, RT): Kafka Streams, Spark Streaming, Flink и Storm. Apache Spark и Flink обладают практически одинаковым набором функциональных возможностей и компонентов, поэтому их можно сравнивать между собой более-менее объективно. Apache Samza является более простой средой, которая в некоторых случаях может конкурировать с Kafka Streams и Storm. Сегодня мы расскажем, как именно Apache Samza используется на практике и почему крупные data-driven компании выбирают этот фреймворк потоковых RT-вычислений. За и против Apache Samza: когда выбирать Прикладные варианты использования Apache Samza (use-cases) обусловлены достоинствами и недостатками этой Big Data системы. В частности, Samza сохраняет состояние приложений (stateful), используя отказоустойчивую систему контрольных точек, реализованную как локальное хранилище значений Далее …

Где и как в Big Data используется Apache Storm: примеры применения

Apache Storm, Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Storm (Сторм, Шторм) часто употребляется в контексте других BigData инструментов для распределенных потоковых вычислений в реальном времени (Real Time, RT): Spark Streaming, Kafka Streams, Flink и Samza. Однако, если Apache Spark и Flink по функциональным возможностям и составу компонентов еще могут конкурировать между собой, то сравнивать с ними Шторм, предназначенный только для относительно простой по логике распределенной обработки потоковых событий, не совсем объективно. Более целесообразно выбирать между Сторм и Apache Samza, что мы рассмотрим в нашей следующей статье. А сегодня поговорим о том, где используется Apache Storm и в каких случаях следует применять именно этот Big Data фреймворк потоковых RT-вычислений. Apache Storm – Hadoop для потоков Big Data Чтобы понять, где стоит использовать Шторм, следует вспомнить историю его появления. Далее …

ТОП-7 сходств и различий между Apache Kafka Streams и Spark Streaming

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark

Сегодня мы рассмотрим популярные Big Data инструменты обработки потоковых данных: Apache Kafka Streams и Spark Streaming: чем они похожи и чем отличаются. Стоит сказать, что Спарк Стриминг и Кафка Стримс – возможно, наиболее популярные, но не единственные средства обработки информационных потоков Big Data. Для этой цели существует еще множество альтернатив, например, Flink, Storm, Samza, сравнению которых посвящена наша отдельная статья. Что общего между Apache Kafka Streams и Spark Streaming Прежде всего перечислим следующие сходства Кафка Стримс и Спарк Стриминг: надежность и отказоустойчивость – оба инструмента широко используются на практике в качестве инструментов потоковой обработки Big Data в реальных высоконагруженных проектах; распределенная архитектура, которая обеспечивает масштабируемость и высокую скорость обработки потоковых данных, позволяя выполнять код с помощью параллельных задач, распределенных по узлам Далее …

Какие бывают форматы файлов Big Data: row vs column

Big Data файлы, Apache AVRO, Sequence, Parquet, ORC, RCFile

Продолжая разговор про форматы Big Data файлов, сегодня мы рассмотрим разницу между линейными и колоночными типами, а также расскажем о том, как выбирать между AVRO, Sequence, Parquet, ORC и RCFile при работе с Apache Hadoop, Kafka, Spark, Flume, Hive, Drill, Druid и других средствах работы с большими данными. Итак, форматы файлов Big Data – все, что нужно для начинающего Data Engineer’а – читайте в нашей статье. 2 типа форматов для Big Data файлов Все многообразие файловых форматов Big Data (AVRO, Sequence, Parquet, ORC, RCFile) можно разделить на 2 категории: линейные (строковые) и колоночные (столбцовые). В линейных форматах (AVRO, Sequence) строки данных одного типа хранятся вместе, образуя непрерывное хранилище. Даже если необходимо получить лишь некоторые значения из строки, все равно вся Далее …

Как хранить большие данные: Apache Parquet, Avro и другие форматы Big Data

Kafka, Big Data, Большие данные, архитектура, обработка данных, Hadoop, Spark

Мы уже упоминали формат Parquet в статье про Apache Avro, одну из наиболее распространенных схем данных Big Data, часто используемую в Kafka, Spark и Hadoop. Сегодня рассмотрим более подробно, чем именно хорошо Apache Parquet и как он отличается от других форматов Big Data. Что такое Apache Parquet и как он работает: краткий ликбез Напомним, что Apache Parquet — это бинарный, колоночно-ориентированный (столбцовый) формат хранения больших данных. Созданный специально для экосистемы Hadoop, он позволяет эффективно сжимать информацию и считывать файлы частично, по мере необходимых столбцов. Паркет предоставляет возможность задавать схемы сжатия на уровне столбцов и добавлять новые кодировки по мере их изобретения и реализации [1]. Наряду с Apache Avro, Parquet – это весьма популярный формат хранения файлов Big Data, который на Далее …

Что такое Avro: как Apache Kafka и другие технологии Big Data используют эту схему данных

Apache Avro

Мы уже рассказывали о сериализации, схемах данных и их важности в Big Data на примере Schema Registry для Apache Kafka. В продолжение ряда статей про основы Кафка для начинающих, сегодня мы поговорим про Apache Avro – наиболее популярную схему и систему сериализации данных: ее особенностях и применении в технологиях Big Data. Как устроен Apache Авро: принцип работы Напомним, сериализация – это процесс преобразования данных из текстового формата в двоичный, необходимый для передачи данных по сети и сохранения информации в виде файла на диске, в памяти или базе данных. Avro создает файл, в котором он хранит данные вместе со схемой в своем разделе метаданных вместо хранения информацию о типе поля с каждым полем. Благодаря этому для чтения сериализованной информации не требуется Далее …

4 простых, но эффективных совета администратору Big Data и не только

Большие данные, Big Data, Agile, DevOps, Hadoop, администрирование

Администратор – обязательная роль в Big Data проекте, даже если он построен по принципу микросервисной архитектуры, когда за создание и развертывание каждого модуля отвечает отдельный DevOps-инженер. Задачи постоянной оценки производительности и поддержки ИТ-инфраструктуры актуальны как для новоявленных стартапов, работающих по современным Agile-принципам, так и для крупного бизнеса (enterprise). В этой статье мы собрали для вас 4 простых, но до сих пор отлично работающих совета для повышения эффективности процессов администрирования ИТ-хозяйства вообще и Big Data в частности. Следите за новостями Пригодится все: выпуск программных обновлений, огласка инцидентов о нарушениях информационной безопасности, выявление уязвимостей, выход новых законов, появление технологий, истории успешного старта и грандиозных провалов. Ищите полезную информацию сами, общайтесь с коллегами в форумах и мессенджерах, читайте и смотрите тематические ресурсы, чтобы Далее …

Защити своего слона: 3 инструмента безопасности кластера Hadoop

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, безопасность, security, защита информации

Чтобы сохранить большие данные от утечек, чиновники придумывают различные законы, а разработчики чинят уязвимости в Big Data системах. Продолжая разговор про информационную безопасность больших данных, сегодня мы подготовили для вас статью про технические средства защиты кластера Apache Hadoop. Возможные угрозы для кластера Big Data и средства их предотвращения В реальности экосистема больших данных существует не в информационном вакууме, а в корпоративной ИТ-инфраструктуре, в рамках которой администратор Big Data должен обеспечить безопасное и эффективное использование кластера. С этой позиции можно выделить следующие направления защиты кластера Apache Hadoop: предотвращение атак и несанкционированного доступа к Big Data извне – организация защищенного периметра; безопасное использование больших данных внутренними клиентами (пользователями и корпоративными информационными системами) – обеспечение эффективной и безопасной интеграции; комплексный мониторинг и администрирование Далее …

Какой Hadoop лучше: сравнение 4 самых популярных дистрибутивов

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура

Проанализировав предложения крупных PaaS/IaaS-провайдеров по развертыванию облачного кластера, сегодня мы сравним 4 наиболее популярных дистрибутива Hadoop от компаний Cloudera, HortonWorks, MapR и ArenaData, которые используются при развертывании локальной инфраструктуры для проектов Big Data. Как мы уже отмечали, эти дистрибутивы распространяются бесплатно, но поддерживаются на коммерческой основе. Некоторые отличия популярных дистрибутивов Hadoop Несмотря на общую прикладную направленность, каждый из этих продуктов обладает своими уникальными особенностями: корпоративное решение ClouderaCDH включает собственную подсистему управления кластером Cloudera Manager и характеризуется высокой стоимостью технического сопровождения (около $4 тысяч в год за узел кластера), поэтому позволить ее себе могут только очень крупные компании. Cloudera Manager позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки Далее …

Облачный слон для больших данных: обзор 6 популярных Hadoop-решений

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, облака

Мы уже рассказывали про общие достоинства и недостатки облачных Hadoop-кластеров для проектов Big Data и сравнивали локальные дистрибутивы. В продолжение этой темы, в сегодняшней статье мы подготовили для вас сравнительный обзор наиболее популярных PaaS/IaaS-решений от самых крупных иностранных (Amazon, Microsoft, Google, IBM) и отечественных (Яндекс и Mail.ru) провайдеров [1]. Сравнение облачных кластеров Hadoop от популярных PaaS-провайдеров Для сравнения выбраны следующие характеристики: состав экосистемы; средства обеспечения надежности и безопасности; примерная стоимость решения – отметим, что данная метрика является ориентировочной и зависит от конкретной конфигурации кластера, а также потребляемых ресурсов. PaaS-решение Состав экосистемы Надежность и безопасность Стоимость Amazon EMR (Amazon), интеграция со всеми веб-сервисами Amazon   Apache Hadoop 2.x, Hive, Pig, HBase, Impala, Spark, Tez, Oozie, Flink, Zeppelin, Hue, Presto, HCatalog, Machout, MXNet, Sqoop, Далее …