Птичка + рыбка: синергия Apache Phoenix и HBase для быстрой SQL-аналитики Big Data в Hadoop

Apache Phoenix, Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala

Сегодня мы рассмотрим еще один инструмент стека SQL-on-Hadoop: Apache Phoenix, позволяющий выполнять SQL-запросы к нереляционной СУБД HBase. Читайте в нашей статье, что представляет собой этот исполнительный механизм, как он работает и чем отличается от других Big Data решений подобного класса (Cloudera Impala, Apache Hive и Drill). Также мы собрали для вас некоторые практические примеры использования Apache Phoenix в реальных проектах аналитической обработки больших данных. Что такое Apache Phoenix и как он работает с HBase Phoenix (Феникс) – это проект верхнего уровня фонда Apache Software Foundation (c 2014 года), механизм параллельной реляционной базы данных с открытым исходным кодом, который поддерживает обработку транзакций в реальном времени (OLTP, Online Transaction Processing) в Hadoop с использованием NoSQL-СУБД HBase в качестве резервного хранилища. В отличие Далее …

Apache Drill vs Cloudera Impala: SQL-аналитика Big Data не только в Hadoop

Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala, Apache Drill vs Cloudera Impala

Cloudera Impala – далеко не единственное SQL-решение для быстрой обработки больших данных (Big Data), хранящихся в среде Hadoop. C Impala часто сравнивают Apache Hive, однако они существенно отличаются в плане прикладного использования, как мы уже показали здесь. Гораздо ближе к Impala с точки зрения вычислительной модели и сценариев использования (use cases) стоит Apache Drill. Что общего между этими SQL-инструментами стека Big Data и чем они отличаются, читайте в нашей сегодняшней статье. Что такое Apache Drill и как он работает Drill – это проект верхнего уровня фонда Apache Software Foundation, фреймворк с открытым исходным кодом, который поддерживает высоконагруженные распределенные приложения с интерактивной SQL-аналитикой больших объемов данных. Apache Drill представляет собой версию системы Dremel от Google с открытым исходным кодом, которая доступна Далее …

Что выбрать для SQL-аналитики Big Data в Hadoop: Apache Hive или Cloudera Impala

Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala

Завершая сравнение SQL-инструментов для больших данных (Big Data), хранящихся в среде Hadoop, сегодня мы рассмотрим аргументы в пользу Apache Hive и Cloudera Impala – когда стоит выбирать ту или иную систему и почему. Также в этой статье мы собрали для вас несколько практических примеров реального использования Импала и Хайв в крупных Big Data проектах. 5 аргументов в пользу Apache Hive для аналитики Big Data В большинстве случаев выбор Apache Hive в качестве основного SQL-средства для анализа данных, хранящихся в кластере Hadoop (HDFS или HBase), обусловлен ключевыми преимуществами этой системы относительно Cloudera Impala: отказоустойчивость, обеспечиваемая тем, что Хайв сохраняет все промежуточные результаты; высокая пропускная способность за счет LLAP (Live Long and Process) – кэширование запросов в памяти, что обеспечивает хорошую производительность Далее …

Как защитить Big Data в Hive и Impala: проблема безопасности в SQL-on-Hadoop

Big Data, Большие данные, архитектура, SQL, Hadoop, Hive, Impala, защита данных, безопасность, security

Продолжая тему SQL-on-Hadoop, сегодня мы рассмотрим вопросы обеспечения информационной безопасности в Apache Hive и Cloudera Impala. Читайте в нашем материале, что такое RBAC, в чем специфика cybersecurity больших данных в экосистеме Hadoop и какие средства помогут защитить Big Data при работе с Hive и Impala. Что такое RBAC для SQL-on-Hadoop и зачем это нужно в Big Data Исторически платформа Apache Hadoop развивалась из закрытых кластерных систем, которые обрабатывали большие объемы общедоступной информации в закрытых центрах обработки данных. Поэтому защита этой информации и результатов ее обработки не являлась первостепенной задачей. Однако, современный Hadoop используется, в том числе для обработки массивов личной информации, а также в рамках многопользовательских Big Data систем, когда каждый из клиентов может работать только с определенным кругом данных Далее …

Что такое HiveQL: SQL для Big Data в Apache Hadoop — как работают Hive и Impala

HiveQL, Big Data, Большие данные, архитектура, SQL, Hadoop, Hive, Impala

Мы уже разобрали, что общего между Apache Hive и Cloudera Impala. В этой статье рассмотрим работу этих систем с точки зрения программиста, а также поговорим про язык HiveQL. Читайте в сегодняшнем материале, как эти системы выполняют SQL-запросы для аналитики больших данных (Big Data), хранящихся в кластере Hadoop. Что такое HiveQL, зачем он нужен и чем отличается от классического SQL Напомним, среда Hadoop неэффективна в интерактивной (потоковой) обработке масштабных структурированных данных из-за пакетной специфики вычислительной модели MapReduce, которая не позволяет выполнять сложные аналитические запросы в режиме реального времени с максимально допустимой задержкой в несколько миллисекунд. Эта проблема успешно решается в реляционных OLTP-системах с помощью SQL-запросов, которые дают разработчику возможность формулировать задачи на декларативном языке высокого уровня и оставлять детали оптимизации внутреннему Далее …

Hive vs Impala: сходства и различия SQL-инструментов для Apache Hadoop

Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala

В прошлой статье мы рассмотрели основные возможности и ключевые характеристики Apache Hive и Cloudera Impala. Сегодня подробнее поговорим про то, что между ними общего и чем отличаются друг от друга эти SQL-инструменты для обработки больших данных (Big Data), хранящихся в кластере Hadoop. Что общего между Apache Hive и Cloudera Impala: 5 главных сходств Сначала поговорим о том, чем похожи рассматриваемые SQL-инструменты для Apache Hadoop. Проанализировав их основные функциональные возможности и примеры использования, мы выделили следующие общие характеристики: прикладное назначение – Hive (Хайв) и Impala (Импала), в первую очередь, ориентированы на аналитическую обработку данных, хранящихся в экосистеме Hadoop (HDFS, HBase) и некоторых других распределенных файловых системах (Amazon S3) [1]. Обе системы представляют собой решения с открытым исходным кодом и свободно распространяются Далее …

Hive и Impala: коллеги или конкуренты – обзор SQL-инструментов для Apache Hadoop

Big Data, Большие данные, архитектура, Hive, Impala, SQL

Сегодня мы рассмотрим Apache Hive и Cloudera Impala – аналитические SQL-средства для работы с данными, хранящимися в экосистеме Apache Hadoop и других Big Data хранилищах: HDFS, HBase, Amazon S3. Читайте в нашей статье, что такое Hive и Impala, где они используются и почему они не заменяют, а дополняют друг друга. Apache Hive и Cloudera Impala: что это и как используется в SQL для Big Data Прежде всего отметим, что Hive и Impala не конкурируют, а, скорее эффективно дополняют друг друга. Между этими системами довольно много общего, но есть некоторые различия [1]. Прежде всего, отметим их основное назначение и некоторые аспекты, особенно важные для практического использования. Обе рассматриваемые платформы свободно распространяются под лицензией Apache Software Foundation и относятся к SQL-средствам работы Далее …

Что такое Apache Chukwa, Sqoop и Falcon: сравнение 3-х пакетных ETL-средств для Big Data

ETL, Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Hadoop

Продолжая разговор про Apache NiFi и другие ETL-инструменты больших данных, сегодня мы подробнее расскажем про пакетные средства загрузки и маршрутизации информации из различных источников: Sqoop, Chuckwa и Falcon. Читайте в нашей статье, чем они похожи и чем отличаются, а также как применяются в Big Data системах и интернете вещей (Internet of Things, IoT), в т.ч. индустриальном (Industrial IoT, IIoT). Краткий обзор 3-х популярных ETL-систем пакетной передачи Big Data Среди фреймворков пакетной загрузки больших данных из разных источников наиболее популярными считаются следующие проекты фонда Apache Software Foundation (ASF): Chukwa – платформа сбора данных с открытым исходным кодом для мониторинга распределенных Big Data систем, построенная на базе HDFS и MapReduce, включая масштабируемость и надежность Apache Hadoop. Chukwa содержит гибкий и мощный инструментарий Далее …

Блеск и нищета главной технологии Big Data: достоинства и недостатки MapReduce

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop

MapReduce можно назвать основой Big Data, т.к. именно данная технология позволяет обрабатывать огромные массивы информации параллельно в распределенных кластерах. Эту вычислительную модель поддерживают множество различных коммерческих и свободных продуктов: Apache Hadoop, Spark, Greenplum, Hive, MongoDB, Phoenix, DryadLINQ и прочие Big Data фреймворки и библиотеки, написанные на разных языках программирования [1]. Сегодня мы рассмотрим главные достоинства и недостатки этой технологии и поговорим о том, как ведущие Big Data разработчики пытаются обойти ее основные проблемы. Чем хорош MapReduce: основные преимущества модели Ключевыми достоинствами MapReduce являются следующие [2]: возможность распределенного выполнения операций предварительной обработки (map) и свертки (reduce) большого объема данных. При этом функции map работают независимо друг от друга и могут выполняться параллельно на разных узлах кластера. Отметим, что на практике количество одновременно Далее …

Где и как используется Apache Samza: реальные примеры Big Data проектов

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Samza часто сравнивают с другими Big Data фреймворками распределенных потоковых вычислений в реальном времени (Real Time, RT): Kafka Streams, Spark Streaming, Flink и Storm. Apache Spark и Flink обладают практически одинаковым набором функциональных возможностей и компонентов, поэтому их можно сравнивать между собой более-менее объективно. Apache Samza является более простой средой, которая в некоторых случаях может конкурировать с Kafka Streams и Storm. Сегодня мы расскажем, как именно Apache Samza используется на практике и почему крупные data-driven компании выбирают этот фреймворк потоковых RT-вычислений. За и против Apache Samza: когда выбирать Прикладные варианты использования Apache Samza (use-cases) обусловлены достоинствами и недостатками этой Big Data системы. В частности, Samza сохраняет состояние приложений (stateful), используя отказоустойчивую систему контрольных точек, реализованную как локальное хранилище значений Далее …