Apache Cassandra vs HBase: что и когда выбирать для NoSQL в Big Data

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Hadoop, IoT, Internet of Things, IIoT, интернет вещей, предиктивная аналитика

Рассмотрев ключевые сходства и различия Cassandra и HBase, сегодня мы поговорим, в каких случаях стоит выбирать ту или иную нереляционную СУБД для обработки больших данных (Big Data) в NoSQL-хранилище. Где используются NoSQL-СУБД в Big Data Прежде всего отметим основные области применения рассматриваемых нереляционных СУБД. Проанализировав наиболее известные примеры использования (use cases) Apache HBase и Кассандры, можно сделать вывод, что обе системы широко применяются для обработки временных рядов в следующих направлениях Big Data: показания smart-датчиков в IoT/IIoT; сбор и аналитика событий пользовательского поведения (действия, счетчики веб-сайтов и т.д.), в том числе для построения рекомендательных систем, о чем мы рассказывали здесь на примере стримингового сервиса Spotify; финансовые системы (биржевая аналитика, обнаружение мошенничества); агрегация данных из систем обмена сообщениями (чаты, мессенджеры, электронная почта, Далее …

Птичка + рыбка: синергия Apache Phoenix и HBase для быстрой SQL-аналитики Big Data в Hadoop

Apache Phoenix, Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala

Сегодня мы рассмотрим еще один инструмент стека SQL-on-Hadoop: Apache Phoenix, позволяющий выполнять SQL-запросы к нереляционной СУБД HBase. Читайте в нашей статье, что представляет собой этот исполнительный механизм, как он работает и чем отличается от других Big Data решений подобного класса (Cloudera Impala, Apache Hive и Drill). Также мы собрали для вас некоторые практические примеры использования Apache Phoenix в реальных проектах аналитической обработки больших данных. Что такое Apache Phoenix и как он работает с HBase Phoenix (Феникс) – это проект верхнего уровня фонда Apache Software Foundation (c 2014 года), механизм параллельной реляционной базы данных с открытым исходным кодом, который поддерживает обработку транзакций в реальном времени (OLTP, Online Transaction Processing) в Hadoop с использованием NoSQL-СУБД HBase в качестве резервного хранилища. В отличие Далее …

Apache Drill vs Cloudera Impala: SQL-аналитика Big Data не только в Hadoop

Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala, Apache Drill vs Cloudera Impala

Cloudera Impala – далеко не единственное SQL-решение для быстрой обработки больших данных (Big Data), хранящихся в среде Hadoop. C Impala часто сравнивают Apache Hive, однако они существенно отличаются в плане прикладного использования, как мы уже показали здесь. Гораздо ближе к Impala с точки зрения вычислительной модели и сценариев использования (use cases) стоит Apache Drill. Что общего между этими SQL-инструментами стека Big Data и чем они отличаются, читайте в нашей сегодняшней статье. Что такое Apache Drill и как он работает Drill – это проект верхнего уровня фонда Apache Software Foundation, фреймворк с открытым исходным кодом, который поддерживает высоконагруженные распределенные приложения с интерактивной SQL-аналитикой больших объемов данных. Apache Drill представляет собой версию системы Dremel от Google с открытым исходным кодом, которая доступна Далее …

Что выбрать для SQL-аналитики Big Data в Hadoop: Apache Hive или Cloudera Impala

Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala

Завершая сравнение SQL-инструментов для больших данных (Big Data), хранящихся в среде Hadoop, сегодня мы рассмотрим аргументы в пользу Apache Hive и Cloudera Impala – когда стоит выбирать ту или иную систему и почему. Также в этой статье мы собрали для вас несколько практических примеров реального использования Импала и Хайв в крупных Big Data проектах. 5 аргументов в пользу Apache Hive для аналитики Big Data В большинстве случаев выбор Apache Hive в качестве основного SQL-средства для анализа данных, хранящихся в кластере Hadoop (HDFS или HBase), обусловлен ключевыми преимуществами этой системы относительно Cloudera Impala: отказоустойчивость, обеспечиваемая тем, что Хайв сохраняет все промежуточные результаты; высокая пропускная способность за счет LLAP (Live Long and Process) – кэширование запросов в памяти, что обеспечивает хорошую производительность Далее …

Как защитить Big Data в Hive и Impala: проблема безопасности в SQL-on-Hadoop

Big Data, Большие данные, архитектура, SQL, Hadoop, Hive, Impala, защита данных, безопасность, security

Продолжая тему SQL-on-Hadoop, сегодня мы рассмотрим вопросы обеспечения информационной безопасности в Apache Hive и Cloudera Impala. Читайте в нашем материале, что такое RBAC, в чем специфика cybersecurity больших данных в экосистеме Hadoop и какие средства помогут защитить Big Data при работе с Hive и Impala. Что такое RBAC для SQL-on-Hadoop и зачем это нужно в Big Data Исторически платформа Apache Hadoop развивалась из закрытых кластерных систем, которые обрабатывали большие объемы общедоступной информации в закрытых центрах обработки данных. Поэтому защита этой информации и результатов ее обработки не являлась первостепенной задачей. Однако, современный Hadoop используется, в том числе для обработки массивов личной информации, а также в рамках многопользовательских Big Data систем, когда каждый из клиентов может работать только с определенным кругом данных Далее …

Что такое HiveQL: SQL для Big Data в Apache Hadoop — как работают Hive и Impala

HiveQL, Big Data, Большие данные, архитектура, SQL, Hadoop, Hive, Impala

Мы уже разобрали, что общего между Apache Hive и Cloudera Impala. В этой статье рассмотрим работу этих систем с точки зрения программиста, а также поговорим про язык HiveQL. Читайте в сегодняшнем материале, как эти системы выполняют SQL-запросы для аналитики больших данных (Big Data), хранящихся в кластере Hadoop. Что такое HiveQL, зачем он нужен и чем отличается от классического SQL Напомним, среда Hadoop неэффективна в интерактивной (потоковой) обработке масштабных структурированных данных из-за пакетной специфики вычислительной модели MapReduce, которая не позволяет выполнять сложные аналитические запросы в режиме реального времени с максимально допустимой задержкой в несколько миллисекунд. Эта проблема успешно решается в реляционных OLTP-системах с помощью SQL-запросов, которые дают разработчику возможность формулировать задачи на декларативном языке высокого уровня и оставлять детали оптимизации внутреннему Далее …

Hive vs Impala: сходства и различия SQL-инструментов для Apache Hadoop

Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala

В прошлой статье мы рассмотрели основные возможности и ключевые характеристики Apache Hive и Cloudera Impala. Сегодня подробнее поговорим про то, что между ними общего и чем отличаются друг от друга эти SQL-инструменты для обработки больших данных (Big Data), хранящихся в кластере Hadoop. Что общего между Apache Hive и Cloudera Impala: 5 главных сходств Сначала поговорим о том, чем похожи рассматриваемые SQL-инструменты для Apache Hadoop. Проанализировав их основные функциональные возможности и примеры использования, мы выделили следующие общие характеристики: прикладное назначение – Hive (Хайв) и Impala (Импала), в первую очередь, ориентированы на аналитическую обработку данных, хранящихся в экосистеме Hadoop (HDFS, HBase) и некоторых других распределенных файловых системах (Amazon S3) [1]. Обе системы представляют собой решения с открытым исходным кодом и свободно распространяются Далее …

Hive и Impala: коллеги или конкуренты – обзор SQL-инструментов для Apache Hadoop

Big Data, Большие данные, архитектура, Hive, Impala, SQL

Сегодня мы рассмотрим Apache Hive и Cloudera Impala – аналитические SQL-средства для работы с данными, хранящимися в экосистеме Apache Hadoop и других Big Data хранилищах: HDFS, HBase, Amazon S3. Читайте в нашей статье, что такое Hive и Impala, где они используются и почему они не заменяют, а дополняют друг друга. Apache Hive и Cloudera Impala: что это и как используется в SQL для Big Data Прежде всего отметим, что Hive и Impala не конкурируют, а, скорее эффективно дополняют друг друга. Между этими системами довольно много общего, но есть некоторые различия [1]. Прежде всего, отметим их основное назначение и некоторые аспекты, особенно важные для практического использования. Обе рассматриваемые платформы свободно распространяются под лицензией Apache Software Foundation и относятся к SQL-средствам работы Далее …

Apache NiFi vs StreamSets Data Collector: выбираем ETL-средство для Big Data и IoT/IIoT

Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kafka, ETL, NiFi

Завершая разговор про ETL-инструменты Big Data и цикл статей об Apache NiFi (ANF), сегодня мы сравним его со StreamSets Data Collector (SDC): чем похожи и чем отличаются эти системы маршрутизации данных. Также рассмотрим, в каких случаях следует выбирать ту или иную платформу и почему. Что общего между Apache NiFi и StreamSets Data Collector: 5 основных сходств Итак, прежде всего, отметим, чем похожи Apache NiFi и StreamSets Data Collector. Проанализировав эти платформы маршрутизации и загрузки данных, мы выделили 5 ключевых критериев, по которым они очень близки: прикладное назначение – обе системы активно используются в качестве ETL-инструментов в комплексных проектах Big Data и интернете вещей (Internet of Things, IoT), в т.ч. индустриальном (Industrial IoT, IIoT). О примерах практического использования SDC мы рассказывали Далее …

Что такое Apache Chukwa, Sqoop и Falcon: сравнение 3-х пакетных ETL-средств для Big Data

ETL, Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Hadoop

Продолжая разговор про Apache NiFi и другие ETL-инструменты больших данных, сегодня мы подробнее расскажем про пакетные средства загрузки и маршрутизации информации из различных источников: Sqoop, Chuckwa и Falcon. Читайте в нашей статье, чем они похожи и чем отличаются, а также как применяются в Big Data системах и интернете вещей (Internet of Things, IoT), в т.ч. индустриальном (Industrial IoT, IIoT). Краткий обзор 3-х популярных ETL-систем пакетной передачи Big Data Среди фреймворков пакетной загрузки больших данных из разных источников наиболее популярными считаются следующие проекты фонда Apache Software Foundation (ASF): Chukwa – платформа сбора данных с открытым исходным кодом для мониторинга распределенных Big Data систем, построенная на базе HDFS и MapReduce, включая масштабируемость и надежность Apache Hadoop. Chukwa содержит гибкий и мощный инструментарий Далее …