Заменит ли Apache Kafka в прочие СУБД в мире Big Data: за и против

Big Data, Большие данные, обработка данных, Kafka, архитектура, администрирование, SQL, NoSQL, Data Lake, Delta Lake, Elasticsearch, ClickHouse, DWH, обучение Apache Kafka, курсы по Apache Kafka

В этой статье мы поговорим про возможность нехарактерного использования Apache Kafka: не как распределенной стримминговой платформы или брокера сообщений, а в виде базы данных. Читайте далее, как Apache Kafka дополняет другие СУБД, не заменяя их полностью, почему такой вариант использования возможен в Big Data и когда он не совсем корректен. Что общего у Apache Kafka с базой данных и чем они отличаются В современном ИТ-мире есть множество видов баз данных, которые в большинстве случаев принято разделять на следующие категории [1]: простейшие – файлы, иерархические и сетевые; реляционные (MySQL, MariaDB, PostgreSQL, ClickHouse); нереляционные или NoSQL (Elasticsearch, Cassandra, Apache HBase, MongoDB, Redis, Prometheus, InfluxDB, TimescaleDB, Tarantool); комбинированные NewSQL (MemSQL, VoltDB, Spanner, Calvin, CockroachDB, FaunaDB, yugabyteDB) и многомодельные (ArangoDB, OrientDB, Couchbase). Независимо от Далее …

5 ключевых достоинств и 3 главных недостатка ELK-стека: разбираемся с Elasticsearch, Logstash и Kibana на реальных Big Data кейсах

Big Data, Большие данные, обработка данных, архитектура, NoSQL, ClickHouse, Elasticsearch, ELK Stack

Сегодня рассмотрим основные преимущества и недостатки ELK-стека. Читайте в этой статье, чем хороши Elasticsearch с Logsatsh и Kibana, а также каковы их основные недостатки и ограничения для использования в реальных Big Data проектах. Также мы собрали для вас несколько практических примеров, где и как используется Elasticsearch в интернет-магазинах, банках и других областях. Чем хороши Elasticsearch с Logsatsh и Kibana в Big Data: 5 главных преимуществ Основными достоинствами ELK-стека считаются следующие [1]: Масштабируемость – кластер Elasticsearch (ES) расширяется «на лету» добавлением новых серверов. При этом распределение нагрузки по узлам происходит автоматически. Отказоустойчивость — в случае сбоя кластерных узлов данные не потеряются, а будут перераспределены, и поисковая система сама продолжит работу. Операционная стабильность достигается ведением логов на каждое изменение данных в хранилище Далее …

Что не так с ClickHouse: 10 главных недостатков

Big Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse

Вчера мы разобрали, чем хорош ClickHouse и почему. Сегодня рассмотрим обратную сторону скорости, расширяемости и других преимуществ этой аналитической СУБД от Яндекса для обработки запросов по структурированным большим данным в реальном времени. Также читайте в нашей статье, как обойти недостатки и ограничения этой системы или понизить степень их влияния на свой Big Data проект. 10 недостатков Кликхаус, важных для аналитики Big Data Основными минусами ClickHouse считаются следующие [1]: отсутствие транзакций – Кликхаус является OLAP, а не OLTP-системой, и не поддерживает транзакционность записей, т.к. ориентирован, в первую очередь, на считывание данных. Поэтому попытки использовать ClickHouse в транзакционных OLTP-сценариях нецелесообразны. отсутствие точечных операций обновления и удаления данных (UPDATE и DELETE) по отдельным записям. В 2018 году появилась стали доступны пакетные операции ALTER UPDATE Далее …

За что все его так любят: ТОП-5 достоинств ClickHouse для Big Data

g Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse, DWH, Kafka, Zookeeper, Hive, Hadoop

Сегодня рассмотрим основные преимущества ClickHouse – аналитической СУБД от Яндекса для обработки запросов по структурированным большим данным в реальном времени. Читайте в нашей статье, чем еще хорош Кликхаус, кроме высокой скорости, и почему эту систему так любят аналитики, разработчики и администраторы Big Data. Чем хорош ClickHouse: главные преимущества Напомним, основным сценарием использования ClickHouse считается генерация аналитических запросов по структурированным данным c минимальной задержкой, фактически в режиме в режиме real time. Таким образом, главными преимуществами этой OLAP-СУБД для Big Data являются следующие: скорость; масштабируемость; расширяемость; высокая доступность и отказоустойчивость; простота развертывания и удобство эксплуатации. Далее рассмотрим подробнее, какие именно архитектурные и конструктивные особенности ClickHouse обеспечивают все эти достоинства. Почему так быстро: 5 причин высокой скорости Внедрение ClickHouse на сервисе Яндекс.Метрика отмечает Далее …

Не только Kafka Engine: 4 альтернативы для интеграции ClickHouse и кейс Ситимобил

Big Data, Большие данные, обработка данных, архитектура, SQL, Kafka, ClickHouse, DWH

Интеграционный движок Kafka Engine для потоковой загрузки данных в ClickHouse из топиков Кафка – наиболее популярный инструмент для связи этих Big Data систем. Однако, он не единственное средство интеграции Кликхаус с Apache Kafka. Сегодня рассмотрим, как еще можно организовать потоковую передачу больших данных от самого популярного брокера сообщений в колоночную аналитическую СУБД от Яндекса. От Kafka Streams до JDBC-драйвера: варианты интеграции ClickHouse с Кафка Прежде всего отметим, что именно Kafka Engine является «официальным» средством интеграции ClickHouse с Apache Kafka, которое рекомендует Яндекс, изначальный разработчик колоночной аналитической СУБД. В технической документации на свой продукт компания приводит перечень библиотек для интеграции с внешними системами от сторонних разработчиков, уточняя, что не занимается их поддержкой и не гарантирует их качества. Одним из таких средств, Далее …

3 проблемы движка интеграции ClickHouse с Kafka и способы их решения

Big Data, Большие данные, обработка данных, архитектура, SQL, Greenplum, Arenadata, Kafka, ClickHouse, Docker

Вчера мы рассматривали интеграцию ClickHouse с Apache Kafka с помощью встроенного движка. Сегодня поговорим про проблемы, которые могут возникнуть при его практическом использовании и разберем способы их решения для корректной связи этих Big Data систем. Почему случаются тайм-ауты: многопоточность и безопасность Напомним, интеграцию ClickHouse и Kafka обеспечивает встроенный движок (engine), который позволяет публиковать потоки данных и подписываться на них, организовать отказоустойчивое хранилище и обрабатывать потоки по мере их появления через использование таблиц с указанием специальных параметров [1]. На практике при подключении ClickHouse к Kafka с помощью этого движка может возникнуть проблема, связанная с криптографическим протоколом SSL, который обеспечивает защищенное соединение. Из-за того, что данный протокол не входит в настройки подключения, которые заданы по умолчанию, библиотека librdkafka теряет связь с брокером Кафка Далее …

ClickHouse + Kafka: 5 примеров совместного использования и особенности интеграционного движка

Big Data, Большие данные, обработка данных, архитектура, SQL, Arenadata, Kafka, ClickHouse, Zookeeper

В этой статье рассмотрим интеграцию ClickHouse с Apache Kafka: когда и зачем она нужна, как связать эти две Big Data системы, каковы ограничения и недостатки существующих способов и каким образом их можно обойти. Также разберем, почему кластер Кликхаус использует Zookeeper и что такое материализованное представление таблицы Кафка. Big Data маркетинг, непрерывный мониторинг и IoT: зачем нужна интеграция ClickHouse с Apache Kafka Напомним, ClickHouse – это колоночная СУБД от отечественной компании «Яндекс» с открытым кодом для быстрой обработки аналитических запросов в режиме реального времени на структурированных больших данных [1]. Изначально разработчики ClickHouse предусмотрели возможность потоковой заливки данных из Apache Kafka. На практике такая задача может возникнуть, например, при маркетинговой аналитике, когда необходимо оперативно оценить успешность рекламного блока с минимальной задержкой. Вычисления Далее …

Очень быстрая аналитика больших данных: Arenadata QuickMarts и яндексовский ClickHouse

Arenadata QuickMarts, ClickHouse, Аренадата, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, цифровизация, цифровая трансформация, DWH, ритейл

Вчера мы рассказывали про применение Arenadata DB в крупной отечественной сети розничного ритейла. Сегодня рассмотрим еще один Big Data продукт от российской компании Аренадата, который Х5 Retail Group использует для быстрой аналитики больших данных. Читайте в нашей статье, что такое Arenadata QuickMarts и при чем здесь ClickHouse от Яндекса. Что такое Arenadata QuickMarts и зачем она нужна Начнем с определения: Arenadata QuickMarts (ADQM) – это кластерная колоночная СУБД для генерации аналитических отчетов по большим данным в режиме реального времени. Подчеркнем, что основным назначением систем интерактивной аналитики OLAP (Online Analytical Processing) является именно построение отчетов, а не как таковое хранение данных (data storage) и обработка транзакций в реальном времени (OLTP, Online Transaction Processing). Подробнее об отличиях OLAP и OLTP мы писали Далее …