4 крупных примера внедрения Tarantool, 3 достоинства и 2 главных недостатка IMDB

Big Data, Большие данные, обработка данных, архитектура, SQL, Tarantool, Arenadata, Greenplum, Hadoop

Сегодня рассмотрим ключевые достоинства и недостатки резидентных СУБД для больших данных на примере Tarantool. Читайте в нашей статье про основные сценарии использования In-Memory Database (IMDB) в области Big Data с конкретными кейсами из реального бизнеса от Альфа-Банка, Аэрофлота, Тинькофф-Банка и Мегафона. Где и как используются In-Memory в Big Data: 4 кейса внедрения Tarantool Мы уже упоминали, что резидентные базы данных – одна из наиболее перспективных и надежных технологий 2020 года в области Data Management по версии аналитического агентства Gartner. Резидентными считаются операции с данными, которые хранятся не на жестком диске, а в оперативной памяти (In-Memory), что делает их очень быстрыми. В практическом плане IMDB-системы особенно востребованы в тех приложениях работы с данными в реальном времени, где требуется минимальное время отклика, Далее …

Интеграция Big Data или как связать Tarantool c Apache Kafka на примере Arenadata Grid

Big Data, Большие данные, обработка данных, архитектура, SQL, Kafka, Tarantool, Arenadata

Продолжая разбираться с In-Memory СУБД Tarantool и Arenadata Grid, сегодня рассмотрим, как эти резидентные базы данных интегрируются с Apache Kafka. Читайте в нашей статье, что такое коннекторы и процессоры, а также как записать в топик Кафка сообщение, SQL-запрос или часть таблицы. Arenadata Grid и Apache Kafka: коннектор + процессоры Напомним, что Tarantool, который лежит в основе Arenadata Grid, представляет собой сервер приложений на языке Lua, интегрированный с резидентной СУБД. При этом In-Memory движок базы данных хранит все в оперативной памяти, а дисковый движок эффективно записывает данные на жесткий диск, используя журнально-структурированные деревья и разбиение на диапазоны [1]. Tarantool и Arenadata Grid поддерживают потоковую обработку данных (stream processing). В частности, интеграция с Apache Kafka для чтения и записи сообщений из топиков Далее …

Зачем вам Tarantool: разгоняем большие данные с помощью In-Memory database

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, интернет вещей, Internet of Things, IoT, IIoT, Arenadata, резидентные СУБД, In-Memory Database

В этой статье мы рассмотрим резидентные (In-Memory) базы данных на примере Tarantool и Arenadata Grid: что это, как они работают и где используются. Еще поговорим, каким образом эти Big Data системы могут ускорить работу распределенных приложений без замены существующих СУБД, а также при чем здесь промышленный интернет вещей и экосистема Apache Hadoop для хранения больших данных. Who is who на рынке In-Memory DataBase: краткий обзор самых популярных решений В 2019 году аналитическое агентство Gartner включило резидентные базы данных, в которых информация размещается в памяти, в перечень наиболее перспективных технологий в области Data Management. При этом на графике технологической зрелости (Hype Cycle) In-Memory database (IMDB) расположены на восходящем участке по пути к плато продуктивности [1]. Это не удивительно с учетом длительной Далее …

Зелено – не молодо: как устроена MPP-СУБД Greenplum

Big Data, Большие данные, обработка данных, архитектура, SQL, DWH, Arenadata, Greenplum

В этом материале рассмотрим реализацию массово-параллельной архитектуры для хранения и аналитической обработки больших данных на примере популярной Big Data СУБД Greenplum. Прочитав эту статью, вы поймете, почему MPP-базы потребляют много ресурсов и как связано число сегментов со скоростью работы кластера. MPP, Greenplum и PostgreSQL Напомним, СУБД Greenplum – это типичный представитель распределенной массивно-параллельной архитектуры (MPP, Massive Parallel Processing) на основе PostreSQL для управления крупномасштабными аналитическими хранилищами данных. Greenplum реализует концепцию «Shared Nothing», когда узлы кластера, которые взаимодействуют для выполнения вычислительных операций, не разделяют ресурсы: каждый из них имеет собственную память, операционную систему и жесткие диски. Благодаря этому MPP-базы эффективно распараллеливают нагрузку на выполнение аналитических запросов к многотерабайтным хранилищам данных. Можно сказать, что кластер Greenplum представляет собой несколько экземпляров (инстансов, instance) объектно-реляционной Далее …

3 главных достоинства и недостатка MPP-СУБД для хранения и аналитики Big Data на примере Greenplum

Greenplum, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, цифровизация, цифровая трансформация, DWH, ритейл, банк, Arenadata, Аренадата

Сегодня поговорим про достоинства и недостатки массово-параллельной архитектуры для хранения и аналитической обработки больших данных, рассмотрев Greenplum и Arenadata DB. Читайте в нашей статье, что такое MPP-СУБД, где и как это применяется, чем полезны эти Big Data решения и с какими проблемами можно столкнуться при их практическом использовании. Что MPP-СУБД и как это работает Особенностью массово-параллельная архитектура (Massive parallel processing, MPP) является физическое разделение памяти узлов, объединенных в кластер [1]. В случае MPP-СУБД каждый узел кластера работает со только своими жесткими дисками, распараллеливая операции чтения и записи данных. После того, как каждый из узлов закончит свои вычисления и отсортирует их в нужном порядке, ему нужно получить необходимые данные от остальных серверов. Для этого каждый узел отправляет свою порцию данных на все остальные сервера Далее …

Очень быстрая аналитика больших данных: Arenadata QuickMarts и яндексовский ClickHouse

Arenadata QuickMarts, ClickHouse, Аренадата, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, цифровизация, цифровая трансформация, DWH, ритейл

Вчера мы рассказывали про применение Arenadata DB в крупной отечественной сети розничного ритейла. Сегодня рассмотрим еще один Big Data продукт от российской компании Аренадата, который Х5 Retail Group использует для быстрой аналитики больших данных. Читайте в нашей статье, что такое Arenadata QuickMarts и при чем здесь ClickHouse от Яндекса. Что такое Arenadata QuickMarts и зачем она нужна Начнем с определения: Arenadata QuickMarts (ADQM) – это кластерная колоночная СУБД для генерации аналитических отчетов по большим данным в режиме реального времени. Подчеркнем, что основным назначением систем интерактивной аналитики OLAP (Online Analytical Processing) является именно построение отчетов, а не как таковое хранение данных (data storage) и обработка транзакций в реальном времени (OLTP, Online Transaction Processing). Подробнее об отличиях OLAP и OLTP мы писали Далее …

Еще больше данных для торговой аналитики: Arenadata в Х5 Retail Group

Arenadata, Аренадата, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, Hive, цифровизация, цифровая трансформация, DWH, ритейл, HBase

Продолжая разговор про успехи применения отечественных Big Data продуктов, сегодня мы рассмотрим пример использования Arenadata DB в одной из ведущих отечественных компаний розничного ритейла. Читайте в нашей статье про особенности внедрения распределенной отказоустойчивой MPP-СУБД для аналитики больших данных в Х5 Retail Group. Зачем ритейлеру еще одно Big Data решение: специфика проекта Еще в 2016 году компания X5 Retail Group начала выстраивать комплексный data-driven подход к бизнесу, чтобы оперативно и даже заблаговременно принимать управленческие решения на основе данных. Для этого было решено создать глобальную аналитическую платформу, которая будет агрегировать все корпоративные данные, автоматизируя задачи Data Governance и отвечая на вопросы менеджеров и аналитиков компании. При этом пользоваться такой Big Data системой будут более 2000 аналитиков, задавая около 800 конкурентных запросов одновременно. Далее …

Завод, телеком и госсектор: 3 примера внедрения Arenadata

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake, цифровизация, цифровая трансформация, Kafka, Spark, NiFi, Airflow, DWH, Аренадата, Arenadata

В этой статье мы продолжим рассказывать про практическое использование отечественных Big Data решений на примере российского дистрибутива Arenadata Hadoop (ADH) и массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB). Сегодня мы приготовили для вас еще 3 интересных кейса применения этих решений в проектах цифровизации бизнеса и государственном управлении. Великолепная 5-ка в отечественном Big Data конкурсе Далее рассмотрим следующие Big Data проекты: технологическая платформа для объединения федеральных хранилищ данных (ХД) и аналитики в ПАО «Ростелеком»; цифровая платформа Счетной палаты РФ; озеро данных (Data Lake) Новолипецкого металлургического комбината; распределённая СУБД для аналитики больших данных в X5 Retail Group. Все эти проекты, участвовали в конкурсе ИТ-портала Global CIO «Проект года-2019» и вошли в ТОП-5 лучших решений, наряду с «умным» озером Далее …

От банков до Газпрома: 4 крупных успеха Arenadata – интересные кейсы за последнюю пару лет

Аренадата, Aernadata, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake

Сегодня мы поговорим про продукты компании Arenadata – отечественного разработчика дистрибутива Apache Hadoop (ADH), массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB) и других Big Data платформ. Читайте в нашей статье, где внедрены эти решения и какую пользу они уже успели принести бизнесу. Облака и банк: 3 примера внедрения Arenadata DB Компания Mail.ru Group, один из ведущих облачных провайдеров в России, решила объединить преимущества своей инфраструктуры с достоинствами Arenadata DB – распределенной массивно-параллельной СУБД для анализа и хранения больших данных. С 29 апреля 2020 года Mail.ru Cloud Solutions запустила на своей платформе сервис по развертыванию и использованию ADB [1]. Аналогичную услугу с февраля 2020 года предлагает другой крупный SaaS-провайдер и системный интегратор – компания Крок [2]. Из Далее …

Сложно, дорого, универсально: 3 мифа о Hadoop и их опровержения

Большие данные, Big Data, Hadoop, Apache, Cloudera, Hortonworks, администрирование, инфраструктура

Сегодня мы поговорим о заблуждениях насчет базового инфраструктурного понятия хранения и обработки больших данных – экосистеме Hadoop и развеем 3 самых популярных мифа об этой технологии. А также рассмотрим применение Cloudera, Hortonworks, Arenadata, MapR и HDInsight для проектов Big Data и машинного обучения (Machine Learning). Миф №1: Hadoop – это сложно Если настраивать инфраструктуру для Big Data проектов «с нуля», взяв за основу классический дистрибутив проекта Hadoop, развернуть экосистему для больших данных будет довольно трудоемким и длительным процессом, с которым справится не каждый системный администратор. Как правило, чтобы сократить время развертывания и сложность администрирования, используют готовые решения на основе Hadoop: Cloudera, Hortonworks, Arenadata, MapR или HDInsight [1]. Эти продукты уже содержат в себе не только 4 основных модуля хадуп (файловая Далее …