Использование СУБД вместо очереди сообщений считается антипаттерном, однако, команда разработки облачной системы организации конвейеров обработки данных Dagster Cloud выбрала PostgreSQL вместо Apache Kafka для регистрации...
Новости и статьи по администрированию, аналитике, разработке и эксплуатации NOSQL технологий в Big Data: Apache HBase, Hive, Impala, Greenplum, ClickHouse и другие Not Only SQL СУБД для хранения и аналитической обработки больших данных.
Apache Spark и Hive для обработки партиционированных Parquet-файлов
Недавно мы писали про обновление хранилища метаданных Apache Hive с помощью команды MSCK REPAIR TABLE, операторов AirFlow и Spark-заданий. В продолжение этой темы про работу с...
Побег от Cassandra в AWS S3 c Apache Spark: кейс сервиса Strava
В этой статье для дата-инженеров и разработчиков распределенных приложений потоковой аналитики больших данных разберем пример перевода сервиса Strava с кластера Cassandra в облачное хранилище AWS...
Не только MSCK REPAIR TABLE: добавляем разделы в хранилище метаданных Hive с оператором AirFlow и Apache Spark
Что такое MSCK REPAIR TABLE в Apache Hive, зачем нужна эта команда, ее достоинства и недостатки, а также альтернативные варианты для задач пакетной дата-инженерии. Разбираем на...
Cloudera Operational Database: комплексная платформа данных на Apache HBase и Phoenix
В этой статье для дата-инженеров и администраторов SQL-on-Hadoop рассмотрим, что такое Cloudera Data Platform Operational Database, как это связано с Apache HBase и Phoenix. Также...
Не только SQL-операторы: Transform для манипулирования данными в Apache Hive
Что такое Hive Transform, зачем это нужно дата-инженеру и разработчику распределенных приложений, где и как использовать эту функцию популярного средства SQL-on-Hadoop. Краткий обзор альтернативного способа...
10 вопросов на знание основных функций в Impala: открытый комплексный тест для начинающих изучать распределённую структуру Apache Impala
Чтобы самостоятельное обучение по Impala стало еще интереснее, сегодня мы предлагаем вам простой комплексный тест по основам работы с различными функциями в этой распределенной СУБД,...
Что такое функции командной строки в Impala и для чего они нужны
В прошлый раз мы говорили про метаданные в Apache Impala. Сегодня поговорим про функции командной строки в Impala. Читайте далее про особенности работы функций командной...
UDF в Apache Hive: создание, регистрация и эксплуатация
Сегодня в рамках обучения дата-аналитиков и разработчиков распределенных приложений, рассмотрим, что такое пользовательские функции в Apache Hive, как их создать и использовать. А также в...
Базовые DDL-операции в Apache Hive: основы NoSQL Big Data для начинающих
В прошлый раз мы говорили про DML-операции в Hive. Сегодня поговорим про DDL-операции в этой распределённой Big Data платформе. Также рассмотрим применение этих операций к...