Недавно мы писали про обновление хранилища метаданных Apache Hive с помощью команды MSCK REPAIR TABLE, операторов AirFlow и Spark-заданий. В продолжение этой темы про работу с партиционированными Parquet-файлами сегодня рассмотрим применение…
Рубрика: NoSql
Новости и статьи по администрированию, аналитике, разработке и эксплуатации NOSQL технологий в Big Data: Apache HBase, Hive, Impala, Greenplum, ClickHouse и другие Not Only SQL СУБД для хранения и аналитической обработки больших данных.
Побег от Cassandra в AWS S3 c Apache Spark: кейс сервиса Strava
Автор Анна ВичуговаКатегория NoSql, Spark, СтатьиВ этой статье для дата-инженеров и разработчиков распределенных приложений потоковой аналитики больших данных разберем пример перевода сервиса Strava с кластера Cassandra в облачное хранилище AWS S3 и какую роль в…
Не только MSCK REPAIR TABLE: добавляем разделы в хранилище метаданных Hive с оператором AirFlow и Apache Spark
Автор Анна ВичуговаКатегория Hive, NoSql, СтатьиЧто такое MSCK REPAIR TABLE в Apache Hive, зачем нужна эта команда, ее достоинства и недостатки, а также альтернативные варианты для задач пакетной дата-инженерии. Разбираем на примере конвейера обработки данных в…
Cloudera Operational Database: комплексная платформа данных на Apache HBase и Phoenix
Автор Анна ВичуговаКатегория HBase, NoSql, СтатьиВ этой статье для дата-инженеров и администраторов SQL-on-Hadoop рассмотрим, что такое Cloudera Data Platform Operational Database, как это связано с Apache HBase и Phoenix. Также разберем, каким образом перенести данные…
Не только SQL-операторы: Transform для манипулирования данными в Apache Hive
Автор Анна ВичуговаКатегория Hive, NoSql, СтатьиЧто такое Hive Transform, зачем это нужно дата-инженеру и разработчику распределенных приложений, где и как использовать эту функцию популярного средства SQL-on-Hadoop. Краткий обзор альтернативного способа операций с данными в Apache…
10 вопросов на знание основных функций в Impala: открытый комплексный тест для начинающих изучать распределённую структуру Apache Impala
Автор Сергей УшаковКатегория NoSql, СтатьиЧтобы самостоятельное обучение по Impala стало еще интереснее, сегодня мы предлагаем вам простой комплексный тест по основам работы с различными функциями в этой распределенной СУБД, включая особенности их применения. Комплексный…
Что такое функции командной строки в Impala и для чего они нужны
Автор Сергей УшаковКатегория NoSql, СтатьиВ прошлый раз мы говорили про метаданные в Apache Impala. Сегодня поговорим про функции командной строки в Impala. Читайте далее про особенности работы функций командной строки Impala, благодаря которым становится…
UDF в Apache Hive: создание, регистрация и эксплуатация
Автор Анна ВичуговаКатегория Hive, NoSql, СтатьиСегодня в рамках обучения дата-аналитиков и разработчиков распределенных приложений, рассмотрим, что такое пользовательские функции в Apache Hive, как их создать и использовать. А также в чем проблема вызова UDF-функции, зарегистрированной…
Базовые DDL-операции в Apache Hive: основы NoSQL Big Data для начинающих
Автор Сергей УшаковКатегория NoSql, СтатьиВ прошлый раз мы говорили про DML-операции в Hive. Сегодня поговорим про DDL-операции в этой распределённой Big Data платформе. Также рассмотрим применение этих операций к объектам, хранящимся в этой СУБД.…
Базовые DML-операции в Apache Hive: основы NoSQL Big Data для начинающих
Автор Сергей УшаковКатегория NoSql, СтатьиВ прошлый раз мы говорили про индексы в Hive. Сегодня поговорим про DML-операции в этой распределённой Big Data платформе. Также рассмотрим применение этих операций к данным, хранящимся в этой СУБД.…