Побег от Cassandra в AWS S3 c Apache Spark: кейс сервиса Strava

В этой статье для дата-инженеров и разработчиков распределенных приложений потоковой аналитики больших данных разберем пример перевода сервиса Strava с кластера Cassandra в облачное хранилище AWS...

Не только MSCK REPAIR TABLE: добавляем разделы в хранилище метаданных Hive с оператором AirFlow и Apache Spark

Что такое MSCK REPAIR TABLE в Apache Hive, зачем нужна эта команда, ее достоинства и недостатки, а также альтернативные варианты для задач пакетной дата-инженерии. Разбираем на...

Не только SQL-операторы: Transform для манипулирования данными в Apache Hive

Что такое Hive Transform, зачем это нужно дата-инженеру и разработчику распределенных приложений, где и как использовать эту функцию популярного средства SQL-on-Hadoop. Краткий обзор альтернативного способа...

10 вопросов на знание основных функций в Impala: открытый комплексный тест для начинающих изучать распределённую структуру Apache Impala

Чтобы самостоятельное обучение по Impala стало еще интереснее, сегодня мы предлагаем вам простой комплексный тест по основам работы с различными функциями в этой распределенной СУБД,...

UDF в Apache Hive: создание, регистрация и эксплуатация

Сегодня в рамках обучения дата-аналитиков и разработчиков распределенных приложений, рассмотрим, что такое пользовательские функции в Apache Hive, как их создать и использовать. А также в...

Поиск по сайту