Feature Store на Apache HBase с Phoenix, RonDB и Kafka: кейс Dream11

Автор Категория ,
Feature Store на Apache HBase с Phoenix, RonDB и Kafka: кейс Dream11

Современные ML-системы представляют собой сложные комплексные платформы из множества компонентов, одним из которых является хранилище фичей для моделей машинного обучения. Индийская gamedev-компания Dream11 делится своим опытом, как построить такое Feature…

Как повысить эффективность кластера Apache HBase: YCSB-тестирование региональных серверов

Автор Категория ,
Как повысить эффективность кластера Apache HBase: YCSB-тестирование региональных серверов

Сегодня затронем тему администрирования кластеров Apache HBase и рассмотрим, приносит ли реальную пользу совместное размещение нескольких региональных серверов (RegionServer) на одном узле кластера. Сравнительный анализ по тестам YCSB-бенчмарка. Регионы и…

Как связать Greenplum и Hadoop: интеграция c PXF

Автор Категория , ,
Как связать Greenplum и Hadoop: интеграция c PXF

В этой статье для дата-инженеров и администраторов кластера рассмотрим, как считать данные из распределенной файловой системы Apache Hadoop в MPP-СУБД Greenplum. Архитектура и принцип работы PXF-коннектора к HDFS с примерами…

Из AWS S3 в Hadoop HDFS: мини-конвейер из процессоров Apache NiFi

Автор Категория ,
Из AWS S3 в Hadoop HDFS: мини-конвейер из процессоров Apache NiFi

Продолжая рассматривать примеры для обучения дата-инженеров по построению ETL-конвейеров, сегодня разберем, как перенести данные из облачного объектного хранилища AWS S3 в озеро данных на Hadoop HDFS с помощью готовых процессоров…

Не только MSCK REPAIR TABLE: добавляем разделы в хранилище метаданных Hive с оператором AirFlow и Apache Spark

Автор Категория , ,
Не только MSCK REPAIR TABLE: добавляем разделы в хранилище метаданных Hive с оператором AirFlow и Apache Spark

Что такое MSCK REPAIR TABLE в Apache Hive, зачем нужна эта команда, ее достоинства и недостатки, а также альтернативные варианты для задач пакетной дата-инженерии. Разбираем на примере конвейера обработки данных в…

Cloudera Operational Database: комплексная платформа данных на Apache HBase и Phoenix

Автор Категория , ,
Cloudera Operational Database: комплексная платформа данных на Apache HBase и Phoenix

В этой статье для дата-инженеров и администраторов SQL-on-Hadoop рассмотрим, что такое Cloudera Data Platform Operational Database, как это связано с Apache HBase и Phoenix. Также разберем, каким образом перенести данные…

Не только SQL-операторы: Transform для манипулирования данными в Apache Hive

Автор Категория , ,
Не только SQL-операторы: Transform для манипулирования данными в Apache Hive

Что такое Hive Transform, зачем это нужно дата-инженеру и разработчику распределенных приложений, где и как использовать эту функцию популярного средства SQL-on-Hadoop. Краткий обзор альтернативного способа операций с данными в Apache…

Как реализовать строгую согласованность вторичных глобальных индексов таблиц HBase и с Phoenix: кейс Salesforce

Автор Категория ,
Как реализовать строгую согласованность вторичных глобальных индексов таблиц HBase и  с Phoenix: кейс Salesforce

Недавно на примере ИТ-компании Salesforce мы рассказывали про вторичную индексацию таблиц Apache HBase с помощью Phoenix – средства обращения к NoSQL-хранилищу через SQL-запросы. В продолжение этого кейса, сегодня рассмотрим, как…

Сложности индексации таблиц Apache HBase и способы их обхода с Phoenix

Автор Категория ,
Сложности индексации таблиц Apache HBase и способы их обхода с Phoenix

В Apache HBase индексация таблиц возможна только по одному полю. Обойти это ограничение позволяет Apache Phoenix – инструмент обращения к NoSQL-хранилищу средствами SQL-запросов. В этой статье для дата-инженеров, архитекторов ИТ-решений…

Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора

Автор Категория ,
Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора

В этой статье для дата-инженеров и администраторов SQL-on-Hadoop, рассмотрим, что такое Trino и как это работает с Apache Hive. А также при чем здесь Presto и зачем коннектор со своей…