Современные ML-системы представляют собой сложные комплексные платформы из множества компонентов, одним из которых является хранилище фичей для моделей машинного обучения. Индийская gamedev-компания Dream11 делится своим опытом, как построить такое Feature…
Метка: HDFS
Как повысить эффективность кластера Apache HBase: YCSB-тестирование региональных серверов
Автор Анна ВичуговаКатегория HBase, СтатьиСегодня затронем тему администрирования кластеров Apache HBase и рассмотрим, приносит ли реальную пользу совместное размещение нескольких региональных серверов (RegionServer) на одном узле кластера. Сравнительный анализ по тестам YCSB-бенчмарка. Регионы и…
Как связать Greenplum и Hadoop: интеграция c PXF
Автор Анна ВичуговаКатегория Greenplum, Hive, СтатьиВ этой статье для дата-инженеров и администраторов кластера рассмотрим, как считать данные из распределенной файловой системы Apache Hadoop в MPP-СУБД Greenplum. Архитектура и принцип работы PXF-коннектора к HDFS с примерами…
Из AWS S3 в Hadoop HDFS: мини-конвейер из процессоров Apache NiFi
Автор Анна ВичуговаКатегория NiFi, СтатьиПродолжая рассматривать примеры для обучения дата-инженеров по построению ETL-конвейеров, сегодня разберем, как перенести данные из облачного объектного хранилища AWS S3 в озеро данных на Hadoop HDFS с помощью готовых процессоров…
Не только MSCK REPAIR TABLE: добавляем разделы в хранилище метаданных Hive с оператором AirFlow и Apache Spark
Автор Анна ВичуговаКатегория Hive, NoSql, СтатьиЧто такое MSCK REPAIR TABLE в Apache Hive, зачем нужна эта команда, ее достоинства и недостатки, а также альтернативные варианты для задач пакетной дата-инженерии. Разбираем на примере конвейера обработки данных в…
Cloudera Operational Database: комплексная платформа данных на Apache HBase и Phoenix
Автор Анна ВичуговаКатегория HBase, NoSql, СтатьиВ этой статье для дата-инженеров и администраторов SQL-on-Hadoop рассмотрим, что такое Cloudera Data Platform Operational Database, как это связано с Apache HBase и Phoenix. Также разберем, каким образом перенести данные…
Не только SQL-операторы: Transform для манипулирования данными в Apache Hive
Автор Анна ВичуговаКатегория Hive, NoSql, СтатьиЧто такое Hive Transform, зачем это нужно дата-инженеру и разработчику распределенных приложений, где и как использовать эту функцию популярного средства SQL-on-Hadoop. Краткий обзор альтернативного способа операций с данными в Apache…
Как реализовать строгую согласованность вторичных глобальных индексов таблиц HBase и с Phoenix: кейс Salesforce
Автор Анна ВичуговаКатегория HBase, СтатьиНедавно на примере ИТ-компании Salesforce мы рассказывали про вторичную индексацию таблиц Apache HBase с помощью Phoenix – средства обращения к NoSQL-хранилищу через SQL-запросы. В продолжение этого кейса, сегодня рассмотрим, как…
Сложности индексации таблиц Apache HBase и способы их обхода с Phoenix
Автор Анна ВичуговаКатегория HBase, СтатьиВ Apache HBase индексация таблиц возможна только по одному полю. Обойти это ограничение позволяет Apache Phoenix – инструмент обращения к NoSQL-хранилищу средствами SQL-запросов. В этой статье для дата-инженеров, архитекторов ИТ-решений…
Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора
Автор Анна ВичуговаКатегория Hive, СтатьиВ этой статье для дата-инженеров и администраторов SQL-on-Hadoop, рассмотрим, что такое Trino и как это работает с Apache Hive. А также при чем здесь Presto и зачем коннектор со своей…