Современные ML-системы представляют собой сложные комплексные платформы из множества компонентов, одним из которых является хранилище фичей для моделей машинного обучения. Индийская gamedev-компания Dream11 делится своим опытом, как построить такое Feature…
Метка: Hadoop
Как повысить эффективность кластера Apache HBase: YCSB-тестирование региональных серверов
Автор Анна ВичуговаКатегория HBase, СтатьиСегодня затронем тему администрирования кластеров Apache HBase и рассмотрим, приносит ли реальную пользу совместное размещение нескольких региональных серверов (RegionServer) на одном узле кластера. Сравнительный анализ по тестам YCSB-бенчмарка. Регионы и…
3 метода управления разделами в Apache Spark
Автор Анна ВичуговаКатегория Spark, СтатьиМы уже рассказывали про функции перераспределения данных по разделам coalesce() и repartition(). Сегодня сравним их работу с еще одним методом управления разделами в Apache Spark и разберем, как все они могут помочь…
Настройка кластера Apache Spark и Hive на Hadoop
Автор Анна ВичуговаКатегория Hive, Spark, СтатьиКак настроить Apache Spark 3.0.1 и Hive 3.1.2 на Hadoop 3.3.0: тонкости установки и конфигурирования для обучения администраторов кластера и инженеров с примерами команд и кода распределенных приложений. Запуск Spark-приложения…
Как связать Greenplum и Hadoop: интеграция c PXF
Автор Анна ВичуговаКатегория Greenplum, Hive, СтатьиВ этой статье для дата-инженеров и администраторов кластера рассмотрим, как считать данные из распределенной файловой системы Apache Hadoop в MPP-СУБД Greenplum. Архитектура и принцип работы PXF-коннектора к HDFS с примерами…
От Derby к Hive: хранилище метаданных для Apache Spark
Автор Анна ВичуговаКатегория Hive, Spark, СтатьиСегодня заглянем под капот Apache Spark и разберем, для чего этому популярному вычислительному движку база метаданных, как ее назначить и что не так с хранилищем данных по умолчанию. Зачем уходить…
Из AWS S3 в Hadoop HDFS: мини-конвейер из процессоров Apache NiFi
Автор Анна ВичуговаКатегория NiFi, СтатьиПродолжая рассматривать примеры для обучения дата-инженеров по построению ETL-конвейеров, сегодня разберем, как перенести данные из облачного объектного хранилища AWS S3 в озеро данных на Hadoop HDFS с помощью готовых процессоров…
Бессерверный Apache Spark в Google Dataproc
Автор Анна ВичуговаКатегория AirFlow, Spark, СтатьиНедавно в Google Dataproc появился бессерверный Apache Spark. Разбираемся, что это такое и зачем нужно дата-инженерам. Как работает serverless Spark в облачной платформе Google и почему выбирать между Dataflow и…
Проект года-2021: фабрика данных на Arenadata Hadoop в АО «Народный банк Казахстана»
Автор Анна ВичуговаКатегория Use Cases, Статьи, Цифровая трансформацияМы уже рассказывали о победителях российского ИТ-конкурса «Проект Года 2020» от профессионального сообщества GlobalCIO в номинации «Аналитика и Big Data», где «Газпром нефть» и банк ВТБ делятся опытом применения российских…
Импортозамещение в Big Data: Arenadata на Скале
Автор Анна ВичуговаКатегория Use Cases, СтатьиПоскольку тема импортозамещения сейчас стала особенно актуальной, сегодня рассмотрим отечественный программно-аппаратный комплекс для хранения и аналитической обработки данных СКАЛА-Р МБД8. Что это такое, как использовать и при чем здесь продукты…