Сегодня рассмотрим, как выполняются операции чтения и записи в Apache HBase, а также с помощью каких приемов можно их ускорить. Как рассчитать оптимальное количество регионов в таблице, зачем отключать версионирование,…
Метка: HBase
Детективная история про SCR-конфигурации HDFS в региональных серверах Apache HBase
Автор Анна ВичуговаКатегория HBase, СтатьиВ этой статье для обучения дата-инженеров и администраторов кластера Apache HBase разберем, почему региональные сервера могут работать некорректно при высокой нагрузке и при чем здесь SCR-конфигурация файловой системы Hadoop. Что…
Feature Store на Apache HBase с Phoenix, RonDB и Kafka: кейс Dream11
Автор Анна ВичуговаКатегория Machine Learning, СтатьиСовременные ML-системы представляют собой сложные комплексные платформы из множества компонентов, одним из которых является хранилище фичей для моделей машинного обучения. Индийская gamedev-компания Dream11 делится своим опытом, как построить такое Feature…
Как повысить эффективность кластера Apache HBase: YCSB-тестирование региональных серверов
Автор Анна ВичуговаКатегория HBase, СтатьиСегодня затронем тему администрирования кластеров Apache HBase и рассмотрим, приносит ли реальную пользу совместное размещение нескольких региональных серверов (RegionServer) на одном узле кластера. Сравнительный анализ по тестам YCSB-бенчмарка. Регионы и…
Обнаружение мошенничества при скимминге банковских карт c Apache Kafka, Flink и HBase
Автор Анна ВичуговаКатегория Flink, HBase, Kafka, СтатьиПример выявления финансового мошенничества при скимминге банковских карт в банкоматах с помощью технологий Big Data. Как Apache Kafka, Flink и HBase помогут обнаружить злоумышленников в режиме реального времени. Что такое…
Cloudera Operational Database: комплексная платформа данных на Apache HBase и Phoenix
Автор Анна ВичуговаКатегория HBase, NoSql, СтатьиВ этой статье для дата-инженеров и администраторов SQL-on-Hadoop рассмотрим, что такое Cloudera Data Platform Operational Database, как это связано с Apache HBase и Phoenix. Также разберем, каким образом перенести данные…
Как реализовать строгую согласованность вторичных глобальных индексов таблиц HBase и с Phoenix: кейс Salesforce
Автор Анна ВичуговаКатегория HBase, СтатьиНедавно на примере ИТ-компании Salesforce мы рассказывали про вторичную индексацию таблиц Apache HBase с помощью Phoenix – средства обращения к NoSQL-хранилищу через SQL-запросы. В продолжение этого кейса, сегодня рассмотрим, как…
Современная инженерия данных: от Data Lake к облачной Лямбда
Автор Анна ВичуговаКатегория AirFlow, HBase, Kafka, Spark, Use Cases, СтатьиСегодня обсудим ключевые тренды развития дата-инженерии и инструментальные средства их реализации. Как это применяется на практике, рассмотрим на примере эволюции хранилища данных в индонезийской ИТ-компании Bukalapak, от локального кластера Apache…
Сложности индексации таблиц Apache HBase и способы их обхода с Phoenix
Автор Анна ВичуговаКатегория HBase, СтатьиВ Apache HBase индексация таблиц возможна только по одному полю. Обойти это ограничение позволяет Apache Phoenix – инструмент обращения к NoSQL-хранилищу средствами SQL-запросов. В этой статье для дата-инженеров, архитекторов ИТ-решений…
SQL-запросы к Apache HBase через Phoenix с HUE
Автор Анна ВичуговаКатегория HBase, Hive, СтатьиДля дата-инженеров и аналитиков про манипулирование данными в Apache Hadoop HDFS средствами SQL-запросов с помощью удобных инструментов. Apache Phoenix для обращения к таблицам NoSQL-хранилища HBase через SQL-запросы из графического интерфейса…