Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

Автор Категория , ,
Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

В недавней статье про преимущества хранилища метаданных Apache Hive и другие плюсы этого популярного инструмента SQL-on-Hadoop, мы упоминали формат открытых таблиц Iceberg как альтернативу для хранения огромных наборов аналитических данных.…

Перспективы Apache Hive: развитие или забвение?

Автор Категория ,
Перспективы Apache Hive: развитие или забвение?

Появившись более 10 лет назад, Apache Hive до сих пор является самым популярным инструментом стека SQL-on-Hadoop и активно используется для аналитики больших данных. Однако, технологии Big Data постоянно развиваются: Spark…

Еще пара примеров по Apache Hive и Spark: безопасный доступ и реализация SCD

Автор Категория , ,
Еще пара примеров по Apache Hive и Spark: безопасный доступ и реализация SCD

В этой статье для разработчиков распределенных приложений Apache Spark, администраторов SQL-on-Hadoop и дата-аналитиков рассмотрим особенности аутентификации удаленного пользователя, а также отслеживание измененных данных в таблицах Apache Hive. Читайте далее, зачем…

От JDBC-подключения до SQL-запросов: пара примеров по Apache Hive, HBase и Spark

Автор Категория ,
От JDBC-подключения до SQL-запросов: пара примеров по Apache Hive, HBase и Spark

В рамках курсов по Apache Hadoop для дата-аналитиков и инженеров данных сегодня рассмотрим пару практических примеров работы с популярным SQL-on-Hadoop инструментом этой экосистемы. Читайте далее, как настроить соединение удаленного сервера…

Зачем вам Beekeeper или как очистить метаданные таблицы Apache Hive

Автор Категория ,
Зачем вам Beekeeper или как очистить метаданные таблицы Apache Hive

Сегодня рассмотрим, что такое Beekeeper и как этот сервис помогает администраторам Hadoop и пользователям Apache Hive очищать метаданные этого NoSQL-хранилища. Читайте далее, зачем удалять устаревшие пути из Metastore и как…

Зачем Apache Hive внешняя база данных для MetaStore: смотрим на примере Arenadata Hadoop 2.1.4 со Spark 3

Автор Категория , ,
Зачем Apache Hive внешняя база данных для MetaStore: смотрим на примере Arenadata Hadoop 2.1.4 со Spark 3

В июле 2021 года «Аренадата Софтвер», российская ИТ-компания разработчик отечественных решений для хранения и аналитики больших данных, представила минорный релиз корпоративного дистрибутива на базе Apache Hadoop — Arenadata Hadoop 2.1.4.…

Tez vs Spark: что выбрать для Apache Hive

Автор Категория , ,
Tez vs Spark: что выбрать для Apache Hive

Вчера мы упоминали, что использование Spark или Tez в качестве движка исполнения SQL-запросов в Apache Hive вместо классического Hadoop MapReduce намного ускоряет аналитику больших данных. Сегодня рассмотрим подробнее, чем отличаются…

Как ускорить SQL-запросы в Apache Hive: ТОП-5 методов оптимизации

Автор Категория ,
Как ускорить SQL-запросы в Apache Hive: ТОП-5 методов оптимизации

Apache Hive – востребованный инструмент класса SQL-on-Hadoop, который также активно используется в работе с фреймворком Spark. Поэтому сегодня разберем важную тему из обучения дата-инженеров и аналитиков больших данных про оптимизацию…

Зачем вам Hue или как писать SQL-запросы к Apache Spark еще проще

Автор Категория , ,
Зачем вам Hue или как писать SQL-запросы к Apache Spark еще проще

Сегодня рассмотрим инструмент, который облегчает практическое использование Apache Spark, позволяя дата-аналитику и разработчику распределенных приложений быстро писать и выполнять SQL-запросы в рамках удобного веб-редактора. Читайте далее, что такое Hue, как…

Еще 4 особенности бакетирования таблиц в Apache Spark и 7 конфигураций их настройки

Автор Категория , ,
Еще 4 особенности бакетирования таблиц в Apache Spark и 7 конфигураций их настройки

Продолжая разбирать особенности бакетирования таблиц в Apache Spark, сегодня мы рассмотрим несколько примеров, как дата-инженер и аналитик данных могут работать с этим методом оптимизации SQL-запросов. Также читайте далее, какие конфигурации…