Оптимизация запросов JOIN в HIVE

В последних версиях HIVE пытается внедрить CBO (cost based optimizer) и JOIN одна из главных его составляющих. Понимание лучших примеров применения соединений является одним из ключевых факторов настройки производительности HIVE. Рассмотрим каждый вид соединений на примерах и определим их разницу: Shuffle Join (Common Join) – общее соединение или соединение в случайном порядке Этот вид соединений используется по умолчанию и включает map и reduce этапы Mapper: считывает таблицы и выводит пары ключ-значение соединения в промежуточный файл. Shuffle: эти пары сортируются и Далее …