Оптимизация запросов JOIN в HIVE

В последних версиях HIVE пытается внедрить CBO (cost based optimizer) и JOIN одна из главных его составляющих. Понимание лучших примеров применения соединений является одним из ключевых факторов настройки производительности HIVE. Рассмотрим каждый вид соединений на примерах и определим их разницу: Shuffle Join (Common Join) – общее соединение или соединение в случайном порядке Этот вид соединений используется по умолчанию и включает map и reduce этапы Mapper: считывает таблицы и выводит пары ключ-значение соединения в промежуточный файл. Shuffle: эти пары сортируются и объединяются. Reducer: получает отсортированных данных и делает соединение. Варианты использования: Работает для таблиц любого размера, особенно, когда другие тип соединений не могут быть использованы, например, полное внешнее соединение. Недостатки: Большая ресурсоемкость, так как shuffle – дорогостоящая операция. Пример: select a.* Далее …

10-14 декабря курс «Администрирование кластера Hadoop»

Практические занятия по установке, конфигурированию и поддержке кластера под управлением Cloudera Manager, настройка безопасности Kerberos, мониторинг, восстановление, резервное копирование.   Related Posts:HDDE: Hadoop для инженеров данныхАдминистрирование кластера HadoopSPARK: Администратор кластера Apache SparkBDAM: Аналитика больших данных для руководителей