Greenplum 6.21.0: новые фичи и исправления ошибок

Автор Категория ,
Greenplum 6.21.0: новые фичи и исправления ошибок

10 июня 2022 года вышел свежий релиз популярной MPP-СУБД. Разбираемся с улучшениями функциональных возможностей и решенными проблемами в Greenplum версии 6.21.0. Самое важное для администратора кластера и дата-инженера.

 

4 новых модуля свежего релиза

В Greenplum 6.21.0 теперь поддерживается команда SET TRANSACTION SNAPSHOT, которая устанавливает характеристики текущей транзакции, не влияя на любые последующие. SQL-команда LOCK TABLE теперь включает опцию MASTER ONLY. При включении этого параметра Greenplum блокирует таблицы только на мастере, а не на всех сегментах, что пригодится для операций только с метаданными.

Встроенный модуль gp_parallel_retrieve_cursor, добавленный в Greenplum 6.20, который обеспечивает ​​поддержку параллельного извлечения данных и по запросу непосредственно из сегментов базы данных, больше не является бета-версией, он стал полноценной поддерживаемой функцией. Аналогичное изменение сделано и для модуля greenplum_fdw, который реализует оболочку сторонних данных для доступа к данным, хранящимся в одном или нескольких внешних кластерах Greenplum. Этот модуль можно использовать совместно с командой CREATE SERVER и опцией num_segments для определения количества сегментов в удаленном кластере. Также есть возможность включить логирование  сведений о конечной точке gp_parallel_retrieve_cursor благодаря новому параметру конфигурации сервера – gp_log_endpoints.

Введен новый параметр конфигурации — gp_interconnect_address_type — для указания типа стратегии привязки адресов, используемой базой данных для связи между сокетами узла сегмента. Теперь пользователи могут указать, что Greenplum использует адрес индивидуальной рассылки, а не адрес подстановочного знака, для сокетов интерконнектов. Это снижает использование портов на узлах сегмента и предотвращает маршрутизацию трафика интерконнектов через непреднамеренные и более медленные сетевые интерфейсы.

В Greenplum 6.21.0 добавлен новый модуль gp_percentile_agg для повышения производительности генерации планов GPORCA для запросов, включающих агрегатные функции с упорядоченным набором, такие как centile_cont(), centile_disc() и median(). Включен модуль diskquota 2.0, где представлена ​​поддержка дисковых квот схемы и табличных пространств ролей, а также квот табличных пространств для каждого сегмента. Это позволяет задавать жесткие ограничения дисковой квоты во время выполнения SQL-запроса – если она будет превышена, модуль diskquota завершает запрос.

Сообщения журнала, создаваемые для проверки соединения между исполнителем и диспетчером запроса (Query Executor и Query Dispatcher), теперь содержат номер ошибки, сгенерированный получателем. Добавлена ​​поддержка алгоритма хеширования паролей SCRAM-SHA-256 и метода аутентификации клиента scram-sha-256.

Новинки Greenplum 6.21 для администратора кластера и дата-инженера

В свежем релизе введен новый параметр конфигурации сервера группы ресурсов gp_resource_group_enable_recalculate_query_mem со значением по умолчанию false. Он позволяет Greenplum вычислить максимальный объем памяти для каждого запроса на основе конфигурации памяти и количества первичных сегментов на главном хосте. Если конфигурация памяти на главном хосте и на хосте сегмента отличается, и нужно рассчитывать максимальный объем памяти на транзакцию на основе конфигурации хоста сегмента, администратору кластера следует установить для параметра gp_resource_group_enable_recalculate_query_mem значение true.

Обновлены коннектор для Apache NiFi, PgBouncer и потоковый сервер Greenplum Streaming Server (GPSS). А семейство инструментов Greenplum Magic Tool (gpmt) теперь включает инструмент gp_storage_rca_collector, который собирает артефакты, связанные с хранилищем: логи интеграционного фреймворка PXF и gpupgrade. Также этот инструмент улучшен для сбора меток времени инициализации системы, содержимого каталога /var/log/dmesg и выходных данных команд top и sar.

Для развертывания Greenplum на платформе виртуализации облачных вычислений VMware vSphere, в релизе 6.21.0 представлены следующие новые функции и изменения:

  • виртуальная машина Greenplum предоставляет сервис на главной виртуальной машине, который отслеживает процесс postmaster и перезапускает его в случае сбоя, чтобы повысить его надежность и доступность. Этот сервис включен по умолчанию. Аналогичная служба теперь работает на каждой виртуальной машине сегмента.
  • Включена поддержка vSphere7 и более поздних версий.
  • Greenplum на vSphere теперь поддерживает беззеркальные развертывания MPP-СУБД.
  • Эталонная архитектура VxRail обновлена, чтобы поддерживать передачу Ethernet-кадров по сети со скоростью 100 гигабит в секунду вместо 25. Увеличение доступной пропускной способности сети значительно повышает производительность системы хранения и обеспечивает лучшую сбалансированность по ресурсам.

Наконец, включено расширение пространственной базы данных PostGIS 2.5.4 и сборки pivotal.7.build.1, которое содержит обновленные зависимости.

Также в релизе 6.21.0 исправлено более 70 ошибок, среди которых проблема с подключениями TCP/UDP между разными подсетями, нехватка памяти во время запросов, неоптимальная работа оптимизатора SQL-запросов, рассинхронизация номера порта зеркального сегмента в postgresql.conf с номером в таблице gp_segment_configuration и прочие некорректные ситуации.

Освойте практику администрирования и эксплуатации Greenplum и Arenadata DB для эффективного хранения и аналитики больших данных на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Источники

  1. https://docs.vmware.com/en/VMware-Tanzu-Greenplum/6/greenplum-database/GUID-relnotes-release-notes.html
  2. https://github.com/greenplum-db/gpdb/releases