Зачем вам Arenadata Platform Security: ТОП-5 преимуществ корпоративного Apache Ranger для безопасности Hadoop-кластера от отечественного разработчика Big Data решений

Автор Категория ,
Зачем вам Arenadata Platform Security: ТОП-5 преимуществ корпоративного Apache Ranger для безопасности Hadoop-кластера от отечественного разработчика Big Data решений

В январе 2021 года российский разработчик решений для хранения и аналитики больших данных, компания Arenadata, представила новый продукт в линейке сервисов отечественного дистрибутива Apache Hadoop. Модуль Arenadata Platform Security обеспечивает централизованное управление групповыми политиками безопасности кластера. Разбираемся, что представляет собой эта система, как она связана с Apache Ranger и чем полезна администратору Big Data.

Что такое Arenadata Platform Security и зачем это администратору Big Data

Arenadata Platform Security (ADPS) – это сервис централизованного управления групповыми политиками безопасности кластера Apache Hadoop в составе единой корпоративной платформы сбора и хранения больших данных Arenadata Enterprise Data Platform (EDP). Дистрибутив Arenadata Hadoop является отечественным open-source продуктом и доступен в двух версиях:

  • Сommunity – для бесплатного использования через самостоятельное скачивание с официального сайта компании Arenadata;
  • Enterprise – адаптация для корпоративной эксплуатации с коммерческой поддержкой.

ADPS 1.0 поставляется как бесплатное дополнение к Enterprise-редакции последних версий дистрибутива Arenadata Hadoop 2.1 на базе релиза 3.x, про обновления которого в январе 2021 года мы писали здесь. В дальнейшем компания Arenadata планирует поставлять все компоненты для организации и настройки безопасности кластера Hadoop в рамках отдельного модуля ADPS.
Основными возможностями, которые Arenadata Platform Security предоставляет администратору Hadoop-кластера, являются следующие [1]:

  • централизованное управление безопасностью данных при работе с множеством сервисов и кластеров Arenadata Hadoop;
  • комплексный подход к организации безопасности с помощью защищенного периметра, аутентификации и авторизации пользователей, аудита пользовательских действий и защиты данных;
  • единая система обеспечения безопасности одновременно для нескольких инсталляций, кластеров и гетерогенных инфраструктур;
  • снижение эксплуатационных издержек на администрирование Big Data инфраструктуры;
  • нативная интеграция с другими решениями Arenadata и полностью автоматизированное развертывание, в т.ч. установка и настройка конфигураций, новых продуктов с помощью визуального интерфейса в оркестраторе Arenadata Cluster Manager.

Компания Arenadata планирует в ближайшее время подключить ADPS к другим компонентам EDP-платформы, таким как, Arenadata Streaming на базе Kafka и NiFi, о котором мы рассказывали в этой статье. В дальнейшем ADPS станет отдельной зонтичной надстройкой для управления безопасностью всех компонентов корпоративной платформы сбора и хранения данных Arenadata Enterprise Data Platform.

В основе ADPS лежит Apache Ranger — инфраструктура для мониторинга и управления комплексной безопасностью данных на платформе Hadoop. Подробнее о возможностях Apache Ranger мы поговорим далее, а пока отметим обновления Arenadata Hadoop 2.1 с модулем Platform Security [1]:

  • обновление Ranger для поддержки Apache Hadoop 3.1, Hive 3.0, Hbase2.0, Kafka 2.0.0 и Ozone;
  • поддержка плагина для включения, мониторинга и управления Elasticsearch;
  • зоны безопасности в Apache Ranger;
  • поддержка доверенного прокси;
  • интеграция KeySecure HSM;
  • поддержка пользовательских условий на уровне политики.
  • улучшения поддержки ролей в политиках Ranger и плагина Hive для поддержки SQL.

Как Apache Ranger обеспечивает безопасность Hadoop-кластера

Напомним, за комплексное управление безопасностью Hadoop-кластером отвечает инфраструктура Apache Ranger, которая обеспечивает [2]:

  • централизованное администрирование задач безопасности в интерфейсе пользователя или через REST API;
  • центральное управление политиками контроля доступак данным – файлам, папкам, СУБД, таблицам и столбцам в HDFS, Hive и Hbase, Knox, Solr, Kafka, и YARN;
  • аутентификацию пользователей, в т.ч. через LDAP/AD;
  • стандартизированный метод детальной авторизациипользователей для работы со всеми всех компонентами платформы Hadoop, включая RBAC, сопоставление групп с LDAP/AD, управление доступом на основе атрибутов и прочие расширенные настройки;
  • мониторингзапросов доступа к данным в режиме реального времени.

Поскольку Apache Ranger хранит политики безопасности в реляционной СУБД, нужно настроить конфигурации используемой базы данных, например, так [3]:

  • в случае MySQL машина для хранения таблиц политики администратора Ranger должна поддерживать транзакции, как это делает InnoDB;
  • при использовании PostgreSQL Server на сервере Amazon RDS пользователь базы данных Ranger  с ролью CREATEDB должен быть создан до его установки;
  • для Oracle из-за ограничений Amazon RDS нужно вручную создать пользователя базы данных Rangerи табличного пространства, и предоставить ему необходимые привилегии;
  • коннектор или JDBC-драйвер Oracle для соединения с базой данных Ranger должны находиться в папке общего доступа Java.

А для хранения журналов аудита и поиска по ним в пользовательском интерфейсе Ranger использует платформу полнотекстового поиска Apache Solr, подобную Elasticsearch. Solr должен быть установлен и настроен до инсталляции Ranger [3]

Больше деталей по администрированию и эксплуатации Hadoop-кластеров, в т.ч. в рамках платформы Arenadata, для эффективной аналитики больших данных вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Источники

  1. https://arenadata.tech/about/news/arenadata-platform-security/
  2. https://ranger.apache.org/
  3. https://docs.arenadata.io/adh/v1.4.1/security/authorization.html