Мы уже рассматривали, как загрузить в Greenplum большие объемы данных. В продолжение этой важной для обучения дата-инженеров темы, сегодня разберем еще несколько инструментов, решающих задачу организации ETL-процессов с этой MPP-СУБД.…
Рубрика: Greenplum
Как связать Greenplum и Hadoop: интеграция c PXF
Автор Анна ВичуговаКатегория Greenplum, Hive, СтатьиВ этой статье для дата-инженеров и администраторов кластера рассмотрим, как считать данные из распределенной файловой системы Apache Hadoop в MPP-СУБД Greenplum. Архитектура и принцип работы PXF-коннектора к HDFS с примерами…
Arenadata Postgres: краткий обзор отечественного enterprise-дистрибутива
Автор Анна ВичуговаКатегория Greenplum, СтатьиПродолжая разговор про импортозамещение, сегодня рассмотрим новый продукт от «Аренадата Софтвер» – разработчика широкой линейки российских решений для хранения и аналитики больших данных. Компания адаптирует открытые дистрибутивы Big Data фреймворков…
Greenplum 6.20: что нового?
Автор Анна ВичуговаКатегория Greenplum, Статьи15 марта 2022 года вышло очередное обновление MPP-СУБД VMware Tanzu Greenplum, в основе которой лежит одноименный open-source проект. Читайте далее, какие новые фичи добавлены в выпуск 6.20 и что за…
Не просто Apache Solr: краткий обзор Tanzu Greenplum Text
Автор Анна ВичуговаКатегория Greenplum, СтатьиСегодня заглянем под капот Tanzu Greenplum Text: архитектура и принципы работы этого средства поиска и анализа текстов, интегрированного с популярной MPP-СУБД. Как движок наподобие Elasticsearch связывает кластер Apache Solr с…
Зачем вам GreenplumR: синергия MPP-СУБД и интерпретируемого языка для статистики
Автор Анна ВичуговаКатегория Greenplum, СтатьиСегодня рассмотрим, как использовать статистический язык R для анализа данных в Greenplum. Что такое GreenplumR, как работает этот интерактивный клиент, чем он полезен специалисту по Data Science и каковы недостатки…
Не только PXF: краткий обзор интеграции Greenplum с другими Big Data системами и инструменты полнотекстового поиска
Автор Анна ВичуговаКатегория Greenplum, СтатьиМы уже рассказывали про связь Greenplum с другими источниками и приемниками данных с помощью PXF-фреймворка, а также отдельных коннекторов к некоторым системам. Сегодня рассмотрим, какие вообще есть коннекторы данных в…
Где развернуть Greenplum: программно-аппаратное окружение серверов и достоинства Arenadata DB для администратора кластера
Автор Анна ВичуговаКатегория Greenplum, СтатьиСегодня рассмотрим пару важных тем для администратора Greenplum: требования к программно-аппаратному окружению, а также особенности установки и настройки этой MPP-СУБД. Еще разберем, как Arenadata Cluster Manager облегчает и автоматизирует эти…
Greenplum под защитой: настраиваем Kerberos
Автор Анна ВичуговаКатегория Greenplum, СтатьиВ этой статье для администраторов Greenplum рассмотрим, как настроить систему сетевой защиты Kerberos для этой MPP-СУБД, чтобы контролировать доступ к хранящимся в ней данным с помощью сервера аутентификации. А также…
Дыра в Apache Log4j: опасность для Hadoop, Spark, Kafka, Neo4j и других технологий Big Data
Автор Анна ВичуговаКатегория Flink, Greenplum, Hive, Kafka, Neo4j, Spark, СтатьиВ начале декабря 2021 года мир ИТ взволновала новость о критической уязвимости CVE-2021-44228 в библиотеке Apache Log4j. Разбираемся, что это такое и чем опасно для систем хранения и аналитики больших…