5 способов организации ETL-процессов с Greenplum: команды и утилиты

Автор Категория ,
5 способов организации ETL-процессов с Greenplum: команды и утилиты

Мы уже рассматривали, как загрузить в Greenplum большие объемы данных. В продолжение этой важной для обучения дата-инженеров темы, сегодня разберем еще несколько инструментов, решающих задачу организации ETL-процессов с этой MPP-СУБД.…

Как связать Greenplum и Hadoop: интеграция c PXF

Автор Категория , ,
Как связать Greenplum и Hadoop: интеграция c PXF

В этой статье для дата-инженеров и администраторов кластера рассмотрим, как считать данные из распределенной файловой системы Apache Hadoop в MPP-СУБД Greenplum. Архитектура и принцип работы PXF-коннектора к HDFS с примерами…

Arenadata Postgres: краткий обзор отечественного enterprise-дистрибутива

Автор Категория ,
Arenadata Postgres: краткий обзор отечественного enterprise-дистрибутива

Продолжая разговор про импортозамещение, сегодня рассмотрим новый продукт от «Аренадата Софтвер» – разработчика широкой линейки российских решений для хранения и аналитики больших данных. Компания адаптирует открытые дистрибутивы Big Data фреймворков…

Greenplum 6.20: что нового?

Автор Категория ,
Greenplum 6.20: что нового?

15 марта 2022 года вышло очередное обновление MPP-СУБД VMware Tanzu Greenplum, в основе которой лежит одноименный open-source проект. Читайте далее, какие новые фичи добавлены в выпуск 6.20 и что за…

Не просто Apache Solr: краткий обзор Tanzu Greenplum Text

Автор Категория ,
Не просто Apache Solr: краткий обзор Tanzu Greenplum Text

Сегодня заглянем под капот Tanzu Greenplum Text: архитектура и принципы работы этого средства поиска и анализа текстов, интегрированного с популярной MPP-СУБД. Как движок наподобие Elasticsearch связывает кластер Apache Solr с…

Зачем вам GreenplumR: синергия MPP-СУБД и интерпретируемого языка для статистики

Автор Категория ,
Зачем вам GreenplumR: синергия MPP-СУБД и интерпретируемого языка для статистики

Сегодня рассмотрим, как использовать статистический язык R для анализа данных в Greenplum. Что такое GreenplumR, как работает этот интерактивный клиент, чем он полезен специалисту по Data Science и каковы недостатки…

Не только PXF: краткий обзор интеграции Greenplum с другими Big Data системами и инструменты полнотекстового поиска

Автор Категория ,
Не только PXF: краткий обзор интеграции Greenplum с другими Big Data системами и инструменты полнотекстового поиска

Мы уже рассказывали про связь Greenplum с другими источниками и приемниками данных с помощью PXF-фреймворка, а также отдельных коннекторов к некоторым системам. Сегодня рассмотрим, какие вообще есть коннекторы данных в…

Где развернуть Greenplum: программно-аппаратное окружение серверов и достоинства Arenadata DB для администратора кластера

Автор Категория ,
Где развернуть Greenplum: программно-аппаратное окружение серверов и достоинства Arenadata DB для администратора кластера

Сегодня рассмотрим пару важных тем для администратора Greenplum: требования к программно-аппаратному окружению, а также особенности установки и настройки этой MPP-СУБД. Еще разберем, как Arenadata Cluster Manager облегчает и автоматизирует эти…

Greenplum под защитой: настраиваем Kerberos

Автор Категория ,
Greenplum под защитой: настраиваем Kerberos

В этой статье для администраторов Greenplum рассмотрим, как настроить систему сетевой защиты Kerberos для этой MPP-СУБД, чтобы контролировать доступ к хранящимся в ней данным с помощью сервера аутентификации. А также…

Дыра в Apache Log4j: опасность для Hadoop, Spark, Kafka, Neo4j и других технологий Big Data

Автор Категория , , , , , ,
Дыра в Apache Log4j: опасность для Hadoop, Spark, Kafka, Neo4j и других технологий Big Data

В начале декабря 2021 года мир ИТ взволновала новость о критической уязвимости CVE-2021-44228 в библиотеке Apache Log4j. Разбираемся, что это такое и чем опасно для систем хранения и аналитики больших…