В этой статье для дата-инженеров рассмотрим пример конвейера анализа потокового видео с Youtube-каналов на Kafka, Spark Streaming и Elasticsearch c Kibana, связанных через процессоры Apache NiFi. Постановка задачи: ETL-конвейер анализа…
Метка: Elasticsearch
Не только PXF: краткий обзор интеграции Greenplum с другими Big Data системами и инструменты полнотекстового поиска
Автор Анна ВичуговаКатегория Greenplum, СтатьиМы уже рассказывали про связь Greenplum с другими источниками и приемниками данных с помощью PXF-фреймворка, а также отдельных коннекторов к некоторым системам. Сегодня рассмотрим, какие вообще есть коннекторы данных в…
Дыра в Apache Log4j: опасность для Hadoop, Spark, Kafka, Neo4j и других технологий Big Data
Автор Анна ВичуговаКатегория Flink, Greenplum, Hive, Kafka, Neo4j, Spark, СтатьиВ начале декабря 2021 года мир ИТ взволновала новость о критической уязвимости CVE-2021-44228 в библиотеке Apache Log4j. Разбираемся, что это такое и чем опасно для систем хранения и аналитики больших…
Arenadata LogSearch: российская enterprise-адаптация Elasticsearch
Автор Анна ВичуговаКатегория Use Cases, СтатьиВ октябре 2021 года российская компания «Аренадата Софтвер» выпустила новый продукт для аналитики больших данных под брендом Arenadata. Что такое Arenadata LogSearch (ADLS), при чем здесь Elasticsearch и какие потребности…
Масштабируемая индексация Apache HBase почти в реальном времени: кейс Pinterest
Автор Анна ВичуговаКатегория HBase, Use Cases, СтатьиОбучая дата-инженеров и разработчиков распределенных приложений для аналитики больших данных, сегодня рассмотрим кейс компании Pinterest по построению масштабируемого решения для индексации записей в Apache HBase. Чем хранилище Ixia отличается от…
Потоковая аналитика больших данных на Flink SQL и Redpanda вместо Apache Spark с Kafka
Автор Анна ВичуговаКатегория Flink, Kafka, Spark, СтатьиВ продолжение недавней статьи для дата-инженеров про альтернативные платформы потоковой передачи событий вместо Apache Kafka, сегодня рассмотрим пример аналитики больших данных средствами Flink SQL, записи результатов в Elasticsearch и их…
Кейс потоковой аналитики больших данных с Apache Kafka, Spark (Flink) и BI-системами
Автор Анна ВичуговаКатегория Flink, Greenplum, Kafka, Machine Learning, Spark, Use Cases, СтатьиСегодня рассмотрим пример построения системы потоковой аналитики больших данных на базе Apache Kafka, Spark, Flink, NoSQL-СУБД, BI-системой Tableau или визуализацией в Kibana. Читайте далее, кому и зачем исследовать Twitter-посты в…
ОЗУ, Kafka и Logstash для решения IOPS-проблемы в кластере Apache NiFi
Автор Анна ВичуговаКатегория Kafka, NiFi, СтатьиВ рамках обучения дата-инженеров, сегодня рассмотрим проблему роста числа операций ввода-вывода в секунду (IOPS) при обработке большого количества данных в потоках Apache NiFi и способы ее решения. Читайте далее, как…
Зачем вам Arenadata Platform Security: ТОП-5 преимуществ корпоративного Apache Ranger для безопасности Hadoop-кластера от отечественного разработчика Big Data решений
Автор Анна ВичуговаКатегория Новости, СтатьиВ январе 2021 года российский разработчик решений для хранения и аналитики больших данных, компания Arenadata, представила новый продукт в линейке сервисов отечественного дистрибутива Apache Hadoop. Модуль Arenadata Platform Security обеспечивает…
Как читать медицинские снимки с Apache Spark: Big Data библиотека для быстрой обработки DICOM-файлов
Автор Анна ВичуговаКатегория Kafka, Machine Learning, Spark, Use Cases, СтатьиПродвигая наши курсы для разработчиков Spark с примерами реальных систем аналитики больших данных, сегодня рассмотрим библиотеку для чтения файлов формата DICOM от индийской компании Abzooba. Читайте далее, как автоматизировать поиск…