Как графовая аналитика спасла мир: Data Science vs COVID-19

Автор Категория ,
Как графовая аналитика спасла мир: Data Science vs COVID-19

На протяжении всей истории человечества пандемии являлись причинами глобальных макроэкономических изменений. Например, эпидемия чумы привела к окончательному падению монгольской империи, изменив баланс сил между мусульманским и европейским миром в пользу…

Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Автор Категория , , , , , ,
Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Чтобы добавить в наши курсы для дата-инженеров по технологиям Apache Kafka, Spark, AirFlow, NiFi, Flink и Greenplum, еще больше практических примеров, сегодня разберем кейс ритейлера Леруа Мерлен. Читайте далее, как…

Графовая аналитика больших данных с Apache Spark GraphX: что такое Pregel

Автор Категория
Графовая аналитика больших данных с Apache Spark GraphX: что такое Pregel

В рамках продвижения нашего нового курса по графовым алгоритмам на больших данных, сегодня разберем, что такое Pregel, и как API этой платформы реализован в Apache Spark GraphX. Читайте далее, как…

Потоковый конвейер обработки видео с Apache Kafka и алгоритмами Machine Learning

Автор Категория ,
Потоковый конвейер обработки видео с Apache Kafka и алгоритмами Machine Learning

Сегодня рассмотрим пример построения интеллектуальными конвейера потоковой обработки видео с Apache Kafka и алгоритмами машинного обучения. Читайте далее, зачем для этого нужен протокол RTSP, что такое библиотека Sarama и как…

От локальных заданий Apache Spark SQL к Google BigQuery: опыт PayPal

Автор Категория ,
От локальных заданий Apache Spark SQL к Google BigQuery: опыт PayPal

В этой статье для дата-инженеров рассмотрим кейс компании PayPal, которая переводит свои аналитические рабочие нагрузки из локального кластера Apache Spark в Google Cloud Processing. Читайте далее, чем это решение оказалось…

Apache Flink для пакетной и потоковой обработки Big Data в больших компаниях: примеры Pinterest и Alibaba Group

Автор Категория ,
Apache Flink для пакетной и потоковой обработки Big Data в больших компаниях: примеры Pinterest и Alibaba Group

Сегодня рассмотрим пару кейсов по использованию Apache Flink в качестве основного фреймворка пакетной и потоковой аналитики больших данных. Читайте далее, как фото-хостинг Pinterest построил вокруг Flink собственную инфраструктуру работы с…

Графовая аналитика больших данных с Apache Spark: GraphX и GraphFrames

Автор Категория ,
Графовая аналитика больших данных с Apache Spark: GraphX и GraphFrames

Продвигая наш новый курс по графовым алгоритмам на больших данных, сегодня рассмотрим, почему концепция графов сегодня так востребована в Big Data и Machine Learning. Вас ждет краткий ликбез по модулю…

Перспективы Apache Hive: развитие или забвение?

Автор Категория ,
Перспективы Apache Hive: развитие или забвение?

Появившись более 10 лет назад, Apache Hive до сих пор является самым популярным инструментом стека SQL-on-Hadoop и активно используется для аналитики больших данных. Однако, технологии Big Data постоянно развиваются: Spark…

Еще пара лучших практик конфигурирования Greenplum: настраиваем параметры операционной системы хоста

Автор Категория ,
Еще пара лучших практик конфигурирования Greenplum: настраиваем параметры операционной системы хоста

Продвигая наши курсы по Greenplum и Arenadata DB, сегодня рассмотрим пару полезных лайфхаков, как избежать избыточного потребления памяти, настроив конфигурационные параметры операционной системы хоста. Читайте далее, почему не стоит задавать…

FlowKat и Monokl: еще пара средств мониторинга за кластером Apache Kafka на базе KafkaJS

Автор Категория ,
FlowKat и Monokl: еще пара средств мониторинга за кластером Apache Kafka на базе KafkaJS

Недавно мы рассказывали про KafkaJS – клиент Apache Kafka для Node.js, который отличается небольшим размером и простым развертыванием с удобным API. Сегодня рассмотрим еще пару полезных инструментов визуализации данных о…