Apache NiFi для всех: Cloudera Flow Management в публичном облаке

Автор Категория , ,
Apache NiFi для всех: Cloudera Flow Management в публичном облаке

Чтобы сделать наши курсы по Apache NiFi для дата-инженеров еще более полезными, сегодня рассмотрим новые возможности последнего релиза Cloudera Flow Management 2.1.1 на базе этого фреймворка. Выпущенная в апреле 2021…

Аналитика больших данных: цифровая трансформация Renault с Apache Spark и сервисами Google

Автор Категория , ,
Аналитика больших данных: цифровая трансформация Renault с Apache Spark и сервисами Google

Сегодня разберем кейс компании Renault по масштабированию своей цифровой платформы и снижению затрат с помощью BigQuery и Apache Spark на Google Dataproc. Цифровизация в автомобильной промышленности: конвейер сбора и аналитики…

Тонкости потоковой передачи данных в BigQuery из Apache Kafka и Spark: 5 неочевидных особенностей

Автор Категория , ,
Тонкости потоковой передачи данных в BigQuery из Apache Kafka и Spark: 5 неочевидных особенностей

В рамках курсов для дата-инженеров и разработчиков распределенных приложений, сегодня рассмотрим пример построения системы потоковой передачи для аналитики больших данных на базе Apache Kafka, Spark и Google BigQuery. Читайте далее…

Еще больше потоковой аналитики Big Data с Kafka Streams: обработка больших сообщений

Автор Категория ,
Еще больше потоковой аналитики Big Data с Kafka Streams: обработка больших сообщений

Сегодня рассмотрим проблему обработки больших сообщений в Apache Kafka Streams и способы ее решения с помощью средства сериализации и десериализации (SerDe) от немецкой ИТ-компании Bakdata. Узнайте, почему максимального лимита конфигурации…

Как повысить эффективность Apache Airflow в 3 раза с помощью прокси-сервера RDS

Автор Категория , ,
Как повысить эффективность Apache Airflow в 3 раза с помощью прокси-сервера RDS

Увеличение пропускной способности и повышение скорости обработки данных на любой Big Data платформе при приемлемых затратах – одна из главных задач дата-инженера. Сегодня мы рассмотрим, как улучшить производительность множества экземпляров…

Real-time аналитика больших данных о сетевом трафике с Apache Kafka и Spark

Автор Категория , , ,
Real-time аналитика больших данных о сетевом трафике с Apache Kafka и Spark

Продолжая добавлять в наши практические курсы по Apache Kafka и Spark еще больше интересных примеров, сегодня рассмотрим, как с помощью этих технологий Big Data анализировать метаданные сетевых потоков в реальном…

Что такое Apache Sedona или GeoSpark: Spark-фреймворк для обработки пространственных геоданных

Автор Категория ,
Что такое Apache Sedona или GeoSpark: Spark-фреймворк для обработки пространственных геоданных

Сегодня поговорим про обработку геопространственных данных с Apache Spark и рассмотрим, что такое Apache Sedona, как этот фреймворк связан с GeoSpark, какие форматы и структуры данных он поддерживает. Читайте далее…

Аналитика больших данных с JSON и AVRO в Apache Kafka: кейс компании Mobimeo

Автор Категория , ,
Аналитика больших данных с JSON и AVRO в Apache Kafka: кейс компании Mobimeo

Чтобы добавить в наши практические курсы по Apache Kafka еще больше интересных примеров, сегодня рассмотрим кейс немецкой ИТ-компании Mobimeo, которая несколько раз перекраивала свою систему аналитики больших данных, чтобы быстро…

3 оператора Apache Airflow для контейнерных конвейеров данных

Автор Категория ,
3 оператора Apache Airflow для контейнерных конвейеров данных

Совмещение Airflow с Kubernetes уже становится стандартом де-факто для дата-инженеров. Недавно мы рассказывали про 3 популярные среды развертывания и сопровождения этого ETL-фреймворка в Kubernetes. Продолжая эту тему, сегодня рассмотрим, какие…

Где развернуть Apache AirFlow: 3 инфраструктуры для дата-инженера

Автор Категория ,
Где развернуть Apache AirFlow: 3 инфраструктуры для дата-инженера

Для практического использования Apache Airflow в production дата-инженеру необходимо не только обучение основам работы с этим фреймворком, но и знания о базовой инфраструктуре его развертывания. Поэтому сегодня поговорим о 3-х…