Анализ данных временных рядов с Apache Spark: пара примеров c Flint и Pandas

Автор Категория ,
Анализ данных временных рядов с Apache Spark: пара примеров c Flint и Pandas

В этой статье для дата-инженеров и аналитиков рассмотрим пример мониторинга состояния электрогенераторов с помощью анализа данных временных рядов и ранжирования в pandas для предупреждения выхода оборудования из строя. А также…

Лямбда-архитектура IoT-системы на Apache Kafka, Flink и Cassandra

Автор Категория , ,
Лямбда-архитектура IoT-системы на Apache Kafka, Flink и Cassandra

Добавляя в наши курсы для дата-инженеров интересные кейсы, сегодня рассмотрим, как реализовать Лямбда-архитектуру для комплексной аналитики больших данных с помощью Apache Flink, Kafka и Cassandra на примере системы интернета вещей.…

Потоковая аналитика больших данных в Grafana с Apache Kafka, Flink и SQL Stream Builder

Автор Категория , , , ,
Потоковая аналитика больших данных в Grafana с Apache Kafka, Flink и SQL Stream Builder

Сегодня рассмотрим, как построить конвейер потоковой обработки событий на Apache Kafka, Flink и SQL Stream Builder с визуализацией результатов в Grafana. Далее вас ждет практический кейс применения технологий Big Data…

Сложная обработка событий от IoT-устройств в Apache Kafka: кейс Tesla

Автор Категория , ,
Сложная обработка событий от IoT-устройств в Apache Kafka: кейс Tesla

Завершая серию статей по IoT-платформе компании Tesla на базе Apache Kafka, сегодня рассмотрим проблемы пиковой загрузки системы и особенности обработки высокоприоритетных событий. Читайте далее, как оптимально определить ключ раздела, чтобы…

Аналитика слишком больших данных в IoT-инфраструктуре Tesla c Apache Kafka, Alpakka и Akka Streams

Автор Категория ,
Аналитика слишком больших данных в IoT-инфраструктуре Tesla c Apache Kafka, Alpakka и Akka Streams

Мы уже упоминали, что Apache Kafka не слишком хорошо обрабатывает сообщения чрезмерно большого размера. Сегодня рассмотрим, как эта проблема решается в конвейерах потоковой обработки IoT-инфраструктуры Tesla. Читайте далее про модификацию…

Безопасность в режиме онлайн: SIEM-система на базе Apache NiFi от Cloudera

Автор Категория , , ,
Безопасность в режиме онлайн: SIEM-система на базе Apache NiFi от Cloudera

В этой статье для дата-инженеров рассмотрим, что такое Cloudera Flow Management и как это позволяет ускорить аналитику больших данных в кейсах информационной безопасности. Читайте далее о преимуществах SIEM-анализа, преобразования и…

Управление множеством IoT-устройств в Tesla на платформе Apache Kafka: организация топиков и парсинг сообщений

Автор Категория , , ,
Управление множеством IoT-устройств в Tesla на платформе Apache Kafka: организация топиков и парсинг сообщений

Продолжая разбирать кейс компании Tesla по организации централизованного управления устройствами интернета вещей (Internet of Things, IoT), сегодня разберем, как выполняется обработка сообщений в топиках Apache Kafka с помощью Confluent Schema…

Миллион проблем IoT и Apache Kafka для их решения: опыт Tesla

Автор Категория , ,
Миллион проблем IoT и Apache Kafka для их решения: опыт Tesla

Являясь лидером отрасли, IoT-устройства Tesla обрабатывают триллионы событий в день, чтобы повысить эффективность своих электроавтомобилей. Однако, такая производительность была получена не сразу: чтобы достичь ее, инженерам компании пришлось решить множество…

Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD

Автор Категория , ,
Почему stateful-приложения Apache Flink падают в AWS: RocksDB и IOPS облачных SSD

Продолжая разбирать особенности разработки потоковых приложений Apache Flink, сегодня рассмотрим проблему падения пропускной способности задания из-за встроенного хранилища состояний RocksDB и ее зависимость от производительности дисков. Вас ждет настоящая детективная…

Зачем вам Apache Livy или как скрестить Spark с Airflow для эффективных Big Data pipeline’ов

Автор Категория , , , ,
Зачем вам Apache Livy или как скрестить Spark с Airflow для эффективных Big Data pipeline’ов

Сегодня поговорим про построение конвейеров обработки данных (data pipeline) на примере совместного использования Apache Spark с Airflow и рассмотрим типовые проблемы этой комбинации. Читайте в нашей статье, как автоматизировать задачи…