Хотя Apache Kafka является надежной платформой потоковой обработки событий, что особенно важно для распределенных приложений, отказы случаются и в ней. Сегодня разберем важную для обучения разработчиков и дата-инженеров тему про…
Метка: облака
Бессерверный Apache Spark в Google Dataproc
Автор Анна ВичуговаКатегория AirFlow, Spark, СтатьиНедавно в Google Dataproc появился бессерверный Apache Spark. Разбираемся, что это такое и зачем нужно дата-инженерам. Как работает serverless Spark в облачной платформе Google и почему выбирать между Dataflow и…
Вместо Tableau и Power BI: DataLens от Яндекса на примере внедрения в KazanExpress
Автор Анна ВичуговаКатегория Kafka, Use Cases, СтатьиНедавно мы писали про Yandex Managed Service for Apache Kafka. Продолжая тему импортозамещения, сегодня рассмотрим, как этот и другие полностью управляемые сервисы Яндекса помогли отечественному маркетплейсу KazanExpress построить эффективное BI-решение. Что…
Самообслуживаемый ETL-конвейер с Apache Airflow и Amazon Athena: кейс hipages
Автор Анна ВичуговаКатегория AirFlow, СтатьиСегодня разберем опыт австралийской ИТ-компании hipages по построению самообслуживаемого ETL-конвейера с Apache Airflow и Amazon Athena, призванного обеспечить высокое качество данных и облегчить дата-инженерам управление информационными активами. Изящное решение сложных проблем…
Apache Kafka в облаках: краткий обзор управляемых сервисов
Автор Анна ВичуговаКатегория Kafka, СтатьиВ свете импортозамещения сегодня рассмотрим российские альтернативы облачных управляемых сервисов для развертывания Apache Kafka. Сравнение отечественных Yandex Managed Service for Apache Kafka и VK Cloud Solutions Big Data с зарубежным…
MLOps и переносимость ML-моделей с помощью ONNX и Apache Spark
Автор Анна ВичуговаКатегория Machine Learning, Spark, СтатьиОбучая специалистов по Data Science, аналитиков и инженеров данных лучшим практикам MLOps, сегодня поговорим про переносимость моделей машинного обучения между разными этапами жизненного цикла ML-систем, от разработки до развертывания в…
Спотовые инстансы в AWS EMR для Spark-конвейеров: достоинства, недостатки и лучшие практики
Автор Анна ВичуговаКатегория Spark, СтатьиКак снизить затраты на AWS EMR, сохранив эффективность Spark-конвейеров обработки данных на спотовых инстансах и других типах узлов облачного кластера. Также рассмотрим, что такое прерываемые виртуальные машины в Яндекс.Облаке и…
Побег от Cassandra в AWS S3 c Apache Spark: кейс сервиса Strava
Автор Анна ВичуговаКатегория NoSql, Spark, СтатьиВ этой статье для дата-инженеров и разработчиков распределенных приложений потоковой аналитики больших данных разберем пример перевода сервиса Strava с кластера Cassandra в облачное хранилище AWS S3 и какую роль в…
MLOps на AirFlow, MLFlow и сервисах AWS с экономией на облачном кластере за счет Spark 3
Автор Анна ВичуговаКатегория AirFlow, Machine Learning, Spark, СтатьиВ рамках обучения дата-инженеров и ML-специалистов лучшим практикам MLOps, сегодня рассмотрим практический пример построения конвейера машинного обучения на Airflow, MLFlow, SageMaker и других сервисах Amazon. А также как Apache Spark…
Доступ к пользовательским JAR из Spark-заданий на AWS EMR
Автор Анна ВичуговаКатегория Spark, СтатьиВ рамках обучения разработчиков распределенных Spark-приложений, сегодня рассмотрим, как добавить функции из пользовательских JAR-файлов в кластер AWS EMR. Достоинства и недостатки действия начальной загрузки EMR с переопределением конфигурации Spark, а…