Сложности перехода: 3 проблемы миграции на Apache AirFlow 2.0 и их решения

Автор Категория , ,
Сложности перехода: 3 проблемы миграции на Apache AirFlow 2.0 и их решения

В рамках обучения инженеров больших данных, вчера мы рассказывали о новой версии Apache AirFlow 2.0, вышедшей в декабре 2020 года. Сегодня рассмотрим особенности перехода на этот релиз: в чем сложности…

Apache AirFlow 2.0: что нового?

Автор Категория ,
Apache AirFlow 2.0: что нового?

В конце 2020 года вышел мажорный релиз Apache AirFlow, основные фишки которого мы рассмотрим в этой статье. Читайте далее про 10 главных обновлений Apache AirFlow 2.0, благодаря которым этот DataOps-инструмент…

Как спроектировать идеальный Big Data Pipeline: 5 главных качеств конвейера обработки больших данных с примерами

Автор Категория , , ,
Как спроектировать идеальный Big Data Pipeline: 5 главных качеств конвейера обработки больших данных с примерами

В этой статье разберем ключевые характеристики идеального конвейера обработки больших данных. Читайте далее, чем отличается Big Data Pipeline, а также какие приемы и технологии помогут инженеру данных спроектировать и реализовать…

DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

Автор Категория , , ,
DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

Чтобы добавить в наши курсы для дата-инженеров еще больше реальных примеров и лучших DataOps-практик, сегодня мы расскажем, как специалисты крупной норвежской компании DNB обеспечивают надежный доступ к чистым и точным…

Борьба за качество больших данных в Airbnb: 3 направления для Big Data Quality

Автор Категория , , ,
Борьба за качество больших данных в Airbnb: 3 направления для Big Data Quality

Аналитика больших данных напрямую связана с их качеством, которое необходимо отслеживать на каждом этапе непрерывного конвейера их обработки (Pipeline). Сегодня рассмотрим методы и средства обеспечения Data Quality на примере корпорации…

Чем отличаются Apache AirFlow и Luigi: выбираем оркестратор для Big Data Pipeline'ов

Автор Категория , ,
Чем отличаются Apache AirFlow и Luigi: выбираем оркестратор для Big Data Pipeline'ов

Продвигая наши курсы по Apache AirFlow для инженеров Big Data, сегодня расскажем, чем этот фреймворк отличается от Luigi – другого достаточно известного инструмента оркестровки ETL-процессов и конвейеров обработки больших данных.…

Не только AirFlow: Apache Luigi и еще 3 ETL-оркестратора для Big Data Pipeline'ов

Автор Категория , , ,
Не только AirFlow: Apache Luigi и еще 3 ETL-оркестратора для Big Data Pipeline'ов

Чтобы максимально приблизить обучение Airflow к практической работе дата-инженера, сегодня мы рассмотрим, какие еще есть альтернативы для оркестрации ETL-процессов и конвейеров обработки больших данных. Читайте далее, что такое Luigi, Argo,…

Как Apache AirFlow помог Airbnb масштабировать Big Data Pipeline и управлять накладными расходами

Автор Категория , , ,
Как Apache AirFlow помог Airbnb масштабировать Big Data Pipeline и управлять накладными расходами

Вчера мы рассматривали проблему управления накладными расходами в сложных конвейерах обработки больших данных на примере использования Apache AirFlow в агрегаторе аренды частного жилья Airbnb. Сегодня разберем, как именно инженеры компании…

Что не так с Delta Lake на Apache Spark: 7 основных проблем и их решения

Автор Категория , ,
Что не так с Delta Lake на Apache Spark: 7 основных проблем и их решения

При всех своих достоинствах Delta Lake, включая коммерческую реализацию этой Big Data технологии от Databricks, оно обладает рядом особенностей, которые могут расцениваться как недостатки. Сегодня мы рассмотрим, чего не стоит…

Cloudera Data Science Workbench vs Arenadata Analytic Workspace: сравнительный обзор

Автор Категория , , , , ,
Cloudera Data Science Workbench vs Arenadata Analytic Workspace: сравнительный обзор

Самообслуживаемая аналитика больших данных – один из главных трендов в современном мире Big Data, который дополнительно стимулирует цифровизация. В продолжение темы про self-service Data Science и BI-системы, сегодня мы рассмотрим,…