В рамках обучения инженеров больших данных, вчера мы рассказывали о новой версии Apache AirFlow 2.0, вышедшей в декабре 2020 года. Сегодня рассмотрим особенности перехода на этот релиз: в чем сложности…
Метка: DataOps
Apache AirFlow 2.0: что нового?
Автор Анна ВичуговаКатегория AirFlow, Статьи
В конце 2020 года вышел мажорный релиз Apache AirFlow, основные фишки которого мы рассмотрим в этой статье. Читайте далее про 10 главных обновлений Apache AirFlow 2.0, благодаря которым этот DataOps-инструмент…
Как спроектировать идеальный Big Data Pipeline: 5 главных качеств конвейера обработки больших данных с примерами
Автор Анна ВичуговаКатегория Hive, Spark, Use Cases, Статьи
В этой статье разберем ключевые характеристики идеального конвейера обработки больших данных. Читайте далее, чем отличается Big Data Pipeline, а также какие приемы и технологии помогут инженеру данных спроектировать и реализовать…
DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB
Автор Анна ВичуговаКатегория Kafka, Spark, Use Cases, Статьи
Чтобы добавить в наши курсы для дата-инженеров еще больше реальных примеров и лучших DataOps-практик, сегодня мы расскажем, как специалисты крупной норвежской компании DNB обеспечивают надежный доступ к чистым и точным…
Борьба за качество больших данных в Airbnb: 3 направления для Big Data Quality
Автор Анна ВичуговаКатегория AirFlow, Spark, Use Cases, Статьи
Аналитика больших данных напрямую связана с их качеством, которое необходимо отслеживать на каждом этапе непрерывного конвейера их обработки (Pipeline). Сегодня рассмотрим методы и средства обеспечения Data Quality на примере корпорации…
Чем отличаются Apache AirFlow и Luigi: выбираем оркестратор для Big Data Pipeline'ов
Автор Анна ВичуговаКатегория AirFlow, Hive, Статьи
Продвигая наши курсы по Apache AirFlow для инженеров Big Data, сегодня расскажем, чем этот фреймворк отличается от Luigi – другого достаточно известного инструмента оркестровки ETL-процессов и конвейеров обработки больших данных.…
Не только AirFlow: Apache Luigi и еще 3 ETL-оркестратора для Big Data Pipeline'ов
Автор Анна ВичуговаКатегория AirFlow, Machine Learning, Use Cases, Статьи
Чтобы максимально приблизить обучение Airflow к практической работе дата-инженера, сегодня мы рассмотрим, какие еще есть альтернативы для оркестрации ETL-процессов и конвейеров обработки больших данных. Читайте далее, что такое Luigi, Argo,…
Как Apache AirFlow помог Airbnb масштабировать Big Data Pipeline и управлять накладными расходами
Автор Анна ВичуговаКатегория AirFlow, Spark, Use Cases, Статьи
Вчера мы рассматривали проблему управления накладными расходами в сложных конвейерах обработки больших данных на примере использования Apache AirFlow в агрегаторе аренды частного жилья Airbnb. Сегодня разберем, как именно инженеры компании…
Что не так с Delta Lake на Apache Spark: 7 основных проблем и их решения
Автор Анна ВичуговаКатегория Hive, Spark, Статьи
При всех своих достоинствах Delta Lake, включая коммерческую реализацию этой Big Data технологии от Databricks, оно обладает рядом особенностей, которые могут расцениваться как недостатки. Сегодня мы рассмотрим, чего не стоит…
Cloudera Data Science Workbench vs Arenadata Analytic Workspace: сравнительный обзор
Автор Анна ВичуговаКатегория Cloudera, Machine Learning, Spark, Use Cases, Статьи, Цифровая трансформация
Самообслуживаемая аналитика больших данных – один из главных трендов в современном мире Big Data, который дополнительно стимулирует цифровизация. В продолжение темы про self-service Data Science и BI-системы, сегодня мы рассмотрим,…