Сложности перехода: 3 проблемы миграции на Apache AirFlow 2.0 и их решения

курсы по Airflow, Apache Airflow для дата-инженеров, обучение Apache Airflow, курсы для инженеров больших данных, инженерия больших данных обучение, курсы дата-инженер Airflow

В рамках обучения инженеров больших данных, вчера мы рассказывали о новой версии Apache AirFlow 2.0, вышедшей в декабре 2020 года. Сегодня рассмотрим особенности перехода на этот релиз: в чем сложности миграции и как их решить. Читайте далее про сохранение кастомизированных настроек, тонкости работы с базой метаданных и конфигурацию для развертывания тестовой среды. Нельзя просто так взять и перейти на Apache AirFlow 2.0 Рассмотрим кейс американской ИТ-компании Lirio, которая специализируется на применении методов искусственного интеллекта для облегчения коммуникаций с людьми, имеющих проблемы (особенности) физического или ментального здоровья [1]. Разумеется, когда речь идет о машинном обучении и обработке больших объемов информации, в работу вступают технологии Big Data. Оставив за рамкой этой статьи интересную архитектуру и принципы работы приложений Lirio, погрузимся в инженерию Далее …

Apache AirFlow 2.0: что нового?

курсы по Airflow, Apache Airflow для дата-инженеров, обучение Apache Airflow, курсы для инженеров больших данных, инженерия больших данных обучение, курсы дата-инженер Airflow

В конце 2020 года вышел мажорный релиз Apache AirFlow, основные фишки которого мы рассмотрим в этой статье. Читайте далее про 10 главных обновлений Apache AirFlow 2.0, благодаря которым этот DataOps-инструмент для пакетных заданий обработки Big Data стал еще лучше. 10 главных обновлений Apache AirFlow 2.0 Напомним, разработанный в 2014 году в компании Airbnb, через 2 года AirFlow был передан в фонд Apache Software Foundation. С 2019 года этот фреймворк официально стал проектом Apache 1-го уровня. Об основных функциональных возможностях Apache Airflow с примерами практического использования мы рассказывали здесь, а разбору основных достоинствах и недостатках этого DataOps-инструмента автоматизации повторяющихся batch-задач обработки больших данных посвятили эту статью. Полный список изменений в новой версии Airflow, вышедшей в декабре 2020 года, составил около 3000 Далее …

Как спроектировать идеальный Big Data Pipeline: 5 главных качеств конвейера обработки больших данных с примерами

инженерия больших данных, обучение инженеров данных, курсы по инженерии Big Data, курсы Hadoop, курсы Spark, курсы Hive, курсы HBase, обучение Hadoop, обучение Spark, обучение Hive, обучение HBase,Big Data, Большие данные, обработка данных, архитектура, DataOps, Spark, DevOps, Hadoop, Hive, HBase, ETL

В этой статье разберем ключевые характеристики идеального конвейера обработки больших данных. Читайте далее, чем отличается Big Data Pipeline, а также какие приемы и технологии помогут инженеру данных спроектировать и реализовать его наиболее эффективным образом. В качестве практического примера рассмотрим кейс британской компании кибербезопасности Panaseer, которой удалось в 10 раз сократить цикл разработки и тестирования ETL-конвейеров на компонентах экосистемы Apache Hadoop: Hive, HBase и Spark. На чем стоит инженерия больших данных: 5 принципов проектирования конвейеров Современный Data Engineering – это гораздо больше, чем просто перемещения данных из одного места в другое или операции ETL (Extract-Transform-Load). Инженерия больших данных включает их моделирование, интеграция, конфигурирование СУБД, файловых и других хранилищ, проектирование и реализацию DWH, ETL-конвейеры, внедрение идей CI/CD для данных и прочие DataOps-практики. Далее …

DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

обучение инженеров данных, курсы по инженерии больших данных, Data Engineer курсы, инженер Big Data обучение, Big Data, Большие данные, обработка данных, архитектура, DataOps, DWH, Kafka, Delta Lake, Data Lake, NiFi, Spark

Чтобы добавить в наши курсы для дата-инженеров еще больше реальных примеров и лучших DataOps-практик, сегодня мы расскажем, как специалисты крупной норвежской компании DNB обеспечивают надежный доступ к чистым и точным массивам Big Data, применяя передовые методы проектирования данных и реализации конвейеров их обработки. В этой статье мы собрали для вас 10 лучших практик современной инженерии больших данных, которые позволят эффективно управлять data pipeline’ами и повысить качество данных. Бизнес-контекст: архитектура конвейера обработки данных в DNB DNB ASA – это крупнейшая финансовая группа в Норвегии, 34% которой принадлежит министерству торговли и промышленности этой страны. Корпорация включает целую группу предприятий: инвестиционный банк, страховую компанию, агентство недвижимости и др. [1]. Для DNB управление на основе данных (data-driven management) является обязательным залогом успешной деятельности. Поэтому Далее …

Борьба за качество больших данных в Airbnb: 3 направления для Big Data Quality

аналитика больших данных курсы, обучение ИТ-архитекторов, архитектура больших данных курсы, обучение архитектуре данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, DataOps, DWH

Аналитика больших данных напрямую связана с их качеством, которое необходимо отслеживать на каждом этапе непрерывного конвейера их обработки (Pipeline). Сегодня рассмотрим методы и средства обеспечения Data Quality на примере корпорации Airbnb. Читайте далее про лучшие практики повышения качества больших данных от компании-разработчика самого популярного DataOps-инструмента в мире Big Data, Apache Airflow. Как все начиналось: эволюция Data Quality в Airbnb Мы уже писали, что такое качество данных (Data Quality) и как дата-стюарды помогают владельцам данных держать его на приемлемом уровне в рамках отдельного бизнес-подразделения. Однако, это не единственная практика Data Governance/Management, которая может повысить качество данных. Проблема качества больших данных является комплексной и охватывает, как минимум 3 стороны: организационную, архитектурную и техническую. Именно эти аспекты, прежде всего, выделяет известная data-driven компания Далее …

Чем отличаются Apache AirFlow и Luigi: выбираем оркестратор для Big Data Pipeline’ов

Apache Luigi vs AirFlow, курсы Airflow, обучение Airflow, обучение инженеров данных, инженерия данных, Big Data, Большие данные, обработка данных, Airflow, DataOps, Python, , ETL

Продвигая наши курсы по Apache AirFlow для инженеров Big Data, сегодня расскажем, чем этот фреймворк отличается от Luigi – другого достаточно известного инструмента оркестровки ETL-процессов и конвейеров обработки больших данных. В этой статье мы собрали для вас сходства и отличия Apache AirFlow и Luigi, а также их достоинства и недостатки, особенно важные для дата-инженера. Немного истории: как появились Apache AirFlow и Luigi Вчера мы упоминали, что функциональные возможности и популярность Apache AirFlow и Luigi находятся примерно на одном уровне. Однако, на конец 2020 года именно Apache AirFlow считается ведущим DataOps-инструментом для автоматизированной оркестрации конвейеров обработки больших данных (Big Data Pipeline). Это обусловлено его ориентацией на крупные production-решения и рядом других достоинств. Разработанный в 2014 году в компании Airbnb, через 2 Далее …

Не только AirFlow: Apache Luigi и еще 3 ETL-оркестратора для Big Data Pipeline’ов

курсы Airflow, обучение Airflow, обучение инженеров данных, инженерия данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование, Spark, DataOps, MLOps, Python, Kubernetes, DevOps, ETL

Чтобы максимально приблизить обучение Airflow к практической работе дата-инженера, сегодня мы рассмотрим, какие еще есть альтернативы для оркестрации ETL-процессов и конвейеров обработки больших данных. Читайте далее, что такое Luigi, Argo, MLFlow и KubeFlow, где и как они используются, а также почему Apache Airflow все равно остается лучшим инструментом для оркестрации заданий в области Big Data.   Еще раз об оркестрации задач в Big Data и Machine Learning: что это такое и зачем нужно Обычно развитие data—driven инициатив начинается с ручного управления задачами. Например, для машинного обучения (Machine Learning) это будут процессы очистки данных, обучения моделей, отслеживание результатов и развертывание решений на рабочем сервере (production). Эти процедуры растут и усложняются по мере увеличения команды и продвижения самого продукта.  В частности, растет Далее …

Как Apache AirFlow помог Airbnb масштабировать Big Data Pipeline и управлять накладными расходами

курсы по Apache AirFlow, обучение инженеров данных, обучение Apache AirFlow, Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование, Spark, DataOps

Вчера мы рассматривали проблему управления накладными расходами в сложных конвейерах обработки больших данных на примере использования Apache AirFlow в агрегаторе аренды частного жилья Airbnb. Сегодня разберем, как именно инженеры компании решили проблему роста накладных расходов, отделив бизнес-логику от логики оркестрации в конвейерах Spark-заданий. Читайте далее про принципы проектирования Big Data Pipeline’ов в соответствии с лучшими практиками DataOps. Как спроектировать Data Pipeline: отличия бизнес-логики от логики оркестрации Обычно конвейеры обработки данных отражают структуру базового приложения. При этом можно попасть в ситуацию, когда задания отправляются в кластер через скрипт Spark-submit, предоставляемый Apache Spark. Скрипту нужно предоставить класс, который соответствует одной задаче в конвейере. Как правило, классы разрабатываются в соответствии с традиционными принципами программной инженерии, выполняя одну операцию преобразования с узкой областью видимости. Далее …

Что не так с Delta Lake на Apache Spark: 7 основных проблем и их решения

Spark, архитектура, обработка данных, большие данные, Big Data, Hadoop, Data Lake, Hive, SQL, NoSQL, MLOps, DataOps, Delta Lake, обучение Apache Spark, курсы по Spark

При всех своих достоинствах Delta Lake, включая коммерческую реализацию этой Big Data технологии от Databricks, оно обладает рядом особенностей, которые могут расцениваться как недостатки. Сегодня мы рассмотрим, чего не стоит ожидать от этого быстрого облачного хранилище для больших данных на Apache Spark и как можно обойти эти ограничения. Читайте далее, как реализовать потоковое чтение и запись данных при отсутствии Sqoop, что делать для изменения типа столбца и при чем тут Hive. Не все так просто или ключевые особенности Delta Lake Подчеркнем, что облачное Delta Lake располагается поверх корпоративной системы хранения данных, но не заменяет ее, а добавляет возможность работать с ACID-транзакциями в Hadoop HDFS, BLOB-объекты Azure и Amazon S3. Загрузка информации в Delta Lake возможна из любой системы хранения, которая Далее …

Cloudera Data Science Workbench vs Arenadata Analytic Workspace: сравнительный обзор

предиктивная аналитика, архитектура, обработка данных, Big Data, большие данные, Hadoop, Arenadata, цифровизация, цифровая трансформация, Spark, DataOps, Docker, Kubernetes, Zeppelin

Самообслуживаемая аналитика больших данных – один из главных трендов в современном мире Big Data, который дополнительно стимулирует цифровизация. В продолжение темы про self-service Data Science и BI-системы, сегодня мы рассмотрим, что такое Cloudera Data Science Workbench и чем это зарубежный продукт отличается от отечественного Arenadata Analytic Workspace на базе Apache Zeppelin. Что такое Cloudera Data Science Workbench и кто этим пользуется По аналогии с российским решением Arenadata Analytic Workspace на основе open-source продукта Apache Zeppelin, Cloudera Data Science Workbench поддерживает концепцию самообслуживаемого сервиса для непрерывного цикла аналитики Big Data в корпоративных масштабах. Он позволяет управлять собственными DataOps-конвейерами, ускоряя проекты машинного обучения от исследования до промышленной эксплуатации, включая поддержку R, Python и Scala для безопасного выполнения вычислений с данными в кластерах Далее …