От open-source до Confluent: 3 клиента Python для Apache Kafka

курсы по Apache Kafka, Kafka обучение, обучение большим данным, Кафка для разработчиков, Apache Kafka for developers, Apache Kafka Python, обработка данных, большие данные, Big Data, Kafka, Python, librdkafka, PyKafka, Kafka-Python

Развивая наш новый курс по Apache Kafka для разработчиков, сегодня мы рассмотрим 3 способа о взаимодействии с этой популярной Big Data платформой потоковой обработки событий с помощью языка Python, который считается самым распространенным инструментом в Data Science. Читайте далее, что такое librdkafka, чем PyKafka отличается от Kafka-Python и почему решение от Confluent предпочтительнее других вариантов. Как работать с Apache Kafka средствами Python Обычно разработчики Big Data решений применяют Java или Scala для создания приложений Apache Kafka. Однако, с учетом популярности Python в Data Science в частности и широкой распространенности этого языка программирования вообще, многие решения также создаются с использованием этого инструментария. Для использования Python в Kafka существует несколько готовых средств [1]: Kafka-Python – библиотека с открытым исходным кодом от сообщества Далее …

Как опередить спрос на модные новинки с облачными технологиями Big Data: кейс компании Boden по Apache Kafka и Snowflake

курсы по Apache Kafka, Kafka обучение, обучение большим данным, аналитика больших данных, курсы аналитик Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, предиктивная аналитика, ритейл, цифровая трансформация, цифровизация, SQL, DWH, облака

Интерактивная аналитика больших данных — одно из самых востребованных и коммерциализированных приложений для технологий Big Data. В этой статье мы рассмотрим, как крупный британский ритейлер запустил цифровую трансформацию своей ИТ-архитектуры, уходя от традиционного DWH с пакетной обработкой к событийно-стриминговой облачной платформе на базе Apache Kafka и Snowflake. Зачем модному ритейлеру Apache Kafka: постановка задачи с точки зрения бизнеса Компания Boden – это британский ритейлер одежды, основанный в 1991 году. Продажи идут онлайн и по каталогам. Впервые сайт компании boden.com был запущен еще в 1999 году и постоянно развивался. Однако, сегодня, когда шопинг и многие другие активности переходят в интернет, ритейл должен реагировать на запросы пользователей в режиме реального времени. Например, быстро реагировать на возросший интерес и всплеск спроса, вызванный появлением Далее …

DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB

обучение инженеров данных, курсы по инженерии больших данных, Data Engineer курсы, инженер Big Data обучение, Big Data, Большие данные, обработка данных, архитектура, DataOps, DWH, Kafka, Delta Lake, Data Lake, NiFi, Spark

Чтобы добавить в наши курсы для дата-инженеров еще больше реальных примеров и лучших DataOps-практик, сегодня мы расскажем, как специалисты крупной норвежской компании DNB обеспечивают надежный доступ к чистым и точным массивам Big Data, применяя передовые методы проектирования данных и реализации конвейеров их обработки. В этой статье мы собрали для вас 10 лучших практик современной инженерии больших данных, которые позволят эффективно управлять data pipeline’ами и повысить качество данных. Бизнес-контекст: архитектура конвейера обработки данных в DNB DNB ASA – это крупнейшая финансовая группа в Норвегии, 34% которой принадлежит министерству торговли и промышленности этой страны. Корпорация включает целую группу предприятий: инвестиционный банк, страховую компанию, агентство недвижимости и др. [1]. Для DNB управление на основе данных (data-driven management) является обязательным залогом успешной деятельности. Поэтому Далее …

Борьба за качество больших данных в Airbnb: 3 направления для Big Data Quality

аналитика больших данных курсы, обучение ИТ-архитекторов, архитектура больших данных курсы, обучение архитектуре данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, DataOps, DWH

Аналитика больших данных напрямую связана с их качеством, которое необходимо отслеживать на каждом этапе непрерывного конвейера их обработки (Pipeline). Сегодня рассмотрим методы и средства обеспечения Data Quality на примере корпорации Airbnb. Читайте далее про лучшие практики повышения качества больших данных от компании-разработчика самого популярного DataOps-инструмента в мире Big Data, Apache Airflow. Как все начиналось: эволюция Data Quality в Airbnb Мы уже писали, что такое качество данных (Data Quality) и как дата-стюарды помогают владельцам данных держать его на приемлемом уровне в рамках отдельного бизнес-подразделения. Однако, это не единственная практика Data Governance/Management, которая может повысить качество данных. Проблема качества больших данных является комплексной и охватывает, как минимум 3 стороны: организационную, архитектурную и техническую. Именно эти аспекты, прежде всего, выделяет известная data-driven компания Далее …

Комбо Apache Spark и Greenplum для быстрой аналитики больших данных: разбор интеграционного коннектора

курсы по Apache Spark, обучение Spark, курсы по Greenplum, обучение Greenplum, курсы по Arenadata DB, обучение Arenadata DB, курсы доя инженеров данных, обучение дата-инженеров, обработка данных, большие данные, Big Data, Spark, Greenplum, ETL, Arenadata, архитектура

Продолжая разговор про обучение Apache Spark для инженеров данных на практических примерах, сегодня разберем, как организовать интеграцию этого Big Data фреймворка с MPP-СУБД Greenplum. В этой статье мы расскажем о коннекторе Greenplum-Spark, который позволяет эффективно связывать эти средства работы с большими данными, выстраивая аналитический конвейер их обработки (data pipeline). Типовые сценарии интеграции Apache Spark с Greenplum Напомним, Apache Spark позволяет быстро обрабатывать большие объемы данных, которые поступают из внешних источников, каких как топики Kafka, распределенные файловые системы (Hadoop HDFS или Amazon S3), а также СУБД, в частности, Greenplum (GP), которая лежит в основе отечественного Big Data решения Arenadata DB. Интеграция Спарк с внешними хранилищами организуется через специальные коннекторы в виде интерфейсов для одной из основных структур данных этого фреймворка — Далее …

Как создать свой коннектор Apache Spark: пример интеграции с Tableau

курсы по Spark, обучение Apache Spark, Apache Spark for developres, Apache Spark integration, обработка данных, большие данные, Big Data, Spark, Data Lake, Greenplum, Python

Говоря про практическое обучение Apache Spark для дата-инженеров, сегодня рассмотрим особенности разработки собственного коннектора для этого фреймворка на примере его интеграции с BI-системой Tableau. Читайте далее, как конвертировать Spark RDD в нужный формат и сделать свой коннектор удобным для пользователей. Интеграция Spark с внешними источниками данных через коннекторы Apache Spark – отличный инструмент для быстрой обработки Big Data, однако он не является хранилищем, в отличие от озера данных на Hadoop HDFS или СУБД, таких как Cassandra, Mongo DB, Greenplum, Elasticsearch и прочие базы данных. Чтобы считывать информацию из Data Lake, СУБД или другого источника, в Спарк используются специальные коннекторы в виде интерфейсов для одной из основных структур данных этого фреймворка — RDD (Resilient Distributed Dataset, надежная распределенная коллекция данных типа Далее …

Помнить все: как устранить утечки памяти в приложениях Apache Spark – 7 советов от Disney

курсы Spark, обучение Apache Spark, обработка данных, большие данные, Big Data, Spark

Сегодня рассмотрим Apache Spark с важной для разработчиков распределенных приложений точки зрения, разобрав как в рамках этого Big Data фреймворка справиться с утечками данных при их потоковой передаче. Читайте далее, почему возникает OutOfMemory Exception в Spark-приложениях и как дата-инженеры компании Disney решили эту проблему с нехваткой памяти для JVM. Зачем Disney нужен Apache Spark Streaming и что с ним не так Прежде всего поясним бизнес-контекст рассматриваемого примера: Disney Streaming Services — это подразделение одной из крупнейших мультимедиа-корпораций Disney, которое контролирует все услуги потребительской подписки на цифровое видео. Главная миссия Disney Streaming Service – предоставить пользователю свободу доступа к контенту с любого подключенного устройства, в любое время и в любом месте [1]. Disney Streaming Services использует Apache Spark и Spark Structured Далее …

Как очистить большие данные для Apache Spark SQL: краткий обзор Cleanframes

обработка данных, большие данные, Big Data, Spark, SQL, курсы по Spark SQL, обучение Apache Spark

Поскольку курсы по Apache Spark нужны не только разработчикам распределенных приложений, но и аналитикам больших данных с дата-инженерами, сегодня мы рассмотрим, какие средства этого фреймворка позволяют выполнять очистку данных и повышать их качество. Читайте далее, что такое Cleanframes в Spark SQL, чем полезна эта библиотека и каковы ее ограничения. Apache Spark и Data Quality: как повысить качество данных для аналитики Big Data Мы уже писали, что качество данных (Data Quality) играет важнейшую роль в аналитике Big Data. Поэтому очистка данных (Data cleansing) выполняется не только при подготовке датасета к моделированию с использованием алгоритмов машинного обучения (Machine Learning). Выявление и исправление ошибок, опечаток и прочих несоответствий данных с целью повышения их качества необходимо для применения любых методов анализа, в т.ч. с помощью Далее …

Как устроен конвейер аналитики больших данных на Apache Kafka и Druid в Netflix

курсы по Kafka, обучение Kafka, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, Druid, Kafka, обработка данных, архитектура, SQL

В этой статье разберем, что такое прикладная аналитика больших данных на примере практического использования Apache Kafka и Druid в Netflix для обработки и визуализации метрик пользовательского поведения. Читайте далее, зачем самой популярной стриминговой компании отслеживать показатели клиентских устройств и как это реализуется с помощью Apache Druid, Kafka и других технологий Big Data. Big Data Pipeline на Apache Kafka и Druid Напомним, бизнес Netflix, по сути, представляет собой интернет-кинотеатр, где можно в режиме онлайн смотреть видеозаписи: фильмы, передачи и пр. Чтобы понимать, как обновления и другие нововведения воспринимаются пользователями, Netflix отслеживает метрики о клиентских устройствах, классифицируя последние по типу: Smart TV, iPad, Android-телефон и т.д. Анализируя логи с этих устройств в реальном времени в качестве источника событий, аналитики Big Data могут Далее …

Зачем вам UNION вместо JOIN в Apache Druid и семплирование больших данных в Spark Streaming: пример потоковой аналитики Big Data

курсы дата инженеров, обучение инженеров Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Druid, предиктивная аналитика, SQL

Недавно мы рассказывали про систему онлайн-аналитики Big Data на базе Apache Kafka, Spark Streaming и Druid для площадки рекламных ссылок Outbrain, а затем на этом же кейсе рассматривали, зачем нужен Graceful shutdown в потоковой обработке больших данных. Сегодня в рамках этого примера разберем, как снизить нагрузку при потоковой передаче множества данных с помощью семплирования RDD в Spark Streaming, а также когда и почему стоит выбрать Union, а не Join-оператор в SQL-запросах Apache Druid. Постановка задачи или что не так с JOIN в Apache Druid Для оценки эффективности своих ретаргетинговых кампаний, биржа рекламных ссылок Outbrain построила собственную систему аналитики больших данных на основе Apache Kafka, Spark Streaming и Druid. Принцип ее работы можно описать следующим образом [1]: «cырые» данные о пользовательском Далее …