Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

обучение инженеров данных, курсы дата-инженеров, обучение Spark, курсы Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, Data Lake, облака, SQL, PySpark, AWS Spark

Мы уже рассказывали, почему качество данных является важнейшим аспектом разработки и эксплуатации Big Data систем. Приемлемое для эффективного использования качество массивов информации достигается не только с помощью процессов подготовки датасета к машинному обучению и профилирования данных, но и за счет их согласования. Читайте далее, что такое Data reconciliation, зачем это нужно для бизнеса и как оно реализуется в Apache Spark и AWS. Что такое согласование данных и при чем здесь Big Data Как правило, реализация комплексной Big Data системы, в т.ч. на базе облачных сервисов, например, кластер Hadoop в Google DataProc или аналитика больших данных на веб-сервисах Amazon, начинается c репликации данных из исходных реляционных СУБД в единый репозиторий  — озеро данных (Data Lake). Однако, прежде чем приступить к анализу Далее …

CDC-репликация Big Data в реальном времени с Apache Kafka и Debezium в Confluent Cloud

обработка данных, большие данные, Big Data, архитектура, Kafka, SQL

В этой статье поговорим про интеграцию данных с помощью CDC-подхода и репликацию SQL-таблиц из корпоративной СУБД в несколько разных удаленных хранилищ в реальном времени с применением Apache Kafka и Debezium, развернутых в Kafka Connect и Confluent Cloud. Постановка задачи: CDC с Big Data в реальном времени Рассмотрим кейс, который часто встречается в реальной жизни: головному офису предприятия с распределенной структурой требуется оперативно передать данные из своей корпоративной СУБД в удаленные филиалы. В разбираемом примере франчайзеру нужно реплицировать несколько таблиц из своего хранилища данных в системы разных франчайзи в реальном времени. При этом такая односторонняя интеграция должна обрабатывать репликацию большого количества обновлений, внесенных в таблицы исходной СУБД, с возможностью масштабирования по мере роста сети франчайзи, т.е. увеличения числа целевых баз-приемников данных Далее …

А можно дешевле: снижаем стоимость аналитики Big Data в приложениях Apache Spark

обучение Apache Spark, курсы Apache Spark, курсы Big Data, обучение Большие данные, курсы Spark для разработчиков Big Data, обучение Spark, обучение инженеров данных, курсы дата-инженер, Apache Spark для разработчиков и инженеров данных

Вчера мы говорили про ускорение аналитики больших данных в конвейере из множества заданий Apache Spark. Продолжая речь про обучение инженеров данных, сегодня рассмотрим, как снизить стоимость выполнения Spark-приложений, сократив накладные расходы на обработку Big Data и повысив эффективность использования кластерной инфраструктуры. Экономика Big Data систем: распределенная разработка и операционные затраты Организация эффективных с экономической точки зрения конвейеров обработки данных (data pipeline) лежит в сфере ответственности инженера Big Data. Однако, на практике не так-то просто объективно оценить адекватность использования вычислительных ресурсов для распределенных приложений. В случае Apache Spark это особенно актуально, т.к. этот Big Data фреймворк упрощает обработку огромных объемов информации, скрывая внутри себя сложность распределенных вычислений и позволяя разработчику оперировать распределенным набором данных как коллекцией объектов в локальной памяти. При Далее …

Ускоряем конвейеры Apache Spark: 3 простых способа

курсы Big Data, обучение Большие данные, курсы Spark SQL, обучение Spark, обучение инженеров данных, курсы дата-инженер, Apache Spark для инженеров данных

Сегодня рассмотрим несколько простых способов ускорить обработку больших данных в рамках конвейера задач Apache Spark. Читайте далее про важность тщательной оценки входных и выходных данных, рандомизацию рабочей нагрузки Big Data кластера и замену JOIN-операций оконными функциями. Оптимизируй это: почему конвейеры аналитической обработки больших данных с Apache Spark замедляются Обычно со временем объемы данных только растут, а логика их обработки становится только сложнее. Поэтому каждый дата-инженер сталкивается с проблемой повышения производительности конвейера обработки Big Data, пытаясь решить ее наиболее эффективно, что означает максимум положительных результатов при минимальных изменениях архитектуры самого pipeline’а. Для этого можно воспользоваться следующими 3-мя способами: навести порядок в выводе конвейера; сбалансировать нагрузку с помощью рандомизации; заменить JOIN-соединения оконными функциями. Каждый из этих способов мы подробнее рассмотрим далее, а Далее …

Сложности перехода: 3 проблемы миграции на Apache AirFlow 2.0 и их решения

курсы по Airflow, Apache Airflow для дата-инженеров, обучение Apache Airflow, курсы для инженеров больших данных, инженерия больших данных обучение, курсы дата-инженер Airflow

В рамках обучения инженеров больших данных, вчера мы рассказывали о новой версии Apache AirFlow 2.0, вышедшей в декабре 2020 года. Сегодня рассмотрим особенности перехода на этот релиз: в чем сложности миграции и как их решить. Читайте далее про сохранение кастомизированных настроек, тонкости работы с базой метаданных и конфигурацию для развертывания тестовой среды. Нельзя просто так взять и перейти на Apache AirFlow 2.0 Рассмотрим кейс американской ИТ-компании Lirio, которая специализируется на применении методов искусственного интеллекта для облегчения коммуникаций с людьми, имеющих проблемы (особенности) физического или ментального здоровья [1]. Разумеется, когда речь идет о машинном обучении и обработке больших объемов информации, в работу вступают технологии Big Data. Оставив за рамкой этой статьи интересную архитектуру и принципы работы приложений Lirio, погрузимся в инженерию Далее …

Большие данные для малого бизнеса: 3 примера, которые подойдут каждому

курсы по большим данным, аналитика больших данных обучение, большие данные для чайников, Big Data в малом и среднем бизнесе с примерами, большие данные и машинное обучение в бизнесе

Отвечая на вопрос, что такое большие данные для чайников, сегодня мы рассмотрим 3 практических примера использования технологий Big Data в малом и среднем бизнесе. Никакой Rocket Science, только понятные кейсы, которые актуальны для любой современной компании, даже если она состоит из пары человек: аналитика больших данных и машинное обучение для начинающих.   Анализ ассортимента и выявление проблемных поставщиков Простой статистический анализ данных по продажам поможет выявить покупательские предпочтения и определить проблемы с поставщиками. Например, в одном из московских магазинов было несколько обращений по поводу плохо вычищенных семечек в замороженных фаршированных перцах. Обзвонив покупателей, которые недавно приобретали этот товар, сотрудники магазина получили следующие отзывы [1]: 49% клиентов сказали, что перцы действительно были плохие — с семечками, вялые и даже грязные; 37 % Далее …

Непростая аналитика больших данных в реальном времени: 3 способа перезапуска заданий Spark Structured Streaming по метке времени Apache Kafka

курсы Apache Kafka, Обучение Kafka, курсы Apache Spark Strucrured Streaming, обучениеApache Kafka, Обучение Apache Kafka и Spark Strucrured Streaming, курсы по большим данным, обучение Big Data, аналитика больших данных в реальном времени обучение на примерах, Big Data, Kafka, архитектура, Большие данные, обработка данных, Spark,

Совместное использование Apache Kafka и Spark очень часто встречается в потоковой аналитике больших данных, например, в прогнозировании пользовательского поведения, о чем мы рассказывали вчера. Однако, временные метки (timestamp) в приложении Spark Structured Streaming могут отличаться от времени события в топике Kafka. Читайте далее, почему это случается и какие подходы к обработке Big Data применять в этом случае. Как течет время в потоковой передаче или еще раз об интеграции Apache Kafka и Spark Итак, рассмотрим сценарий, когда приложение Spark Structured Streaming считывает данные из топиков Apache Kafka, и происходит один из следующих случаев [1]: изменяется конфигурация заданий источника потоковой передачи, например, параметры maxOffsetsPerTrigger, Trigger time, Watermark и пр.; приложение обновилось и нужно отменить предыдущие состояния; обнаружена ошибка в коде и требуется Далее …

Как подготовить датасет к Machine Learning с PySpark и построить систему потоковой аналитики больших данных на Apache Kafka и ELK: пример прогнозирования CTR

курсы по большим данным и машинному обучению, обучение Big Data и Machine Learning, аналитика больших данных в реальном времени обучение на примерах, Big Data, Kafka, архитектура, Большие данные, маркетинг, обработка данных, предиктивная аналитика, реклама, машинное обучение, Machine Learning, Spark, Python, PySpark, Elasticsearch

В продолжение разговора о применении технологий Big Data и Machine Learning в рекламе и маркетинге, сегодня рассмотрим архитектуру системы прогнозирования конверсии рекламных объявлений. Читайте далее, как организовать предиктивную аналитику больших данных на Apache Kafka и компонентах ELK-стека (Elasticsearch, Logstash, Kibana), почему так важно тщательно подготовить данные к машинному обучению, какие функции PySpark помогают сделать это и на что обратить внимание при настройке Spark-кластера. Строим систему потоковой аналитики Big Data на Apache Kafka и Kibana через Logstash и Elasticsearch Начнем с постановки задачи: требуется спрогнозировать конверсию рекламных объявлений, т.е. вычислить CTR-рейтинг (click through rate) или показатель кликабельности. Эта важная метрика эффективности интернет-маркетинга определяет отношение числа кликов на рекламное объявление к числу показов и измеряется в процентах. К примеру, если реклама была Далее …

Что под капотом ретаргетинга: прогнозирование намерений пользователя с Apache Hadoop и Spark Structured Streaming на сервисах Amazon

курсы по большим данным, обучение Big Data, аналитика больших данных в реальном времени, Big Data, Kafka, Spark, архитектура, Большие данные, маркетинг, обработка данных, предиктивная аналитика, реклама, машинное обучение, Machine Learning, SQL, Hive, Hadoop, Amazon Web Services, AWS Kinesis

Мы уже рассказывали о возможностях ретаргетинга и использовании Apache Spark Structured Streaming для реализации этого рекламного подхода на примере Outbrain. Такое применение технологий Big Data сегодня считается довольно распространенным. Чтобы понять, как это работает на практике, рассмотрим кейс маркетинговой ИТ-компании MIQ, которая запускает Spark-приложения на платформе Qubole и сервисах Amazon, создавая конвейеры потоковой передачи и аналитики больших данных с использованием готовых соединителей и операторов, а также компонентов экосистемы Apache Hadoop — Presto и Hive. Еще раз о том, что такое ретаргетинг и при чем здесь Big Data c Machine Learning Ретаргетинг в сфере e-commerce – это техника убеждения потенциальных клиентов вернуться на веб-сайт после того, как этот ресурс был закрыт без покупки или другого конвертирующего действия (оставить заявку, подписаться на Далее …

Ускоряем и масштабируем Apache Spark Structured Streaming: 2 проблемы строго однократной доставки и их решения

курсы по Apache Spark, exactly once, Spark SQL, Apache Spark Structured Streaming, обучение Spark SQL, Apache Spark Для аналитиков и разработчиков Big Data, Big Data, Большие данные, обработка данных, Spark, SQL, Spark SQL, Hadoop, HDFS

Вчера мы говорили про реализацию exactly once семантики доставки сообщений в Apache Spark Structured Streaming. Сегодня рассмотрим, что не так с размером компактных файлов для хранения контрольных точек потоковой передачи, какие параметры конфигурации Spark SQL отвечают за такое логирование и как ускорить микро-пакетную обработку больших данных и чтение результатов выполнения заданий в этом Big Data фреймворке.   Проблема увеличения размера компактных файлов в Apache Spark Structured Streaming Напомним, чтобы гарантировать отсутствие дублей и потерь данных, Apache Spark Structured Streaming реализует строго однократную (exactly once) семантику доставки сообщений с помощью механизма контрольных точек (checkpoint) и commit-файлов для каждого микропакета. Основная цель контрольных точек – обеспечить отказоустойчивость потоковых заданий. Благодаря метаданным, хранящимся в файлах контрольных точек, можно перезапустить обработку в случае сбоя Далее …