7 принципов Lean в Big Data: бережливое производство больших данных

Big Data, Большие данные, системный анализ, DevOps, предиктивная аналитика, цифровизация, цифровая трансформация, интернет вещей, Internet of Things, Spark, Kafka, Airflow, Lean, бережливое производство

Не претендуя на лавры Мэри и Тома Поппендиков, которые впервые освятили применение Lean в разработке ПО, сегодня мы расскажем, как идеи бережливого производства реализуются в области Big Data. Читайте в нашей статье про принцип вытягивания в Apache Kafka, концепцию «точно вовремя» в Apache Spark, SMED в Kubernetes и облачных кластерах on-demand, карты потоков создания ценностей и конвейеры больших данных в цифровизации бизнес-процессов, систему 5S в резидентных СУБД и канбан-подход в Airflow. Lean-вытягивание сообщений в Apache Kafka В управлении производством Lean-термины вытягивание (pull) и выталкивание (push) противопоставляются друг другу, при этом их не совсем корректно интерпретируют следующим образом: выталкивание – это работа на склад, а вытягивание – на заказ (реальный спрос). Более верным считается следующее определение: вытягивающая система явно ограничивает объем Далее …

Что такое Airflow Executor: 5 исполнителей задач и 2 их основных ограничения

Big Data, Большие данные, архитектура, обработка данных, AirFlow, Kubernetes, Docker, Spark, Kafka

Недавно мы рассказывали про Airflow Kubernetes Executor, который позволяет выполнять задачи DAG-графа Эйрфлоу в среде Kubernetes, развертывая Docker-контейнер на отдельном пользовательском модуле (pod). Сегодня рассмотрим, какие еще есть исполнители задач в Apache Airflow, как они используются при автоматизации batch-процессов обработки больших данных (Big Data) и с какими проблемами можно столкнуться при их практическом использовании. Что такое Executor в AirFlow: немного об исполнителях задач Напомним, в Airflow задача соответствует узлу DAG-графа, который выполняет какое-либо действие, например, запустить команду оболочки bash, python-скрипт, задание Apache Spark и пр. Перед выполнением задача сначала планируется и помещается в очередь, отсортированную по порядку добавления. Характер выполнения задачи зависит от используемого Executor’а. Как мы уже отметили выше, KubernetesExecutor – это один из возможных видов исполнителей задач в Далее …

AirFlow KubernetesExecutor: 3 способа запуска и 4 главных плюса для DevOps-инженера

Big Data, Большие данные, архитектура, обработка данных, AirFlow, DevOps, Kubernetes, Docker, Spark

Эффективное обучение AirFlow, также как курсы по Spark, Hadoop, Kafka и другим технологиям больших данных (Big Data) также включают нюансы интеграции этого фреймворка с другими средами. Например, вчера мы рассматривали преимущества DevOps-подхода к разработке Data Flow на примере взаимосвязи Apache Airflow с Kubernetes посредством специальных операторов. Продолжая эту тему, сегодня расскажем, что такое KubernetesExecutor: как он устроен и каким образом позволяет работать с Airflow. Как запустить AirFlow—DAG в Kubernetes: 2 способа Предположим, имеется batch-процесс обработки Big Data в виде цепочки задач (DAG, Directed Acyclic Graph) в Эйрфлоу. Задачи этой DAG-цепочки необходимо выполнить в среде Kubernetes (K8s), запустив соответствующий Docker-контейнер на доступном рабочем узле кластера Elasticsearch. Это можно сделать следующими способами [1]: использовать KubernetesPodOperator, который выполняет конкретную задачу в модуле (pod) Далее …

7 достоинств и 5 недостатков Apache AirFlow

Big Data, Большие данные, архитектура, обработка данных, AirFlow, ETL, Spark, Hive, Hadoop

Продолжая говорить про обучение Airflow, сегодня мы рассмотрим ключевые преимущества и основные проблемы этой библиотеки для автоматизации часто повторяющихся batch-задач обработки больших данных (Big Data). Также мы собрали для вас пару полезных советов, как обойти некоторые ограничения Airflow на примере кейсов из Mail.ru, IVI и АльфаСтрахования. Чем хорош Apache AirFlow: главные плюсы Проанализировав прикладное назначение и функциональные возможности Apache Airflow, можно сделать выводы, что главными положительными качествами этого фреймворка для разработки, планирования и мониторинга пакетных процессов работы с большими данными являются следующие: небольшой, но полноценный инструментарий создания процессов обработки данных и управления ими – 3 вида операторов (сенсоры, обработчики и трансферы), расписание запусков для каждой цепочки задач, логгирование сбоев [1]; графический веб-интерфейсдля создания конвейеров данных (data pipeline), который обеспечивает относительно Далее …

ETL для пакетов Big Data: 3 примера использования Apache AirFlow

Big Data, Большие данные, бизнес-процессы, цифровизация, цифровая трансформация, бизнес, ритейл, обработка данных, NiFi, AirFlow, ETL, Hadoop, Spark, Hive, AirFlow

В этой статье мы поговорим про Apache AirFlow — эффективный инструмент для пакетных ETL-задач при работе с большими данными (Big Data): что это такое, как работает и чем полезен для инженера данных (Data Engineer). Также рассмотрим несколько практических примеров реального использования этой библиотеки для разработки, планирования и мониторинга batch-процессов. Что такое ETL и при чем здесь Apache AirFlow Процессы ETL (Extract, Transform, Load) являются неотъемлемой частью современных систем бизнес-аналитики (BI, Business Intelligence) и используются для интеграции множества корпоративных информационных систем с целью унификации и анализа хранимых в них данных [1]. Можно сказать, что сегодня ETL – это обязательный компонент корпоративной инфраструктуры на базе технологий Big Data, когда исходные («сырые») данные превращаются в информацию, пригодную для бизнес-анализа. ETL включает следующие этапы: Далее …

Как выбрать курсы по Spark: 4 ключевых аспекта, на что обратить внимание

курсы по Spark, обучение Apache Spark, Big Data, Большие данные, архитектура, Hadoop, Spark, SQL, администрирование, Kafka

Выбирая курсы по Spark, Hadoop, Kafka и другим технологиям больших данных, легко запутаться во многочисленных предложениях от различных учебных центров и платформах онлайн-обучения. Сегодня мы расскажем, что должна включать программа курса по Big Data, чтобы результат обучения оправдал ваши ожидания и даже превзошел их. 4 главных свойства эффективного курса по Spark, Hadoop, Kafka и другим технологиям Big Data Многолетний опыт нашего учебного центра повышения квалификации и подготовки ИТ-специалистов по большим данным показывает, что слушатели курсов по Big Data больше всего обращают внимание на следующие аспекты программы обучения: практическая направленность – прикладные задания, бизнес-кейсы и лучшие практики; узкая специализация с кросс-функциональными нюансами; интеграция с другими технологиями; разбор недостатков или типичные проблемы технологии и способы их решения. Что означает каждый из вышеотмеченных компонентов и Далее …

От администрирования до разработки Big Data систем: 7 главных проблем Apache Spark

Big Data, Большие данные, архитектура, Hadoop, Spark, SQL, администрирование

Обычно курсы по Spark подробно рассказывают, чем хорош этот Big Data фреймворк для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных. Но, чтобы обучение Apache Spark было максимально полезным, стоит знать и о недостатках этого многофункционального инструмента обработки больших данных. Сегодня мы рассмотрим некоторые проблемы, которые возникают при практическом использовании Спарк. Псевдопотоковая обработка в режиме micro-batch Apache Spark позиционируется как средство потоковой обработки данных в режиме онлайн. Однако, это не совсем верно: в отличие от, например, Kafka или Storm, Спарк разбивает непрерывный поток данных на серию микро-пакетов. Поэтому возможны некоторые временные задержки порядка секунды. Официальная документация комментирует, что это не оказывает большого влияния на приложения, поскольку в большинстве случаев аналитика больших данных выполняется не непрерывно, а с довольно большим Далее …

Кому и когда нужны курсы по Kafka и другим технологиям Big Data: 5 реальных кейсов

Big Data, Большие данные, Kafka, интернет вещей, Internet of Things, IoT, IIoT, DevOps, Spark, Hadoop, Machine Learning, машинное обучение, цифровизация, цифровая трансформация

Продолжая разговор о том, как выбрать курсы по Kafka и другим технологиям больших данных (Big Data), сегодня рассмотрим, кому и в каких случаях нужно такое повышение квалификации. В этой статье мы собрали для вас 5 прикладных кейсов по Кафка для ИТ-профессионалов разных специальностей, от системного администратора до Data Engineer’а. А о том, почему корпоративное обучение большим данным эффективнее индивидуальных курсов, мы рассказываем здесь. Что такое Apache Kafka и зачем она нужна в Big Data Напомним, что такое Кафка и какова роль этой технологии в общем ландшафте Big Data решений. Apache Kafka – это реплицированный журнал сообщений в виде распределённой, горизонтально масштабируемой Big Data системы. Она используется для централизованного сбора, передачи и непрерывной потоковой обработки большого количества сообщений из различных источников: Далее …

Apache Cassandra vs HBase: что и когда выбирать для NoSQL в Big Data

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Hadoop, IoT, Internet of Things, IIoT, интернет вещей, предиктивная аналитика

Рассмотрев ключевые сходства и различия Cassandra и HBase, сегодня мы поговорим, в каких случаях стоит выбирать ту или иную нереляционную СУБД для обработки больших данных (Big Data) в NoSQL-хранилище. Где используются NoSQL-СУБД в Big Data Прежде всего отметим основные области применения рассматриваемых нереляционных СУБД. Проанализировав наиболее известные примеры использования (use cases) Apache HBase и Кассандры, можно сделать вывод, что обе системы широко применяются для обработки временных рядов в следующих направлениях Big Data: показания smart-датчиков в IoT/IIoT; сбор и аналитика событий пользовательского поведения (действия, счетчики веб-сайтов и т.д.), в том числе для построения рекомендательных систем, о чем мы рассказывали здесь на примере стримингового сервиса Spotify; финансовые системы (биржевая аналитика, обнаружение мошенничества); агрегация данных из систем обмена сообщениями (чаты, мессенджеры, электронная почта, Далее …

Как Apache Cassandra, Kafka, Storm и Hadoop формируют рекомендации пользователям Spotify

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, машинное обучение, Machine Learning, Spark, Kafka, предиктивная аналитика, Hadoop

Продолжая разговор про примеры практического использования Apache Cassandra в реальных Big Data проектах, сегодня мы расскажем вам о рекомендательной системе стримингового сервиса Spotify на базе этой нереляционной СУБД в сочетании с другими технологиями больших данных: Kafka, Storm, Crunch и HDFS. Рекомендательная система Spotify: зачем она нужна и что должна делать Начнем с описания самого сервиса: Spotify – это интернет-ресурс потокового аудио (стриминговый), позволяющий легально и бесплатно прослушивать более 50 миллионов музыкальных композиций, аудиокниг и подкастов, в режиме онлайн, т.е. не загружая их на локальное устройство. Этот сервис доступен в США, Европе, Австралии и Новой Зеландии, а также в некоторых странах Азии и Африки. В общем случае доля сервиса составляет более 36 % мирового аудиостриминга, при этом большая часть (70%) прослушиваний Далее …