Потоковая платформа для интеграции Big Data и не только: 7 плюсов Apache Kafka

Big Data, Большие данные, обработка данных, архитектура, Kafka, DevOps

Продолжая разговор про интеграцию информационных систем с помощью стриминговой платформы, сегодня мы рассмотрим преимущества event streaming архитектуры на примере Apache Kafka. Также читайте в нашей статье про 5 ключевых сценариев использования Кафка в потоковой обработке событий: от IoT/IIoT до микросервисного разделения в системах аналитики больших данных (Big Data) и машинного обучения (Machine Learning). 7 главных достоинств event streaming архитектура для интеграции информационных систем Напомним, SOA-подход к интеграции информационных систем отличается некоторыми характерными недостатками, среди которых слабой взаимозависимость и высокая связность компонентов [1]. Поэтому сегодня все большую популярность приобретают методы интеграции приложений на базе стриминговых платформ, обеспечивающих обработку данных в режиме реального времени. В области Big Data наиболее ярким примером такого фреймворка является Apache Kafka. Перечислим основные плюсы, которые ожидаются от Далее …

От беспорядочных связей к микросервисной консистентности: архитектурная история Big Data систем на примере Apache Kafka

Big Data, Большие данные, обработка данных, архитектура, Kafka, Agile, DevOps, DWH, Data Lake

В этой статье поговорим про интеграцию информационных систем: обсудим SOA и ESB-подходы, рассмотрим стриминговую архитектуру и возможности Apache Kafka для организации быстрого и эффективного обмена данными между различными бизнес-приложениями. Также обсудим, что влияет на архитектуру интеграции корпоративных систем и распределенных Big Data приложений, что такое спагетти-структура и почему много сервисов – это та же паста, только в профиль. Как рождаются спагетти или от чего зависит архитектура интеграции Чтобы пояснить, насколько сложны вопросы корпоративной ИТ-архитектуры, перечислим основные факторы, от которых зависит интеграция информационных систем [1]: Технологии (SOAP, REST, JMS, MQTT), форматы данных (JSON, XML, Apache Avro или Protocol Buffer), фреймворки и экосистемы (Nginx, Kubernetes, Apache Hadoop), собственные интерфейсы (EDIFACT, SAP BAPI и пр.); языки программирования и платформы, например, Java, .NET, Go Далее …

5 причин разделения кластеров Apache Kafka по DevOps

Big Data, Большие данные, обработка данных, архитектура, Kafka, SQL, Agile, DevOps

В продолжение темы про проявление Agile-принципов в Big Data системах, сегодня мы рассмотрим, как DevOps-подход отражается в использовании Apache Kafka. Читайте в нашей статье про кластерную архитектуру коннекторов Кафка и KSQL – SQL-движка на основе API клиентской библиотеки Kafka Streams для аналитики больших данных, о которой мы рассказывали здесь. Из чего сделана Apache Kafka: 6 базовых компонентов Apache Kafka – это не просто брокер сообщений, а полноценная стриминговая платформа для сбора, агрегации и обработки больших данных, включающая следующие компоненты [1]: ядро распределенного обмена сообщениями и хранения Big Data, обеспечивающее мощную пропускную способность, низкую задержку (latency), высокую доступность и безопасность; Kafka Connect – интеграционная структура для подключения внешних источников и приемников к Кафка; Kafka Streams – клиентская библиотека для создания распределенных Далее …

Что общего между Lean в ИТ и ITIL: цифровизация для бережного управления Big Data и наоборот

Lean, бережливое производство, Big Data, Большие данные, системный анализ, предиктивная аналитика, цифровизация, цифровая трансформация, Agile, Machine Learning, машинное обучение, DevOps

Ранее мы рассказывали, что общего между бережливым производством и DevOps. Сегодня рассмотрим, как 7 принципов Lean отражены в разработке программного обеспечения. Также читайте в нашей статье об актуальности методологии ITIL для проектов цифровизации и внедрения технологий больших данных (Big Data). 7 принципов Lean в ИТ Мы уже упоминали, что впервые концепцию Lean к области ИТ адаптировали программисты Мэри и Том Поппендики, опубликовав в 2003 году книгу «Бережливое производство программного обеспечения» («Lean Software Development: An Agile Toolkit»). В этом труде они изложили принципы и практики бережливой разработки ПО [1]: ликвидировать потери, определив главную ценность для конечного потребителя (программное решение) и максимально сократив действия, которые ее не производят (согласование, документирование, тестирование); встраивать качество, используя разработку через тестирования; создавать знание не в виде Далее …

Как расширенная аналитика Big Data поможет ИТ избавиться от 8 потерь Lean

Big Data, Большие данные, системный анализ, предиктивная аналитика, цифровизация, цифровая трансформация, Agile, Machine Learning, машинное обучение, DevOps, Lean, бережливое производство

Продолжая разговор про бережливое производство в ИТ, сегодня мы рассмотрим виды потерь и источники их возникновения, а также поговорим, как принципы Lean помогают бизнесу избавиться от муда, мури и мура средствами больших данных (Big Data). 8 видов потерь в Lean с примерами из ИТ Прежде всего, поясним значение понятий муда, мури и мура, принятых в терминологии Lean. Эти слова произошли от японских выражений, означающих потери и их источники. Напомним, под потерями бережливое производство подразумевает действия, которые потребляют ресурсы, но не создают ценности для конечного потребителя. По-японски они называются муда – потери, затраты, отходы, мусор. Изначально создатели производственной системы компании Toyota, на которой основана концепция Lean, выделяли следующие 7 видов потерь [1]: перепроизводство, когда продукции больше, чем нужно или может быть Далее …

7 принципов Lean в Big Data: бережливое производство больших данных

Big Data, Большие данные, системный анализ, DevOps, предиктивная аналитика, цифровизация, цифровая трансформация, интернет вещей, Internet of Things, Spark, Kafka, Airflow, Lean, бережливое производство

Не претендуя на лавры Мэри и Тома Поппендиков, которые впервые освятили применение Lean в разработке ПО, сегодня мы расскажем, как идеи бережливого производства реализуются в области Big Data. Читайте в нашей статье про принцип вытягивания в Apache Kafka, концепцию «точно вовремя» в Apache Spark, SMED в Kubernetes и облачных кластерах on-demand, карты потоков создания ценностей и конвейеры больших данных в цифровизации бизнес-процессов, систему 5S в резидентных СУБД и канбан-подход в Airflow. Lean-вытягивание сообщений в Apache Kafka В управлении производством Lean-термины вытягивание (pull) и выталкивание (push) противопоставляются друг другу, при этом их не совсем корректно интерпретируют следующим образом: выталкивание – это работа на склад, а вытягивание – на заказ (реальный спрос). Более верным считается следующее определение: вытягивающая система явно ограничивает объем Далее …

Agile и бережливое производство: что общего между Lean и DevOps

системный анализ, DevOps, Agile, предиктивная аналитика, цифровизация, цифровая трансформация, Lean

Чтобы сделать курс Аналитика больших данных для руководителей еще более интересным, мы продолжаем включать в него темы про методы производственной оптимизации. Сегодня рассмотрим, что такое бережливое производство (Lean) и почему Agile вообще и DevOps в частности активно используют принципы этой концепции. Также читайте в нашей статье, чем Lean отличается от системы менеджмента качества (СМК) и методики 6 сигм. Что такое Lean: бережливое производство для чайников Прежде всего, сделаем краткий ликбез по теме бережливого производства (Lean). Эта концепция управления предприятием предполагает непрерывное устранение всех видов потерь с целью максимальной оптимизации бизнеса для наилучшего удовлетворения потребителя. Она основана на производственной системе японской компании Toyota, благодаря которой автоконцерн вышел из послевоенного кризиса и стал успешной организацией в мировом масштабе. Идеи бережливого производства отражены во Далее …

Как найти узкое место рабочего процесса: строим VSM и разбираемся с ценностями

Big Data, Большие данные, системный анализ, DevOps, предиктивная аналитика, цифровизация, цифровая трансформация, интернет вещей, Internet of Things

Вчера мы рассмотрели, что такое функционально-стоимостный анализ (ФСА) и как этот метод позволяет оценить бизнес-процессы в денежном выражении. Однако, результаты ФСА, в первую очередь, ориентированы на оптимизацию с точки зрения финансов, а не организации и технологий. Исправить ситуацию помогут принципы бережливого производства (Lean). Сегодня мы расскажем об одном из них – картировании потоков создания ценностей (VSM), а также поговорим как DevOps воплощает идеи Lean и при чем здесь расширенная аналитика больших данных (Big Data). Цифровизация потоков создания ценности: что такое VSM Цифровизация предполагает не просто внедрение Big Data, Machine Learning и прочих методов искусственного интеллекта для оптимизации деятельности. Прежде всего, цифровая трансформация направлена на изменение бизнес-процессов, чтобы ускорить их, а также снизить затраты и ошибки, повысив результативность. Для построения новых Далее …

AirFlow KubernetesExecutor: 3 способа запуска и 4 главных плюса для DevOps-инженера

Big Data, Большие данные, архитектура, обработка данных, AirFlow, DevOps, Kubernetes, Docker, Spark

Эффективное обучение AirFlow, также как курсы по Spark, Hadoop, Kafka и другим технологиям больших данных (Big Data) также включают нюансы интеграции этого фреймворка с другими средами. Например, вчера мы рассматривали преимущества DevOps-подхода к разработке Data Flow на примере взаимосвязи Apache Airflow с Kubernetes посредством специальных операторов. Продолжая эту тему, сегодня расскажем, что такое KubernetesExecutor: как он устроен и каким образом позволяет работать с Airflow. Как запустить AirFlow—DAG в Kubernetes: 2 способа Предположим, имеется batch-процесс обработки Big Data в виде цепочки задач (DAG, Directed Acyclic Graph) в Эйрфлоу. Задачи этой DAG-цепочки необходимо выполнить в среде Kubernetes (K8s), запустив соответствующий Docker-контейнер на доступном рабочем узле кластера Elasticsearch. Это можно сделать следующими способами [1]: использовать KubernetesPodOperator, который выполняет конкретную задачу в модуле (pod) Далее …

Что такое AirFlow Kubernetes Operator и как это работает: обзор решений от K8s и Google

Big Data, Большие данные, архитектура, обработка данных, AirFlow, DevOps, Kubernetes, Docker

Вчера мы рассказали, почему запускать Airflow на Kubernetes – это эффективно и выгодно для всех участников batch-процессов с большими данными (Big Data): разработчиков Data Flow, Data Scientist’ов, аналитиков и инженеров. Сегодня рассмотрим, что такое Airflow Kubernetes Operator и чем он отличается от подобной разработки компании Google. Как работает AirFlow Kubernetes Operator от K8s и чем он хорош Начнем с уточнения понятия оператора Эйрфлоу. По сути, оператор определяет задачу. В частности, при создании DAG для отправки задания (job) в Apache Spark или определения собственной функции на языке Python, пользователь Эйрфлоу будет использовать оператор, например, «SparkSubmitOperator» или «PythonOperator» соответственно. По умолчанию фреймворк включает набор встроенных операторов для Apache Spark, Hive, BigQuery и Amazon EMR. Также этот batch-фреймворк позволяет DevOps-инженерам разрабатывать свои собственные Далее …