DevOps для потоков Big Data: Apache Kafka в кластере Kubernetes

Kafka, Big Data, Большие данные, архитектура, DevOps, Kubernetes

Для высоконагруженных Big Data систем и платформ интернета вещей (Internet of Things, IoT) с непрерывными информационными потоками Apache Kafka, практически, стала стандартом де факто для обмена сообщениями и управления очередями. Аналогичную популярность среди DevOps-инструментов завоевал Kubernetes (K8s) как наиболее мощное средство для автоматизации развертывания и управления контейнеризованными приложениями. В этой статье мы поговорим, как использовать эти технологии вместе и насколько это эффективно. Зачем разворачивать Apache Kafka на Kubernetes Одна из главных выгод применения Kubernetes с точки зрения DevOps – это стандартизация процессов развертывания и масштабирования распределенных приложений. Можно значительно ускорить наращивание кластера, рассматривая брокер Кафка как приложение в рамках одного пода (pod) K8s – добавление новых брокеров выполняется с помощью пары kubectl-команд или нескольких строк в ​​файле конфигурации. Также изменения, Далее …

Роль Apache Kafka в Big Data и DevOps: краткий ликбез и практические кейсы

Kafka, Big Data, Большие данные, интернет вещей, IoT, Internet Of Things, DevOps, архитектура, администрирование, обработка данных

Мы уже упоминали Apache Kafka в статье про промышленный интернет вещей (Industrial Internet Of Things, IIoT). Сегодня поговорим о том, где и для чего еще в Big Data проектах используется эта распределённая, горизонтально масштабируемая система обработки сообщений. Как работает Apache Kafka Apache Kafka позволяет в режиме онлайн обеспечить сбор и обработку следующих данных: поведение пользователя на сайте; потоки информации с множества конечных устройств IoT и IIoT («сырые данные»); агрегация журналов работы приложений; агрегация статистики из распределенных приложений для корпоративных витрин данных (ETL-хранилищ); журналирование событий. Яркий пример использования Apache Kafka – непрерывная передача информации со smart-периферии (конечных устройств) в IoT-платформу, когда данные не только передаются, но и обрабатываются множеством клиентов, которые называются подписчиками (consumers). В роли подписчиков выступают приложения и программные Далее …

Как защитить Big Data в кластере Kubernetes: лучшие практики, инструменты и приемы DevOps-инженера

DevOps, Kubernetes, администрирование, контейнеризация, безопасность, Security, защита информации, Big Data

Проанализировав самые критичные уязвимости Kubernetes за последние 2 года и ключевые факторы их возникновения, сегодня мы поговорим, как DevOps-инженеру и администратору обеспечить информационную безопасность в контейнерах Kubernetes для их эффективного применения в Big Data системах. Лучшие практики cybersecurity для Kubernetes Комплексную безопасность кластера Kubernetes и больших данных, которые там хранятся и обрабатываются, можно обеспечить совокупностью следующих инструментов: правильная настройка опций cybersecurity на всех ключевых элементах K8s-инфраструктуры; приемы системного и сетевого администрирования; использование специализированных средств для аудита, мониторинга, контроля и управления уровнем безопасности. Из специфических опций cybersecurity для кубенетис стоит отметить следующие: регулярное обновление Kubernetes до последней версии позволит избежать проблем с вновь обнаруженными уязвимостями, а также использовать новые возможности в области обеспечения cybersecurity; правильная настройка политик управления доступом на основе Далее …

Информационная безопасность для DevOps-инженера в Big Data: ТОП-5 проблем cybersecurity Kubernetes и Docker

DevOps, Kubernetes, администрирование, контейнеризация, безопасность, Security, защита информации

Мы уже рассказывали про самые критичные уязвимости Kubernetes за последние 2 года. Продолжая тему информационной безопасности в контейнерах Big Data систем, сегодня мы поговорим, почему популярнейшая DevOps-технология так чувствительна к хакерским атакам. Читайте в нашей статье об основных факторах нарушения cybersecurity в DevOps-инфраструктуре на примере Kubernetes и Docker. Основные векторы атак на Kubernetes Kubernetes – это многокомпонентная система со сложной архитектурой, каждый элемент которой может быть подвергнут хакерской атаке [1]: Узлы – рабочие серверы (Worker Node), где запускаются контейнеры приложений и другие компоненты Kubernetes (агенты, прокси-серверы и пр.), а также главный мастер-сервер, который управляет всем кластером рабочих узлов (подов) и развертыванием модулей на этих узлах (Master Node); Поды (pods) – элементарные единицы развертывания и адресации в K8s, содержащие один или несколько Далее …

7 самых критичных уязвимостей Kubernetes за последние 2 года

Kubernetes, контейнеризация, информационная безопасность, уязвимости, атаки

В продолжении темы контейнеризации приложений и применения этой технологии в Big Data системах, сегодня мы поговорим, действительно она абсолютно безопасна. А также насколько популярнейшая DevOps-технология, Kubernetes, «великий кормчий» среди систем оркестрации контейнеров, соответствует своему визуальному образу «неуязвимого» океанического лайнера. Спойлер: на самом деле нет, K8s, как и любые другие технологии Big Data, подвержен хакерским атакам. Читайте подробности в нашей статье. Крупнейшие уязвимости Kubernetes в 2018 году В 2018 году было сразу несколько ярких инцидентов с нарушением информационной безопасности K8s, которые доставили немало волнений DevOps-инженерам и специалистам по cybersecurity Big Data систем. В частности, некорректная конфигурация панели управления Kubernetes и отсутствие на ней пароля для авторизации позволили злоумышленникам получить доступ к одному из pod’ов с учётной записью с возможностью обращения к Далее …

Упакуем все: зачем нужны контейнеры и как с ними работать в Big Data

Big Data, контейнеры, Kubernetes, Docker

Мы уже рассказывали про достоинства и недостатки самой популярной DevOps-технологии 2019 года – платформы управления контейнерами Kubernetes для Big Data систем. Сегодня поговорим, зачем вообще нужны контейнеры, чем они отличаются от виртуальных машин, каковы их плюсы и минусы, а также для чего нужна их оркестрация. Что такое контейнеризация приложений и как это работает Контейнеризация (виртуализация на уровне операционной системы, контейнерная или зонная виртуализация) – это метод виртуализации, при котором ядро операционной системы поддерживает несколько изолированных экземпляров пространства пользователя вместо одного. С точки зрения пользователя эти экземпляры (контейнеры или зоны) полностью идентичны отдельной операционной системе. Ядро обеспечивает полную изолированность контейнеров, поэтому приложения из разных контейнеров не могут воздействовать друг на друга [1]. В неработающем состоянии контейнер – это файл (набор файлов) Далее …

Блеск и нищета Kubernetes: достоинства и недостатки самой популярной DevOps-технологии для Big Data систем

оркестрация котейнеров, кПлюсы и минусы Kubernetes, Big Data, большие данныеубернетис, k8s,

Сегодня, когда ИТ-компании распиливают монолиты своих Big Data систем на микросервисы, а DevOps-подход совершает свое победное шествие по локальным и облачным кластерам, Kubernetes стал, пожалуй, самой востребованной технологией 2019 года. Однако, K8s нужен далеко не каждому проекту. В этой статье мы поговорим о достоинствах и недостатках кубернетис, в каких случаях он не нужен и какие есть альтернативы этой популярной платформе управления контейнеризованными приложениями. Плюсы Kubernetes Кубернетис считается системой или даже платформой оркестрации контейнеров с самыми широкими функциональными возможностями [1]. С точки зрения использования K8s в Big Data системах наиболее значимы следующие преимущества Kubernetes [2]: автоматическая балансировка нагрузки с помощью постоянного мониторинга сведений о производительности и использовании ресурсов и соответствующее распределение работающих приложений по всему виртуальному кластеру; наличие API и интерфейса Далее …

Кто такой Big Data Administrator: профессиональные компетенции администратора больших данных

администрирование, администратор, большие данные, administrator big data

В прошлых выпусках мы рассмотрели, чем занимаются аналитик (Data Analyst), исследователь (Data Scientist) и инженер больших данных (Data Engineer). Завершая цикл статей о самых популярных профессиях Big Data, поговорим об администраторе больших данных – его рабочих обязанностях, профессиональных компетенциях, зарплате и отличиях от других специалистов. Итак, в сегодняшней статье – Administrator Big Data «для чайников». Что делает администратор Big Data Администратор больших данных занимается созданием и поддержкой кластерных решений (в том числе облачных платформ на базе Apache Hadoop), включая: установку и развертывание кластера; выбор начальной конфигурации; оптимизацию узлов на уровне ядра; управление обновлениями и создание локальных репозиториев; настройку репликаций, аутентификаций и средств управления очередями; обеспечение информационной безопасности кластеров; мониторинг производительности и балансировка нагрузки на серверы; обеспечение информационной безопасности кластеров и Далее …

Цифровая корпорация 21-го века: что такое Data-Driven Company

Data-Driven Company, Agile, DevOps, бизнес-процессы, управление, менеджмент, администрирование, предиктивная аналитика, цифровизация, цифровая трансформация, Big Data, Большие данные

В результате цифровой трансформации «традиционного предприятия» должна получиться идеальная организация, работающая на основе данных, в т.ч. больших (Big Data). Сегодня мы поговорим, что такое Data—Driven Company, чем она отличается и как ей стать: читайте в нашей статье, какие инструменты Big Data, методы Agile и инженерные подходы системного анализа применяются для «тотальной цифровизации», повышения эффективности труда и использования данных. Что такое Data—Driven Company (DDC) Data—Driven Company – это предприятие, гибкое управляемое данными – дата-ориентированная Agile-компания, бизнес-процессы и организационная структура которой построены на основе сквозной интеграции информационных потоков и их непрерывной, в т.ч. прогнозной предиктивной, аналитике. При этом цепочка создания ценности (основного продукта) выглядит следующим образом [1]: большие данные о рабочих процессах и продуктах, текущем и прогнозном состояниях внешней среды, настоящих и Далее …

NoOps: DevOps умер, да здравствует девопс! Новый Agile в облаках

NoOps, Agile, DevOps, бизнес-процессы, управление, менеджмент, администрирование

Продолжая тему развития Agile, сегодня мы расскажем о новом видении DevOps, предполагающем полный отказ от девопс-инженеров при сохранении всех принципов этого похода. Читайте в нашей статье, что такое NoOps и как эта концепция реализуется в мире Big Data. 5 разных мнений о DevOps Хотя термину «DevOps» уже исполнилось более 10 лет, а самому понятию – и того больше, до сих пор существует 5 совершенно разных точек зрения на счет практического использования этого подхода: DevOps – это стильно, модно, молодежно и нужно срочно внедрять, даже если в нем пока нет большой потребности или не позволяют возможности. Как поступать в таком случае, мы рассказывали в этой статье. DevOps – это просто раскрученный маркетинговый ход, всю работу дорогостоящего DevOps-инженера может сделать «продвинутый» системный Далее …