Какой Machine Learning в вашем production: 5 популярных паттернов на любой вкус и 2 основные стратегии внедрения

цифровизация, архитектура, контейнеризация, Docker, Kubernetes, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, DevOps, MLOps, Kafka, Data Lake, Hadoop

Завершая цикл статей про MLOps, сегодня мы расскажем про 5 шаблонов практического внедрения моделей Machine Learning в промышленную эксплуатацию (production). Читайте далее, что такое Model-as-Service, чем это отличается от гибридного обслуживания и еще 3-х вариантов интеграции машинного обучения в production-системы аналитики больших данных (Big Data), а также при чем тут Apache Kafka, Лямбда-архитектура, контейнеризация и бессерверные вычисления. MLOps-шаблоны внедрения ML-моделей в production MLOps-энтузиасты выделяют следующие паттерны внедрения моделей машинного обучения в production [1]: Модель как услуга или сервис (Model-as-Service); Модель как зависимость (Model-as-Dependency); Предварительный расчет (Precompute); Модель по запросу (Model-on-Demand); Гибридная модель обслуживания (Hybrid Model Serving) или Федеративное обучение (Federated Learning)   Критерий ML-модель Обслуживание и версионирование (Service & Versioning) Вместе с приложением-потребителем Независимо от приложения-потребителя Доступность во время компиляции Далее …

Что не так с Apache Spark на Kubernetes: 5 ключевых недостатков

Spark, Kubernetes, DevOps, администрирование, Hadoop, контейнеризация, MapReduce

Вчера мы рассказывали об основных сценариях запуска Apache Spark на Kubernetes и преимуществах этого варианта развертывания популярного Big Data фреймворка на DevOps-платформе автоматизированного управления контейнеризированными приложениями. Сегодня поговорим про обратную сторону всех этих преимуществ: читайте в нашей статье, каковы основные ограничения и главные недостатки запуска Apache Spark на Kubernetes (K8s). Минусы запуска Apache Spark на Kubernetes При запуске Apache Spark на Kubernetes, следует помнить об ограничениях совместного использования этих Big Data технологий, основных из которых можно назвать следующие: распределенность данных или отсутствие локальности (Data Locality) – в случае кластера K8s для выполнения задачи необходимо перемещать данные по сети, тогда как, например, в Hadoop YARN соблюдался принцип доставки кода к данным. Благодаря этому задачи Spark выполнялись на тех узлах, где лежали Далее …

Когда и зачем нужен Apache Spark на Kubernetes: варианты использования и преимущества

Spark, Kubernetes, DevOps, администрирование, Agile, Docker, Hadoop

Чтобы сделать курсы по Spark еще более интересными и полезными, сегодня мы расскажем, зачем этот Big Data фреймворк разворачивают на Kubernetes (K8s) – платформе автоматизации развёртывания, масштабирования и управления контейнеризированными приложениями. Читайте в нашей статье про основные варианты использования и достоинства этого подхода к администрированию и эксплуатации Apache Spark. Зачем вам нужен Apache Spark на Kubernetes: 3 варианта использования Можно выделить несколько типовых сценариев, когда целесообразно Apache Spark на Kubernetes [1]: разработка и тестирование (отладка) программного обеспечения (ПО), когда разработчику необходим гибкий доступ к экземплярам конечных систем; развертывание разработанного ПО в соответствии с DevOps-подходом, включая непрерывную интеграцию и развертывание (CI/CD, Continuous Integration и Continuous Delivery). Чтобы упростить этот процесс, можно использовать Apache Livy в качестве REST API для запуска задач Далее …

Как найти товарные остатки с помощью Big Data и Machine Learning: пример Леруа Мерлен

Big Data, Большие данные, обработка данных, архитектура, цифровизация, цифровая трансформация, Kafka, ритейл, Greenplum, Tarantol, SQL, NoSQL, AirFlow, NiFi, ETL, Data Lake, Machine Learning, машинное обучение

Чтобы наглядно показать, как аналитика больших данных и машинное обучение помогают быстро решить актуальные бизнес-проблемы, сегодня мы рассмотрим кейс компании Леруа Мерлен. Читайте в нашей статье про нахождение аномалий в сведениях об остатках товара на складах и в магазинах с помощью моделей Machine Learning, а также про прикладное использование Apache Kafka, NiFi, AirFlow, Greenplum, MongoDB, Tarantool, Kubernetes и прочих технологий Big Data. Где товар или постановка задачи от бизнеса: проблемы, возможности и ограничения Проблема оперативной инвентаризации товаров, доступных для продажи прямо сейчас, актуальна для любого торгового предприятия. В Леруа Мерлен она усугублялась тем, что помимо сети крупных супермаркетов, в компании также есть склады и так называемые дарксторы. Заказы из интернет-магазинов могут собираться из всех трех торговых баз (супермаркет, склад, даркстор). Далее …

Как защитить Big Data в кластере Kubernetes: лучшие практики, инструменты и приемы DevOps-инженера

DevOps, Kubernetes, администрирование, контейнеризация, безопасность, Security, защита информации, Big Data

Проанализировав самые критичные уязвимости Kubernetes за последние 2 года и ключевые факторы их возникновения, сегодня мы поговорим, как DevOps-инженеру и администратору обеспечить информационную безопасность в контейнерах Kubernetes для их эффективного применения в Big Data системах. Лучшие практики cybersecurity для Kubernetes Комплексную безопасность кластера Kubernetes и больших данных, которые там хранятся и обрабатываются, можно обеспечить совокупностью следующих инструментов: правильная настройка опций cybersecurity на всех ключевых элементах K8s-инфраструктуры; приемы системного и сетевого администрирования; использование специализированных средств для аудита, мониторинга, контроля и управления уровнем безопасности. Из специфических опций cybersecurity для кубенетис стоит отметить следующие: регулярное обновление Kubernetes до последней версии позволит избежать проблем с вновь обнаруженными уязвимостями, а также использовать новые возможности в области обеспечения cybersecurity; правильная настройка политик управления доступом на основе Далее …

Информационная безопасность для DevOps-инженера в Big Data: ТОП-5 проблем cybersecurity Kubernetes и Docker

DevOps, Kubernetes, администрирование, контейнеризация, безопасность, Security, защита информации

Мы уже рассказывали про самые критичные уязвимости Kubernetes за последние 2 года. Продолжая тему информационной безопасности в контейнерах Big Data систем, сегодня мы поговорим, почему популярнейшая DevOps-технология так чувствительна к хакерским атакам. Читайте в нашей статье об основных факторах нарушения cybersecurity в DevOps-инфраструктуре на примере Kubernetes и Docker. Основные векторы атак на Kubernetes Kubernetes – это многокомпонентная система со сложной архитектурой, каждый элемент которой может быть подвергнут хакерской атаке [1]: Узлы – рабочие серверы (Worker Node), где запускаются контейнеры приложений и другие компоненты Kubernetes (агенты, прокси-серверы и пр.), а также главный мастер-сервер, который управляет всем кластером рабочих узлов (подов) и развертыванием модулей на этих узлах (Master Node); Поды (pods) – элементарные единицы развертывания и адресации в K8s, содержащие один или несколько Далее …

7 самых критичных уязвимостей Kubernetes за последние 2 года

Kubernetes, контейнеризация, информационная безопасность, уязвимости, атаки

В продолжении темы контейнеризации приложений и применения этой технологии в Big Data системах, сегодня мы поговорим, действительно она абсолютно безопасна. А также насколько популярнейшая DevOps-технология, Kubernetes, «великий кормчий» среди систем оркестрации контейнеров, соответствует своему визуальному образу «неуязвимого» океанического лайнера. Спойлер: на самом деле нет, K8s, как и любые другие технологии Big Data, подвержен хакерским атакам. Читайте подробности в нашей статье. Крупнейшие уязвимости Kubernetes в 2018 году В 2018 году было сразу несколько ярких инцидентов с нарушением информационной безопасности K8s, которые доставили немало волнений DevOps-инженерам и специалистам по cybersecurity Big Data систем. В частности, некорректная конфигурация панели управления Kubernetes и отсутствие на ней пароля для авторизации позволили злоумышленникам получить доступ к одному из pod’ов с учётной записью с возможностью обращения к Далее …

Упакуем все: зачем нужны контейнеры и как с ними работать в Big Data

Big Data, контейнеры, Kubernetes, Docker

Мы уже рассказывали про достоинства и недостатки самой популярной DevOps-технологии 2019 года – платформы управления контейнерами Kubernetes для Big Data систем. Сегодня поговорим, зачем вообще нужны контейнеры, чем они отличаются от виртуальных машин, каковы их плюсы и минусы, а также для чего нужна их оркестрация. Что такое контейнеризация приложений и как это работает Контейнеризация (виртуализация на уровне операционной системы, контейнерная или зонная виртуализация) – это метод виртуализации, при котором ядро операционной системы поддерживает несколько изолированных экземпляров пространства пользователя вместо одного. С точки зрения пользователя эти экземпляры (контейнеры или зоны) полностью идентичны отдельной операционной системе. Ядро обеспечивает полную изолированность контейнеров, поэтому приложения из разных контейнеров не могут воздействовать друг на друга [1]. В неработающем состоянии контейнер – это файл (набор файлов) Далее …

Блеск и нищета Kubernetes: достоинства и недостатки самой популярной DevOps-технологии для Big Data систем

оркестрация котейнеров, кПлюсы и минусы Kubernetes, Big Data, большие данныеубернетис, k8s,

Сегодня, когда ИТ-компании распиливают монолиты своих Big Data систем на микросервисы, а DevOps-подход совершает свое победное шествие по локальным и облачным кластерам, Kubernetes стал, пожалуй, самой востребованной технологией 2019 года. Однако, K8s нужен далеко не каждому проекту. В этой статье мы поговорим о достоинствах и недостатках кубернетис, в каких случаях он не нужен и какие есть альтернативы этой популярной платформе управления контейнеризованными приложениями. Плюсы Kubernetes Кубернетис считается системой или даже платформой оркестрации контейнеров с самыми широкими функциональными возможностями [1]. С точки зрения использования K8s в Big Data системах наиболее значимы следующие преимущества Kubernetes [2]: автоматическая балансировка нагрузки с помощью постоянного мониторинга сведений о производительности и использовании ресурсов и соответствующее распределение работающих приложений по всему виртуальному кластеру; наличие API и интерфейса Далее …