Как внедрить MLOps: краткое пошаговое руководство

цифровизация, цифровая трансформация, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, Agile, DevOps, MLOps

Рассказав, как оценить уровень зрелости Machine Learning Operations по модели Google или методике GigaOm, сегодня мы поговорим про этапы и особенности практического внедрения MLOps в корпоративные процессы. Читайте далее, какие организационные мероприятия и технические средства необходимы для непрерывного управления жизненным циклом машинного обучения в промышленной эксплуатации (production). 2 направления для внедрения MLOps Напомним, MLOps – это культура и набор практик для автоматизации комплексного управления жизненным циклом систем машинного обучения, от разработки (Development) до эксплуатации (Operations) всех компонентов: ML-модели, программный код и инфраструктура развертывания. MLOps расширяет методологию CRISP-DM с помощью Agile-подхода и технических инструментов автоматизированного выполнения операций с данными, ML-моделями, кодом и окружением. Таким образом, практическое внедрение MLOps следует вести сразу по 2-м направлениям: организационное, что предполагает адаптацию принципов Agile к корпоративной культуре и частичную перестройку Далее …

Насколько созрел ваш MLOps: многокритериальная 5-уровневая модель зрелости Machine Learning Operations

цифровизация, цифровая трансформация, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, Agile, DevOps, MLOps

Недавно мы рассказывали про модель зрелости MLOps от Google. Сегодня рассмотрим альтернативную методику оценки зрелости операций разработки и эксплуатации машинного обучения, которая больше похоже на наиболее популярную в области управленческого консалтинга модель CMMI, часто используемую в проектах цифровизации. Читайте далее, по каким критериям измеряется Machine Learning Operations Maturity Model и как применить это на практике.   5 критериев для оценки MLOps-зрелости Предложенная компанией Google 3-х уровневая модель оценки зрелости MLOps не является единственной. Например, альтернатива от исследовательской ИТ-компанией GigaOm, в отличие от Google-варианта, учитывает не только технологии поддержки жизненного цикла машинного обучения, но и корпоративную культуру, которая неотделима от любой технической парадигмы. GigaOm выделяет 5 уровней MLOps-зрелости, оценивая состояние Machine Learning и окружающей инфраструктуры на предприятии по следующим критериям [1]: Далее …

Готовы ли вы к MLOps: что такое Machine Learning Operations Maturity Model

MlOps, цифровизация, цифровая трансформация, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, Agile, DevOps, CMMI

Цифровизация и запуск проектов Big Data предполагают некоторый уровень управленческой зрелости бизнеса, который обычно оценивается по модели CMMI. MLOps также требует предварительной готовности предприятия к базовым ценностям этой концепции. Читайте в нашей статье, что такое Machine Learning Operations Maturity Model – модель зрелости операций разработки и эксплуатации машинного обучения, из каких уровней она состоит и как оценить готовность к внедрению MLOps в вашей компании. 3 уровня MLOps-зрелости по версии Google Напомним, как и цифровая трансформация, MLOps – это не только технологии, но и корпоративная культура, а также устойчивое развитие производственных процессов.  При этом запуск машинного обучения в промышленную эксплуатацию (production) можно представить следующей последовательностью этапов, которые можно выполнить вручную или с помощью автоматического конвейера [1]: извлечение данных (Data extraction), когда Далее …

Зачем вам MLOps: новый подход к Machine Learning в production

MLOps, цифровизация, цифровая трансформация, Big Data, Большие данные, CRISP-DM, Data Science, машинное обучение, Machine Learning, Agile, DevOps

Пока цифровизация воплощает в жизнь концепцию DataOps, мир Big Data вводит новую парадигму – MLOps. Читайте в нашей статье, что такое MLOps, зачем это нужно бизнесу и какие специалисты потребуются при внедрении практик и инструментов сопровождения всех операций жизненного цикла моделей машинного обучения (Machine Learning Operations). Что такое MLOps, почему это стало актуально и при чем тут Big Data По аналогии с DevOps и DataOps, в связи с популяризацией методов Machine Learning и ростом их практических внедрений, у бизнеса появилась потребность в организации непрерывного сотрудничества и взаимодействия между всеми участниками процессов работы с моделями машинного обучения от бизнеса до инженеров и разработчиков Big Data, включая Data Scientist’ов и ML-специалистов. Понятие MLOps еще достаточно молодое, однако с каждым днем оно становится Далее …

Цифровизация рабочего пространства: ТОП-3 тенденции 2020

цифровизация, цифровая трансформация, цифровая экономика, Agile, администрирование, интернет вещей, Internet of Things, IoT

Вчера мы говорили про наиболее перспективные технологии 2020 с точки зрения исследовательского агентства Gartner и их влияние на цифровую трансформацию. Сегодня продолжим разбирать современные тенденции изменения рабочего пространства с учетом эпидемиологической напряженности и тренда на дистанционное взаимодействие. Читайте далее, что такое Desktop as a Service, как выглядит интеллектуальное рабочее пространство, чем отличается BYOD от BYOT и каким образом все это полезно для корпоративной цифровизации. Цифровизация офиса: 6 трендов 2020 от Gartner Помимо всего прочего, 2020 год также можно назвать годом удаленной работы и трансформации рабочего пространства из-за пандемии COVID-19, карантинного режима и мер по предотвращению инфекции. В связи с этим компания Gartner провела перечень самых популярных технологий по организации офисных мест, причем не только удаленных [1]: облачная цифровизация рабочей ячейки, Далее …

От ДНК-чипов до цифровых двойников: 5 самых перспективных технологий 2020 от Gartner

цифровизация, цифровая трансформация, Big Data, Большие данные, цифровая экономика, Agile

Постоянно обновляя наши курсы «Аналитика больших данных для руководителей» в соответствии с развитием области Big Data и вызовов современного бизнеса, сегодня мы расскажем про наиболее перспективные технологии с точки зрения исследовательского агентства Gartner, а также рассмотрим их влияние на цифровую трансформацию. Читайте в нашей статье, почему цифровой двойник нужен не только производству, как цифровая трансформация преобразует корпоративную архитектуру, а также при чем тут созидательный искусственный интеллект (ИИ) и доверие алгоритмам. Хайп-цикл 2020: ТОП-5 новых технологий Карантинные меры из-за пандемии COVID-19 оказали беспрецедентное влияние на все области человеческой жизни, включая ИТ-сферу. При общем негативном влиянии на мировую экономику, коронавирус выступил драйвером развития технологий удаленного взаимодействия, масштабной обработки и аналитики больших данных, о чем мы писали здесь. Поэтому неудивительно, что эксперты Gartner Далее …

Когда и зачем нужен Apache Spark на Kubernetes: варианты использования и преимущества

Spark, Kubernetes, DevOps, администрирование, Agile, Docker, Hadoop

Чтобы сделать курсы по Spark еще более интересными и полезными, сегодня мы расскажем, зачем этот Big Data фреймворк разворачивают на Kubernetes (K8s) – платформе автоматизации развёртывания, масштабирования и управления контейнеризированными приложениями. Читайте в нашей статье про основные варианты использования и достоинства этого подхода к администрированию и эксплуатации Apache Spark. Зачем вам нужен Apache Spark на Kubernetes: 3 варианта использования Можно выделить несколько типовых сценариев, когда целесообразно Apache Spark на Kubernetes [1]: разработка и тестирование (отладка) программного обеспечения (ПО), когда разработчику необходим гибкий доступ к экземплярам конечных систем; развертывание разработанного ПО в соответствии с DevOps-подходом, включая непрерывную интеграцию и развертывание (CI/CD, Continuous Integration и Continuous Delivery). Чтобы упростить этот процесс, можно использовать Apache Livy в качестве REST API для запуска задач Далее …

От беспорядочных связей к микросервисной консистентности: архитектурная история Big Data систем на примере Apache Kafka

Big Data, Большие данные, обработка данных, архитектура, Kafka, Agile, DevOps, DWH, Data Lake

В этой статье поговорим про интеграцию информационных систем: обсудим SOA и ESB-подходы, рассмотрим стриминговую архитектуру и возможности Apache Kafka для организации быстрого и эффективного обмена данными между различными бизнес-приложениями. Также обсудим, что влияет на архитектуру интеграции корпоративных систем и распределенных Big Data приложений, что такое спагетти-структура и почему много сервисов – это та же паста, только в профиль. Как рождаются спагетти или от чего зависит архитектура интеграции Чтобы пояснить, насколько сложны вопросы корпоративной ИТ-архитектуры, перечислим основные факторы, от которых зависит интеграция информационных систем [1]: Технологии (SOAP, REST, JMS, MQTT), форматы данных (JSON, XML, Apache Avro или Protocol Buffer), фреймворки и экосистемы (Nginx, Kubernetes, Apache Hadoop), собственные интерфейсы (EDIFACT, SAP BAPI и пр.); языки программирования и платформы, например, Java, .NET, Go Далее …

5 причин разделения кластеров Apache Kafka по DevOps

Big Data, Большие данные, обработка данных, архитектура, Kafka, SQL, Agile, DevOps

В продолжение темы про проявление Agile-принципов в Big Data системах, сегодня мы рассмотрим, как DevOps-подход отражается в использовании Apache Kafka. Читайте в нашей статье про кластерную архитектуру коннекторов Кафка и KSQL – SQL-движка на основе API клиентской библиотеки Kafka Streams для аналитики больших данных, о которой мы рассказывали здесь. Из чего сделана Apache Kafka: 6 базовых компонентов Apache Kafka – это не просто брокер сообщений, а полноценная стриминговая платформа для сбора, агрегации и обработки больших данных, включающая следующие компоненты [1]: ядро распределенного обмена сообщениями и хранения Big Data, обеспечивающее мощную пропускную способность, низкую задержку (latency), высокую доступность и безопасность; Kafka Connect – интеграционная структура для подключения внешних источников и приемников к Кафка; Kafka Streams – клиентская библиотека для создания распределенных Далее …

Быстро, непрерывно, вместе: 3 принципа Agile в KSQL и Apache Kafka Connect

Big Data, Большие данные, обработка данных, архитектура, Kafka, SQL, Agile

Мы уже рассказывали, как некоторые принципы Agile отражаются в Big Data системах. Сегодня рассмотрим это подробнее на примере коннекторов Кафка и KSQL – SQL-движка для Apache Kafka. Он который базируется на API клиентской библиотеки для разработки распределенных приложений с потоковыми данными Kafka Streams и позволяет обрабатывать данные в режиме реального времени с использованием SQL-операторов вместо Java-кода. Падайте быстро, поднимайтесь еще быстрее c Kafka Connect Напомним, Agile предполагает высокую скорость и частоту каждой итерации проекта, включая быструю реакцию на неудачи. Принцип непрерывной адаптации к изменяющимся обстоятельствам отражается в подходе «fail fast, learn faster»: падайте быстро, учитесь быстрее – не стоит бояться ошибок, следует оперативно их исправлять [1]. Этот принцип используется в среде коннекторов – Kafka Connect, которая позволяет связать Кафка с Далее …