Какой Machine Learning в вашем production: 5 популярных паттернов на любой вкус и 2 основные стратегии внедрения

цифровизация, архитектура, контейнеризация, Docker, Kubernetes, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, DevOps, MLOps, Kafka, Data Lake, Hadoop

Завершая цикл статей про MLOps, сегодня мы расскажем про 5 шаблонов практического внедрения моделей Machine Learning в промышленную эксплуатацию (production). Читайте далее, что такое Model-as-Service, чем это отличается от гибридного обслуживания и еще 3-х вариантов интеграции машинного обучения в production-системы аналитики больших данных (Big Data), а также при чем тут Apache Kafka, Лямбда-архитектура, контейнеризация и бессерверные вычисления. MLOps-шаблоны внедрения ML-моделей в production MLOps-энтузиасты выделяют следующие паттерны внедрения моделей машинного обучения в production [1]: Модель как услуга или сервис (Model-as-Service); Модель как зависимость (Model-as-Dependency); Предварительный расчет (Precompute); Модель по запросу (Model-on-Demand); Гибридная модель обслуживания (Hybrid Model Serving) или Федеративное обучение (Federated Learning)   Критерий ML-модель Обслуживание и версионирование (Service & Versioning) Вместе с приложением-потребителем Независимо от приложения-потребителя Доступность во время компиляции Далее …

Как внедрить MLOps: краткое пошаговое руководство

цифровизация, цифровая трансформация, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, Agile, DevOps, MLOps

Рассказав, как оценить уровень зрелости Machine Learning Operations по модели Google или методике GigaOm, сегодня мы поговорим про этапы и особенности практического внедрения MLOps в корпоративные процессы. Читайте далее, какие организационные мероприятия и технические средства необходимы для непрерывного управления жизненным циклом машинного обучения в промышленной эксплуатации (production). 2 направления для внедрения MLOps Напомним, MLOps – это культура и набор практик для автоматизации комплексного управления жизненным циклом систем машинного обучения, от разработки (Development) до эксплуатации (Operations) всех компонентов: ML-модели, программный код и инфраструктура развертывания. MLOps расширяет методологию CRISP-DM с помощью Agile-подхода и технических инструментов автоматизированного выполнения операций с данными, ML-моделями, кодом и окружением. Таким образом, практическое внедрение MLOps следует вести сразу по 2-м направлениям: организационное, что предполагает адаптацию принципов Agile к корпоративной культуре и частичную перестройку Далее …

Насколько созрел ваш MLOps: многокритериальная 5-уровневая модель зрелости Machine Learning Operations

цифровизация, цифровая трансформация, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, Agile, DevOps, MLOps

Недавно мы рассказывали про модель зрелости MLOps от Google. Сегодня рассмотрим альтернативную методику оценки зрелости операций разработки и эксплуатации машинного обучения, которая больше похоже на наиболее популярную в области управленческого консалтинга модель CMMI, часто используемую в проектах цифровизации. Читайте далее, по каким критериям измеряется Machine Learning Operations Maturity Model и как применить это на практике.   5 критериев для оценки MLOps-зрелости Предложенная компанией Google 3-х уровневая модель оценки зрелости MLOps не является единственной. Например, альтернатива от исследовательской ИТ-компанией GigaOm, в отличие от Google-варианта, учитывает не только технологии поддержки жизненного цикла машинного обучения, но и корпоративную культуру, которая неотделима от любой технической парадигмы. GigaOm выделяет 5 уровней MLOps-зрелости, оценивая состояние Machine Learning и окружающей инфраструктуры на предприятии по следующим критериям [1]: Далее …

Готовы ли вы к MLOps: что такое Machine Learning Operations Maturity Model

MlOps, цифровизация, цифровая трансформация, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, Agile, DevOps, CMMI

Цифровизация и запуск проектов Big Data предполагают некоторый уровень управленческой зрелости бизнеса, который обычно оценивается по модели CMMI. MLOps также требует предварительной готовности предприятия к базовым ценностям этой концепции. Читайте в нашей статье, что такое Machine Learning Operations Maturity Model – модель зрелости операций разработки и эксплуатации машинного обучения, из каких уровней она состоит и как оценить готовность к внедрению MLOps в вашей компании. 3 уровня MLOps-зрелости по версии Google Напомним, как и цифровая трансформация, MLOps – это не только технологии, но и корпоративная культура, а также устойчивое развитие производственных процессов.  При этом запуск машинного обучения в промышленную эксплуатацию (production) можно представить следующей последовательностью этапов, которые можно выполнить вручную или с помощью автоматического конвейера [1]: извлечение данных (Data extraction), когда Далее …

Зачем вам MLOps: новый подход к Machine Learning в production

MLOps, цифровизация, цифровая трансформация, Big Data, Большие данные, CRISP-DM, Data Science, машинное обучение, Machine Learning, Agile, DevOps

Пока цифровизация воплощает в жизнь концепцию DataOps, мир Big Data вводит новую парадигму – MLOps. Читайте в нашей статье, что такое MLOps, зачем это нужно бизнесу и какие специалисты потребуются при внедрении практик и инструментов сопровождения всех операций жизненного цикла моделей машинного обучения (Machine Learning Operations). Что такое MLOps, почему это стало актуально и при чем тут Big Data По аналогии с DevOps и DataOps, в связи с популяризацией методов Machine Learning и ростом их практических внедрений, у бизнеса появилась потребность в организации непрерывного сотрудничества и взаимодействия между всеми участниками процессов работы с моделями машинного обучения от бизнеса до инженеров и разработчиков Big Data, включая Data Scientist’ов и ML-специалистов. Понятие MLOps еще достаточно молодое, однако с каждым днем оно становится Далее …

Чем похожи CRISP-DM и BABOK®Guide: бизнес-анализ в Data Science

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, BABOK, CRISP-DM, бизнес-анализ, подготовка данных, Data Science, Data Mining

Мы уже рассказывали, что цифровизация и другие масштабные проекты внедрения технологий Big Data должны обязательно сопровождаться процедурами бизнес-анализа, начиная от выявления требований на старте до оценки эффективности уже эксплуатируемого решения. Сегодня рассмотрим, как задачи бизнес-анализа из руководства BABOK®Guide коррелируют с этапами методологии исследования данных CRISP-DM, которая считается стандартом де-факто в области Data Science. Еще раз про CRISP-DM: что это и из чего состоит CRISP-DM (Cross-Industry Standard Process for Data Mining) — это наиболее распространенная на практике методология выполнения Data Science проектов, которую принято называть межотраслевым стандартным процессом исследования данных. Он описывает жизненный цикл Data Science проектов в следующих 6 фазах, каждая из которых включает ряд задач: понимание бизнеса (Business Understanding), где через оценку текущей ситуации определяются бизнес-цели и требования, а также Далее …

Как подключить PySpark и Kaggle в Google Colab

Недавно мы рассказывали, что такое PySpark. Сегодня рассмотрим, как подключить PySpark в Google Colab, а также как скачать датасет из Kaggle прямо в Google Colab, без непосредственной загрузки программ и датасетов на локальный компьютер. Google Colab Google Colab — выполняемый документ, который позволяет писать, запускать и делиться своим Python-кодом через Google Drive. Это тот же самый Jupyter Notebook, только блокноты хранятся в Google Drive, а выполняются на сервере. В отличие от традиционных инструментов разработки, Jupyter Notebook состоит из ячеек, где можно писать код (чаще всего на Python), запускать и сразу же смотреть результаты. Кроме того, ячейки блокнотов могут содержать не только код, но и текст, формулы, рисунки и видео. Особенную популярность блокноты получили у Data Scientist’ов, поскольку позволяют мгновенно тестировать Далее …

Чем Apache Zeppelin лучше Jupyter Notebook для интерактивной аналитики Big Data: 4 ключевых преимущества

Livy, Python, Spark, архитектура, обработка данных, Big Data, большие данные, безопасность, security, Hadoop, PySpark, Arenadata, Apache Zeppelin, Jupyter Notebook

В этой статье мы рассмотрим, что такое Apache Zeppelin, как он полезен для интерактивной аналитики и визуализации больших данных (Big Data), а также чем этот инструмент отличается от популярного среди Data Scientist’ов и Python-разработчиков Jupyter Notebook. Что такое Apache Zeppelin и чем он полезен Data Scientist’у Начнем с определения: Apache Zeppelin – это интерактивный веб-блокнот (или «ноутбук» от notebook) с открытым исходным кодом, который поддерживает практически все этапы работы с данными в Data Science, от извлечения до визуализации, в т.ч. интерактивный анализ и совместное использование документов. Он интегрирован с Apache Spark, Flink, Hadoop, множеством реляционных и NoSQL-СУБД (Cassandra, HBase, Hive, PostgreSQL, Elasticsearch, Google Big Query, Mysql, MariaDB, Redshift), а также поддерживает различные языки программирования, популярные в области Big Data: Python, Далее …

5 причин, почему аналитика больших данных иногда выгоднее модного Data Science: взгляд со стороны бизнеса

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, обработка данных, CRISP-DM, Data Science, Data Scientist

В этой статье мы рассмотрим несколько популярных мифов о Data Science и аналитике больших данных (Big Data), разобрав, когда и почему простое использование BI-систем или облачных DaaS-платформ бывает гораздо эффективнее попыток внедрения алгоритмов машинного обучения (Machine Learning) и прочих методов Data Science в операционные и стратегические бизнес-процессы. Почему 80% Data Science проектов обречены на провал: простая причина больших ошибок в Big Data Начнем с наиболее распространенного в широкой общественности мнения: Big Data есть только у больших компаний, а Data Science мгновенно приносит огромную выгоду, генерируя магические дата-инсайты. На самом деле сегодня достаточно большие объемы данных имеются даже у малого и среднего бизнеса, чья деятельность, в основном, связана с цифровыми технологиями. Например, интернет-магазины и процессинговые центры, а также популярные медиа (блоги, Далее …

20 проблем для Data Scientist, от которых не спасет CRISP-DM

машинное обучение, Machine Learning, обработка данных, Big Data, Большие данные, статистика, Data Science, Data Scientist

Иван Гуз, директор по аналитике и клиентскому сервису Avito, 24.04.2018 на митапе AI Community и AI Today для специалистов по Data Science в офисе компании [1] рассказал о самых главных проблемах, которые подстерегают исследователя данных на практических проектах и от чего не убережет даже подробно проработанный стандарт CRISP-DM. Из его доклада [2] мы выделили топ-20 популярных ошибок и варианты их решений. Часть из них уже упоминалась в статье, посвященной выступлению Станислава Гафарова, руководителя направления по развитию ИТ-систем АО «СберТех» [3], которое состоялось в рамках того же мероприятия [1]. А в сегодняшнем материале мы подробно описываем трудности каждой фазы CRISP-DM – читайте внимательно, чтобы избежать подобных ошибок в своей практике! 5 проблем бизнес-анализа по CRISP-DM Неточная постановка задачи: расплывчатые формулировки и Далее …