Готовы ли вы к MLOps: что такое Machine Learning Operations Maturity Model

MlOps, цифровизация, цифровая трансформация, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, Agile, DevOps, CMMI

Цифровизация и запуск проектов Big Data предполагают некоторый уровень управленческой зрелости бизнеса, который обычно оценивается по модели CMMI. MLOps также требует предварительной готовности предприятия к базовым ценностям этой концепции. Читайте в нашей статье, что такое Machine Learning Operations Maturity Model – модель зрелости операций разработки и эксплуатации машинного обучения, из каких уровней она состоит и как оценить готовность к внедрению MLOps в вашей компании. 3 уровня MLOps-зрелости по версии Google Напомним, как и цифровая трансформация, MLOps – это не только технологии, но и корпоративная культура, а также устойчивое развитие производственных процессов.  При этом запуск машинного обучения в промышленную эксплуатацию (production) можно представить следующей последовательностью этапов, которые можно выполнить вручную или с помощью автоматического конвейера [1]: извлечение данных (Data extraction), когда Далее …

Зачем вам MLOps: новый подход к Machine Learning в production

MLOps, цифровизация, цифровая трансформация, Big Data, Большие данные, CRISP-DM, Data Science, машинное обучение, Machine Learning, Agile, DevOps

Пока цифровизация воплощает в жизнь концепцию DataOps, мир Big Data вводит новую парадигму – MLOps. Читайте в нашей статье, что такое MLOps, зачем это нужно бизнесу и какие специалисты потребуются при внедрении практик и инструментов сопровождения всех операций жизненного цикла моделей машинного обучения (Machine Learning Operations). Что такое MLOps, почему это стало актуально и при чем тут Big Data По аналогии с DevOps и DataOps, в связи с популяризацией методов Machine Learning и ростом их практических внедрений, у бизнеса появилась потребность в организации непрерывного сотрудничества и взаимодействия между всеми участниками процессов работы с моделями машинного обучения от бизнеса до инженеров и разработчиков Big Data, включая Data Scientist’ов и ML-специалистов. Понятие MLOps еще достаточно молодое, однако с каждым днем оно становится Далее …

Чем похожи CRISP-DM и BABOK®Guide: бизнес-анализ в Data Science

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, BABOK, CRISP-DM, бизнес-анализ, подготовка данных, Data Science, Data Mining

Мы уже рассказывали, что цифровизация и другие масштабные проекты внедрения технологий Big Data должны обязательно сопровождаться процедурами бизнес-анализа, начиная от выявления требований на старте до оценки эффективности уже эксплуатируемого решения. Сегодня рассмотрим, как задачи бизнес-анализа из руководства BABOK®Guide коррелируют с этапами методологии исследования данных CRISP-DM, которая считается стандартом де-факто в области Data Science. Еще раз про CRISP-DM: что это и из чего состоит CRISP-DM (Cross-Industry Standard Process for Data Mining) — это наиболее распространенная на практике методология выполнения Data Science проектов, которую принято называть межотраслевым стандартным процессом исследования данных. Он описывает жизненный цикл Data Science проектов в следующих 6 фазах, каждая из которых включает ряд задач: понимание бизнеса (Business Understanding), где через оценку текущей ситуации определяются бизнес-цели и требования, а также Далее …

Успехи Industry 4.0 на российских заводах: 5 примеров СИБУРа

Big Data, Большие данные, обработка данных, архитектура, цифровизация, цифровая трансформация, интернет вещей, Internet Of things, IIoT, IoT, Data Lake, Machine Learning, машинное обучение, нефтегазовая промышленность, нефтянка, предиктивная аналитика

В этой статье рассмотрим, как технологии Industry 4.0 помогают российскому нефтехимическому холдингу СИБУР повысить операционную эффективность производства и обеспечить безопасность труда. Сегодня мы собрали для вас 5 примеров практического использования различных методов и инструментов Big Data, Machine Learning, Industrial Internet of Things (IIoT), а также XR (AR+VR). Зачем нефтехимикам технологии Industry 4.0: 5 бизнес-направлений Напомним, СИБУР – это крупнейшая в России интегрированная группа газоперерабатывающих и нефтехимических предприятий, которая производит и продает на отечественном и международном рынках нефтехимическую продукцию: полипропилен, полиэтилен, пластики, синтетические каучуки, пенополистирол и пр. [1]. В составе компании много заводов, распределенных по всей территории страны, с разной степенью продвинутости в плане технологий Industry 4.0 (I4.0). Однако наиболее примечательным в этом отношении можно назвать следующие кейсы: предупреждение поломок и Далее …

Как найти товарные остатки с помощью Big Data и Machine Learning: пример Леруа Мерлен

Big Data, Большие данные, обработка данных, архитектура, цифровизация, цифровая трансформация, Kafka, ритейл, Greenplum, Tarantol, SQL, NoSQL, AirFlow, NiFi, ETL, Data Lake, Machine Learning, машинное обучение

Чтобы наглядно показать, как аналитика больших данных и машинное обучение помогают быстро решить актуальные бизнес-проблемы, сегодня мы рассмотрим кейс компании Леруа Мерлен. Читайте в нашей статье про нахождение аномалий в сведениях об остатках товара на складах и в магазинах с помощью моделей Machine Learning, а также про прикладное использование Apache Kafka, NiFi, AirFlow, Greenplum, MongoDB, Tarantool, Kubernetes и прочих технологий Big Data. Где товар или постановка задачи от бизнеса: проблемы, возможности и ограничения Проблема оперативной инвентаризации товаров, доступных для продажи прямо сейчас, актуальна для любого торгового предприятия. В Леруа Мерлен она усугублялась тем, что помимо сети крупных супермаркетов, в компании также есть склады и так называемые дарксторы. Заказы из интернет-магазинов могут собираться из всех трех торговых баз (супермаркет, склад, даркстор). Далее …

Как организовать конвейер self-service Machine Learning на Apache Kafka, Spark Streaming, Kudu и Impala: пример расширенной BI-аналитики Big Data

Big Data, Большие данные, обработка данных, архитектура, HBase, Impala, SQL, NoSQL, Kudu, Spark, Kafka, банки, security, машинное обучение, Machine Learning

Продолжая разбирать production-кейсы реального использования этих технологий Big Data, сегодня поговорим подробнее, каковы плюсы совместного применения Kudu, Spark Streaming, Kafka и Cloudera Impala на примере аналитической платформы для мониторинга событий информационной безопасности банка «Открытие». Также читайте в нашей статье про возможности этих технологий в контексте машинного обучения (Machine Learning), в т.ч. самообслуживаемого (self-service ML). BI-система на базе Big Data для банковской безопасности Apache Kudu, Spark, Kafka и прочие технологии Big Data активно используются не только в типовых BI-приложениях, но и в аналитических системах обеспечения информационной безопасности. В частности, в январе 2020 года банк «Открытие» совместно с компанией «Неофлекс» завершил проект по внедрению аналитической платформы мониторинга событий информационной безопасности на базе технологий Big Data. Система обеспечивает непрерывный мониторинг и позволяет в Далее …

Расширенная аналитика больших данных с помощью Self-service Machine Learning и AutoML: как Data Science усиливает технологии Big Data

Big Data, Большие данные, цифровизация, цифровая трансформация, Machine Learning, Машинное Обучение, предиктивная аналитика

Продолжая разговор про расширенную аналитику больших данных с помощью инструментов Big Data и методов Data Science, сегодня рассмотрим, что такое самообслуживаемое машинное обучение, а также разберем, чем self-service Machine Learning отличается от AutoML. Что такое самообслуживаемое машинное обучение В июне 2020 года аналитическое агентство Gartner опубликовало очередной список самых перспективных трендов в области аналитики данных. Первое место в этой десятке топовых технологий занимает умный, быстрый и ответственный искусственный интеллект (ИИ), включая прозрачные датасеты и легко интерпретируемые алгоритмы машинного обучения. Анализируя другие тренды из этого исследования, можно сделать вывод об общей тенденции к повышению уровня демократизации технологий Big Data и Data Science, таких как расширенное управление данными, публичные облака, интеллектуальное принятие решений и аналитический подход к использованию информации [1]. Таким образом, Далее …

Самостоятельная и независимая аналитика больших данных: разбираемся с self-service BI для Big Data

Big Data, Большие данные, Hadoop, Data Lake, цифровизация, цифровая трансформация, Machine Learning, Машинное Обучение, предиктивная аналитика, SQL

Аналитика больших данных для руководителей и других конечных бизнес-пользователей – это не только графические дэшборды BI-систем. Сегодня рассмотрим, что такое самообслуживаемая аналитика Big Data, какова ее польза для бизнеса и чего не стоит ждать от self-service BI. Что такое self-service BI: определение, назначение и примеры Еще в 2018 году исследовательское агентство Gartner анонсировало тренд на увеличение интереса к самообслуживаемой бизнес-аналитике (self-service Business Intelligence, BI). Это стало возможным благодаря росту объема информации, распространению технологий Big Data и популяризации Data Science. Кроме того, цифровизация как основная идея современного подхода к бизнесу продвигает принципы data-driven, когда управленческие решения принимаются на основе объективного анализа данных [1]. Gartner предлагает следующее определение self-service BI: аналитика самообслуживания — это форма бизнес-аналитики, где профессионалы предметной области могут самостоятельно Далее …

От косметики до машиностроения: 3 кейса внедрения технологий Big Data на примере Data Lake

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, цифровизация, цифровая трансформация, IIoT, Internet of Things, IoT, Machine Learning, интернет вещей, Машинное Обучение, нефтегазовая отрасль, нефтегазовая промышленность, нефтянка, предиктивная аналитика

В продолжение темы про озера данных (Data Lake) и Apache Hadoop, сегодня мы рассмотрим еще 3 примера использования этих технологий Big Data для аналитики больших данных в промышленности. Читайте в нашей статье, как косметический гигант L’Oréal создает новые продукты с помощью платформы Talend Data Fabric, «УРАЛХИМ» прогнозирует объемы продукции и предупреждает поломки оборудования, а Ford повышает качество автомобилей и лояльность своих клиентов за счет озера данных на Apache Hadoop и решений Informatica. Озеро данных на Talend Data Fabric в L’Oréal Data Lake – это не обязательно локальный кластер Apache Hadoop. Например, в октябре 2019 года французский производитель косметики и парфюмерии, компания L’Oréal развернула озеро данных на базе Talend Data Fabric в облачной инфраструктуре Microsoft Azure. Цель этого проекта состояла в сокращении сроков исследования Далее …

Потоковая платформа для интеграции Big Data и не только: 7 плюсов Apache Kafka

Big Data, Большие данные, обработка данных, архитектура, Kafka, DevOps

Продолжая разговор про интеграцию информационных систем с помощью стриминговой платформы, сегодня мы рассмотрим преимущества event streaming архитектуры на примере Apache Kafka. Также читайте в нашей статье про 5 ключевых сценариев использования Кафка в потоковой обработке событий: от IoT/IIoT до микросервисного разделения в системах аналитики больших данных (Big Data) и машинного обучения (Machine Learning). 7 главных достоинств event streaming архитектура для интеграции информационных систем Напомним, SOA-подход к интеграции информационных систем отличается некоторыми характерными недостатками, среди которых слабой взаимозависимость и высокая связность компонентов [1]. Поэтому сегодня все большую популярность приобретают методы интеграции приложений на базе стриминговых платформ, обеспечивающих обработку данных в режиме реального времени. В области Big Data наиболее ярким примером такого фреймворка является Apache Kafka. Перечислим основные плюсы, которые ожидаются от Далее …