Потоковая обработка событий в Machine Learning и Big Data: основы StreamSQL для начинающих

курсы по Apache Kafka, Обучение Apache Kafka, промышленный ML, машинное обучение курсы, курсы Big Data для Data Science, Feature Store, StreamSQL, курсы по Spark, обучение Apache Spark, основы машинного обучения и больших данных, инженерия машинного обучения, MlOps

Вчера мы говорили про промышленный Machine Learning в больших данных и рассматривали проблемы микросервисной архитектуры в системах машинного обучения. Продолжая разбирать, как Feature Store повышает эффективность MLOps-процессов, сокращая цикл разработки согласно Agile-идеям, сегодня мы приготовили для вас краткий обзор хранилища признаков StreamSQL. Читайте далее, что такое StreamSQL, как оно устроено, каким образом полезно Data Scientist’у и при чем здесь Big Data технологии потоковой обработки событий: Apache Kafka и Spark Streaming. Что такое StreamSQL и как это работает в Machine Learning Как мы вчера упоминали, StreamSQL.io – это хранилище признаков (фичей, от анг. feature) для моделей машинного обучения, которое ускоряет разработку ML-систем за счет следующих функциональных возможностей [1]: создание фичей с использованием декларативных определений; генерация обучающих датасетов с теми же определениями Далее …

Зачем вам Feature Store или что не так с микросервисами в ML-системах

курсы по Apache Kafka, обучение Kafka, курсы Spark, обучение Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Machine Learning, машинное обучение, MLOps, Data Lake, Kafka, Agile, микросервисная архитектура систем машинного обучения, микросервисы и ML

Сегодня рассмотрим, когда микросервисные архитектуры не подходят для систем машинного обучения и какие технологии Big Data следует использовать в этом случае. В этой статье мы расскажем, что такое Feature Store, как это хранилище признаков для моделей Machine Learning повышает эффективность MLOps-процессов и сокращает цикл разработки ML-систем, а также при чем здесь потоковая обработка событий с Apache Kafka и Spark Streaming. Проблемы микросервисной архитектуры в ML-системах на практическом примере В настоящее время микросервисная архитектура стала стандартом де-факто, который чаще всего применяется для построения различных информационных систем, от небольших приложений до крупных Big Data Платформ. Благодаря автономности каждого микросервиса от других компонентов решения, общая скорость разработки, тестирования и развертывания продукта существенно возрастает, чего и требует основная идея Agile. Обратной стороной этого преимущества Далее …

Apache Kafka, микросервисы и проблема удаления данных: 5 практических примеров

курсы по Kafka, обучение Apache Kafka с примерами, обработка данных, большие данные, Big Data, Kafka, администрирование, архитектура, Agile, DevOps

Чтобы сделать наши курсы по Apache Kafka для разработчиков Big Data систем еще более интересными, а обучение – запоминающимся, сегодня мы рассмотрим еще несколько примеров реализации микросервисной архитектуры на этой стриминговой платформе. А также поговорим про проблемы удаления данных в этой архитектурной модели, разобрав кейс компании Twitter по построению корпоративного конвейера стирания данных на базе Kafka.   Микросервисная event-streaming архитектура на Apache Kafka: 5 разных примеров и парочка общих проблем Сегодня микросервисная архитектура стала фактически стандартом де-факто: все больше компаний приходят к этой модели, разделяя «монолиты» своих систем на множество небольших сервисов, каждый из которых решает узко направленную задачу. При некоторых сложностях архитектурного проектирования, данный подход повышает гибкость и расширяемость программных систем, позволяя расширять их функциональные возможности путем добавления новых Далее …

Как внедрить MLOps: краткое пошаговое руководство

цифровизация, цифровая трансформация, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, Agile, DevOps, MLOps

Рассказав, как оценить уровень зрелости Machine Learning Operations по модели Google или методике GigaOm, сегодня мы поговорим про этапы и особенности практического внедрения MLOps в корпоративные процессы. Читайте далее, какие организационные мероприятия и технические средства необходимы для непрерывного управления жизненным циклом машинного обучения в промышленной эксплуатации (production). 2 направления для внедрения MLOps Напомним, MLOps – это культура и набор практик для автоматизации комплексного управления жизненным циклом систем машинного обучения, от разработки (Development) до эксплуатации (Operations) всех компонентов: ML-модели, программный код и инфраструктура развертывания. MLOps расширяет методологию CRISP-DM с помощью Agile-подхода и технических инструментов автоматизированного выполнения операций с данными, ML-моделями, кодом и окружением. Таким образом, практическое внедрение MLOps следует вести сразу по 2-м направлениям: организационное, что предполагает адаптацию принципов Agile к корпоративной культуре и частичную перестройку Далее …

Насколько созрел ваш MLOps: многокритериальная 5-уровневая модель зрелости Machine Learning Operations

цифровизация, цифровая трансформация, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, Agile, DevOps, MLOps

Недавно мы рассказывали про модель зрелости MLOps от Google. Сегодня рассмотрим альтернативную методику оценки зрелости операций разработки и эксплуатации машинного обучения, которая больше похоже на наиболее популярную в области управленческого консалтинга модель CMMI, часто используемую в проектах цифровизации. Читайте далее, по каким критериям измеряется Machine Learning Operations Maturity Model и как применить это на практике.   5 критериев для оценки MLOps-зрелости Предложенная компанией Google 3-х уровневая модель оценки зрелости MLOps не является единственной. Например, альтернатива от исследовательской ИТ-компанией GigaOm, в отличие от Google-варианта, учитывает не только технологии поддержки жизненного цикла машинного обучения, но и корпоративную культуру, которая неотделима от любой технической парадигмы. GigaOm выделяет 5 уровней MLOps-зрелости, оценивая состояние Machine Learning и окружающей инфраструктуры на предприятии по следующим критериям [1]: Далее …

Готовы ли вы к MLOps: что такое Machine Learning Operations Maturity Model

MlOps, цифровизация, цифровая трансформация, Big Data, Большие данные, Data Science, машинное обучение, Machine Learning, Agile, DevOps, CMMI

Цифровизация и запуск проектов Big Data предполагают некоторый уровень управленческой зрелости бизнеса, который обычно оценивается по модели CMMI. MLOps также требует предварительной готовности предприятия к базовым ценностям этой концепции. Читайте в нашей статье, что такое Machine Learning Operations Maturity Model – модель зрелости операций разработки и эксплуатации машинного обучения, из каких уровней она состоит и как оценить готовность к внедрению MLOps в вашей компании. 3 уровня MLOps-зрелости по версии Google Напомним, как и цифровая трансформация, MLOps – это не только технологии, но и корпоративная культура, а также устойчивое развитие производственных процессов.  При этом запуск машинного обучения в промышленную эксплуатацию (production) можно представить следующей последовательностью этапов, которые можно выполнить вручную или с помощью автоматического конвейера [1]: извлечение данных (Data extraction), когда Далее …

Зачем вам MLOps: новый подход к Machine Learning в production

MLOps, цифровизация, цифровая трансформация, Big Data, Большие данные, CRISP-DM, Data Science, машинное обучение, Machine Learning, Agile, DevOps

Пока цифровизация воплощает в жизнь концепцию DataOps, мир Big Data вводит новую парадигму – MLOps. Читайте в нашей статье, что такое MLOps, зачем это нужно бизнесу и какие специалисты потребуются при внедрении практик и инструментов сопровождения всех операций жизненного цикла моделей машинного обучения (Machine Learning Operations). Что такое MLOps, почему это стало актуально и при чем тут Big Data По аналогии с DevOps и DataOps, в связи с популяризацией методов Machine Learning и ростом их практических внедрений, у бизнеса появилась потребность в организации непрерывного сотрудничества и взаимодействия между всеми участниками процессов работы с моделями машинного обучения от бизнеса до инженеров и разработчиков Big Data, включая Data Scientist’ов и ML-специалистов. Понятие MLOps еще достаточно молодое, однако с каждым днем оно становится Далее …

Цифровизация рабочего пространства: ТОП-3 тенденции 2020

цифровизация, цифровая трансформация, цифровая экономика, Agile, администрирование, интернет вещей, Internet of Things, IoT

Вчера мы говорили про наиболее перспективные технологии 2020 с точки зрения исследовательского агентства Gartner и их влияние на цифровую трансформацию. Сегодня продолжим разбирать современные тенденции изменения рабочего пространства с учетом эпидемиологической напряженности и тренда на дистанционное взаимодействие. Читайте далее, что такое Desktop as a Service, как выглядит интеллектуальное рабочее пространство, чем отличается BYOD от BYOT и каким образом все это полезно для корпоративной цифровизации. Цифровизация офиса: 6 трендов 2020 от Gartner Помимо всего прочего, 2020 год также можно назвать годом удаленной работы и трансформации рабочего пространства из-за пандемии COVID-19, карантинного режима и мер по предотвращению инфекции. В связи с этим компания Gartner провела перечень самых популярных технологий по организации офисных мест, причем не только удаленных [1]: облачная цифровизация рабочей ячейки, Далее …

От ДНК-чипов до цифровых двойников: 5 самых перспективных технологий 2020 от Gartner

цифровизация, цифровая трансформация, Big Data, Большие данные, цифровая экономика, Agile

Постоянно обновляя наши курсы «Аналитика больших данных для руководителей» в соответствии с развитием области Big Data и вызовов современного бизнеса, сегодня мы расскажем про наиболее перспективные технологии с точки зрения исследовательского агентства Gartner, а также рассмотрим их влияние на цифровую трансформацию. Читайте в нашей статье, почему цифровой двойник нужен не только производству, как цифровая трансформация преобразует корпоративную архитектуру, а также при чем тут созидательный искусственный интеллект (ИИ) и доверие алгоритмам. Хайп-цикл 2020: ТОП-5 новых технологий Карантинные меры из-за пандемии COVID-19 оказали беспрецедентное влияние на все области человеческой жизни, включая ИТ-сферу. При общем негативном влиянии на мировую экономику, коронавирус выступил драйвером развития технологий удаленного взаимодействия, масштабной обработки и аналитики больших данных, о чем мы писали здесь. Поэтому неудивительно, что эксперты Gartner Далее …

Когда и зачем нужен Apache Spark на Kubernetes: варианты использования и преимущества

Spark, Kubernetes, DevOps, администрирование, Agile, Docker, Hadoop

Чтобы сделать курсы по Spark еще более интересными и полезными, сегодня мы расскажем, зачем этот Big Data фреймворк разворачивают на Kubernetes (K8s) – платформе автоматизации развёртывания, масштабирования и управления контейнеризированными приложениями. Читайте в нашей статье про основные варианты использования и достоинства этого подхода к администрированию и эксплуатации Apache Spark. Зачем вам нужен Apache Spark на Kubernetes: 3 варианта использования Можно выделить несколько типовых сценариев, когда целесообразно Apache Spark на Kubernetes [1]: разработка и тестирование (отладка) программного обеспечения (ПО), когда разработчику необходим гибкий доступ к экземплярам конечных систем; развертывание разработанного ПО в соответствии с DevOps-подходом, включая непрерывную интеграцию и развертывание (CI/CD, Continuous Integration и Continuous Delivery). Чтобы упростить этот процесс, можно использовать Apache Livy в качестве REST API для запуска задач Далее …