Почему каждый Data Scientist должен быть DevOps-инженером в Big Data

Большие данные, Big Data, Agile, цифровая трансформация, цифровая экономика, цифровизация, бизнес-процессы, DevOps, CRISP-DM

С точки зрения бизнеса DevOps (DEVelopment OPerations, девопс) можно рассматривать как углубление культуры Agile для управления процессами разработки и поставки программного обеспечения с помощью методов продуктивного командного взаимодействия и современных средств автоматизации. Сегодня мы поговорим о том, как эта методология используется в Big Data проектах, почему любой Data Scientist становится немного DevOps-инженером в больших данных и насколько это выгодно бизнесу. Как связаны DevOps и Agile В общем случае DevOps, как и Agile, — это набор практик для сокращения сроков выпуска конкурентоспособного программного обеспечения за счет взаимной интеграции процессов его разработки и эксплуатации путем эффективного взаимодействия профильных специалистов (аналитиков, программистов, тестировщиков, администраторов и т.д.) [1]. Этот термин стал популярным с начала 2010-х годов, в рамках развития микросервисной архитектуры, когда программный продукт строится как Далее …

Это не баг, а фича: генерация признаков для Data Mining

Генерация признаков – пожалуй, самый творческий этап подготовки данных (Data Preparation) для машинного обучения (Machine Learning). Этот этап еще называют Feature Engineering. Он наступает после того, как выборка сформирована и очистка данных завершена. В этой статье мы поговорим о том, что такое признаки, какими они бывают и как Data Scientist их генерирует. Признаки для Data Mining: определение и виды Признак (фича, feature) – это переменная, которая описывает отдельную характеристику объекта. В табличном представлении выборки признаки – это столбцы таблицы, а объекты – строки [1]. Входные, независимые, переменные для модели машинного обучения называются предикторами, а выходные, зависимые, – целевыми признаками. Все признаки могут быть следующих видов [2]: бинарные, которые принимают два значения, например, {true, false}, {0,1}, {-1,1}, {«да», «нет»} и т.д.; Далее …

Зачем нужна очистка данных для Data Mining: 10 главных проблем подготовки датасета и способы их решения

очистка данных

Выборка, полученная в результате первого этапа подготовки данных (Data Preparation), еще пока не пригодна для обработки алгоритмами машинного обучения, поскольку информацию необходимо очистить. Сегодня мы расскажем, что такое очистка данных (Data Cleaning) для Data Mining, зачем она нужна и как выполнять этот этап Data Preparation. Что такое очистка данных для Data Mining Очистка данных – процесс обработки выборки для интеллектуального анализа информации (Data Mining) с помощью алгоритмов машинного обучения (Machine Learning). Этот этап, на котором выполняется выявление и удаление ошибок и несоответствий в данных с целью улучшения качества датасета, также называется data cleaning, data cleansing или scrubbing. Некорректная, дублирующаяся или утраченная информация может стать причиной неадекватной статистики [1] и неверных выводов в контексте бизнеса. Поэтому очистка данных является обязательной процедурой Data Далее …

Отберем то, что нужно Data Mining: как сформировать датасет для машинного обучения

выборка, датасет, Data Preparation, интеллектуальный анализ данных

Мы уже рассказывали о важности этапа подготовки данных (Data Preparation), результатом которого является обработанный набор очищенных данных, пригодных для обработки алгоритмами машинного обучения (Machine Learning). Такая выборка, называемая датасет (dataset), нужна для тренировки модели Machine Learning, чтобы обучить систему и затем использовать ее для решения реальных задач. Однако, поскольку в процессе обучения необходимо оценивать качество модели, различают несколько типов выборок. В этом материале мы расскажем, из чего состоит dataset, какие бывают датасеты и как их сформировать. Что такое датасет для Data Mining и из чего он состоит Dataset для машинного обучения – это обработанная и структурированная информация в табличном виде. Строки такой таблицы называются объектами, а столбцы – признаками. Различают 2 вида признаков [1]: независимые переменные – предикторы; зависимые переменные Далее …

Как подготовить данные к моделированию: 5 операций Data Preparation

CRISP-DM, статистика, обработка данных, Machine Learning, машинное обучение, Data Mining

CRISP-DM, SEMMA и другие стандарты Data Mining не случайно выделяют подготовку данных в отдельную фазу. Data Preparation — весьма трудоемкий итеративный процесс, который занимает до 80% всех затрат ресурсов и времени в жизненном цикле Data Mining и включает следующие задачи обработки исходных («сырых») данных [1]: Выборка данных – отбор признаков (features или предикторов) и объектов с учетом их релевантности для целей Data Mining, качества и технических ограничений (объема и типа) [2]; Очистка данных – удаление опечаток, некорректных значений (например, число в строковом параметре и пр.), отсутствующих значений (Missing values или NA), исключение дублей и разных описаний одного и того же объекта, восстановление уникальности, целостности и логических связей [3]; Генерация признаков – создание производных признаков и их преобразование в векторы для модели Далее …

Умный HR: как быстро внедрить Big Data и Machine Learning в управление человеческими ресурсами

Big Data, Большие данные, машинное обучение, Machine Learning, CRISP-DM, PDCA, HR, бизнес, люди, внедрение

Как быстро и эффективно внедрить Big Data и Machine Learning в прикладную область бизнеса для решения практических задач, избежав популярных ошибок Data Scientist — разбираемся на примере HR-направления. Подготовка к внедрению Big Data в HR и не только Зачем HR-специалисту большие данные и какую пользу они принесут управленческим процессам и предприятию в целом, мы уже рассказывали в этой статье. Сегодня поговорим о непосредственном встраивании технологий Big Data в управление персоналом. Внедрение любой новой технологии и, тем более, методологии – процесс длительный и итеративный, состоящий из нескольких этапов, как это предписывает стандарт CRISP-DM, об особенностях работы с которым мы уже рассказывали здесь и здесь. Однако, CRISP-DM – это методическое руководство для Data Scientist, а с точки зрения бизнеса, в частности, для Далее …

20 проблем для Data Scientist, от которых не спасет CRISP-DM

машинное обучение, Machine Learning, обработка данных, Big Data, Большие данные, статистика, Data Science, Data Scientist

Иван Гуз, директор по аналитике и клиентскому сервису Avito, 24.04.2018 на митапе AI Community и AI Today для специалистов по Data Science в офисе компании [1] рассказал о самых главных проблемах, которые подстерегают исследователя данных на практических проектах и от чего не убережет даже подробно проработанный стандарт CRISP-DM. Из его доклада [2] мы выделили топ-20 популярных ошибок и варианты их решений. Часть из них уже упоминалась в статье, посвященной выступлению Станислава Гафарова, руководителя направления по развитию ИТ-систем АО «СберТех» [3], которое состоялось в рамках того же мероприятия [1]. А в сегодняшнем материале мы подробно описываем трудности каждой фазы CRISP-DM – читайте внимательно, чтобы избежать подобных ошибок в своей практике! 5 проблем бизнес-анализа по CRISP-DM Неточная постановка задачи: расплывчатые формулировки и Далее …

7 популярных ошибок при работе с данными по стандарту CRISP-DM

машинное обучение, Machine Learning, CRISP-DM, обработка данных, Big Data, Большие данные, статистика

Посмотрев выступление Станислава Гафарова [1], руководителя направления по развитию ИТ-систем АО «СберТех», от 24.04.2018 на митапе AI Community и AI Today для специалистов по Data Science в офисе Авито [2], мы составили ТОП-7 ошибок при работе с данными по методологии CRISP-DM. На основании жизненного цикла работы с информацией по стандарту CRISP-DM, эксперт выделяет 3 типа ошибок [1]: ошибки бизнеса и понимания данных; ошибки подготовки данных и моделирования; ошибки развертывания модели в промышленную эксплуатацию. Далее подробно описаны ошибки каждого типа, возникающие при анализе информации, работе с большими данными (Big Data) и машинном обучении (Machine Learning). 1. Фаза Business Understanding: недостаточная подготовка к использованию CRISP-DM CRISP-DM предполагает довольно высокий уровень зрелости бизнес-процессов по модели CMMI, о которой мы рассказывали здесь. Поэтому, если Далее …