Сколько стоит цифровизация: что такое ФСА и зачем это нужно в Big Data

Big Data, Большие данные, системный анализ, Data Mining, предиктивная аналитика, цифровизация, цифровая трансформация, ФСА

В этой статье мы расскажем, что такое функционально-стоимостный анализ, как он связан с концепцией бережливого производства (Lean) и каким образом позволяет оценить и оптимизировать бизнес-процессы. Также рассмотрим, почему этому методу стоит уделить внимание при изучении основ цифровизации, а также в рамках проектов по внедрению технологий больших данных (Big Data). Что такое ФСА и зачем это нужно Определить себестоимость и другие непосредственные показатели бизнес-процессов можно с помощью метода функционально-стоимостного анализа (ФСА). Иногда его также называют ABC-анализ (Activity Based Costing), но это не совсем верно по следующим причинам [1]: так называемый ABC-анализ используется для классификации корпоративных ресурсов по степени важности, например, ранжирование товарных запасов или поставщиков в розничной торговле [2]; Activity-based costing — расчёт себестоимости по видам деятельности, который переводит накладные расходы Далее …

Почему вам нужна расширенная аналитика Big Data и как ее получить

Big Data, Большие данные, Machine Learning, машинное обучение, системный анализ, Data Mining, предиктивная аналитика, цифровизация, цифровая трансформация

Сегодня мы рассмотрим, что такое расширенная аналитика и дополненное управление данными, как они связаны с цифровизацией бизнеса и почему исследовательское бюро Gartner включило эти технологии в ТОП-10 самых перспективных трендов 2020 года. Читайте в нашей статье, как машинное обучение (Machine Learning) помогает аналитикам и руководителям находить во множестве больших данных (Big Data) полезные для бизнеса инсайты. Что такое расширенная аналитика и при чем здесь цифровизация Расширенная аналитика и дополненное управление данными – 2 главных тренда из 10 самых перспективных направлений в области Data&Analytics по версии исследовательского агентства Gartner. Прогнозируется, что эти технологии станут доминировать уже в 2020 году, а спрос на них многократно возрастет в ближайшие 3-5 лет [1]. Такие тенденции актуальны и для России, где цифровизация сегодня стала фактически Далее …

Как увидеть лес за деревьями: что такое Decision Tree и зачем это нужно в Big Data

Big Data, Большие данные, Machine Learning, машинное обучение, системный анализ, Data Mining, предиктивная аналитика

Продолжая насыщать курс Аналитика больших данных для руководителей важными понятиями системного анализа, сегодня мы рассмотрим, что такое дерево решений (Decision Tree). А также расскажем, как этот метод интеллектуального анализа данных (Data Mining) и предиктивной аналитики используется в машинном обучении (Machine Learning), экономике, менеджменте, бизнес-анализе и аналитике больших данных (Big Data). Как растут деревья решений: базовые основы Начнем с определения: дерево решений – это математическая модель в виде графа, которая отображает точки принятия решений, предшествующие им события и последствия. Этот метод Data Mining широко используется в машинном обучении, позволяя решать задачи классификации и регрессии [1]. Аналитические модели в виде деревьев решений более вербализуемы, интерпретируемы и понятны человеку, чем другие методы Machine Learning, например, нейронные сети. Дополнительное достоинство Decision Tree – это быстрота Далее …

Выделение признаков: зачем отбирать предикторы и как это правильно сделать – готовим датасет к Data Mining и Machine Learning

Отбор признаков, выделение предикторов

Даже после очистки и нормализации данных, выборка еще не совсем готова к моделированию. Для машинного обучения (Machine Learning) нужны только те переменные, которые на самом деле влияют на итоговый результат. В этой статье мы расскажем, что такое отбор или выделение признаков (Feature Selection) и почему этот этап подготовки данных (Data Preparation) действительно необходим. Что такое отбор признаков и зачем он нужен Выделение или отбор признаков – это процедура отбрасывания незначащих переменных из очищенной выборки перед запуском машинного обучения и интеллектуального анализа данных (Data Mining). Сокращение числа предикторов необходимо по нескольким причинам: значимость признаков – как правило, исходная выборка всегда содержит много «мусорных данных»: шумов, выбросов, а на реальный результат влияют лишь несколько предикторов [1]; точность решения – некоторые модели Machine Далее …

Нормально делай – нормально будет: нормализация на практике — методы и средства Data Preparation

нормально делай - нормально будет

Мы уже рассказали, что такое нормализация данных и зачем она нужна при подготовке выборки (Data Preparation) к машинному обучению (Machine Learning) и интеллектуальному анализу данных (Data Mining). Сегодня поговорим о том, как выполняется нормализация данных: читайте в нашем материале о методах и средствах преобразования признаков (Feature Transmormation) на этапе их генерации (Feature Engineering). Нормализация данных: методы и формулы Существует множество способов нормализации значений признаков, чтобы масштабировать их к единому диапазону и использовать в различных моделях машинного обучения. В зависимости от используемой функции, их можно разделить на 2 большие группы: линейные и нелинейные. При нелинейной нормализации в расчетных соотношениях используются функции логистической сигмоиды или гиперболического тангенса. В линейной нормализации изменение переменных осуществляется пропорционально, по линейному закону. На практике наиболее распространены следующие Далее …

Data Preparation: полет нормальный – что такое нормализация данных и зачем она нужна

Нормализация данных – это одна из операций преобразования признаков (Feature Transformation), которая выполняется при их генерации (Feature Engineering) на этапе подготовки данных (Data Preparation). В этой статье мы расскажем, почему необходимо нормализовать значения переменных перед тем, как запустить моделирование для интеллектуального анализа данных (Data Mining). Что такое нормализация данных и чем она отличается от нормировки и нормирования В случае машинного обучения (Machine Learning), нормализация – это процедура предобработки входной информации (обучающих, тестовых и валидационных выборок, а также реальных данных), при которой значения признаков во входном векторе приводятся к некоторому заданному диапазону, например, [0…1] или [-1…1] [1]. Следует отличать понятия нормализации, нормировки и нормирования. Нормировка – это корректировка значений в соответствии с некоторыми функциями преобразования, с целью сделать их более удобными для сравнения. Например, Далее …

Оцифровываем текст: как превратить слова в числа для Data Mining – 5 NLP-операций Feature Extraction

Извлечение признаков (Feature Extraction) из текста – часто встречающаяся задача Data Mining, а именно этапа генерации признаков. Интеллектуальный анализ текста получил название Text Mining. В этом случае Feature Extraction относится к сфере NLP, Natural Language Processing – обработка естественного языка. Это отдельное направление искусственного интеллекта и математической лингвистики [1]. Здесь с помощью машинного обучения (Machine Learning) решаются задачи распознавания и анализа текстовых данных, например, для построения чат-ботов или автоматической обработки документов, как в случае робота-юриста в Сбербанке. Также интеллектуальный анализ текстовой информации нужен для определения тональности отзывов о компании или продукте при управлении корпоративной репутацией в интернете (Search Engine Reputation Management, SERM). Сегодня мы расскажем, что такое извлечение признаков из текста и как data scientist выполняет этот этап подготовки данных Далее …

Это не баг, а фича: генерация признаков для Data Mining

Генерация признаков – пожалуй, самый творческий этап подготовки данных (Data Preparation) для машинного обучения (Machine Learning). Этот этап еще называют Feature Engineering. Он наступает после того, как выборка сформирована и очистка данных завершена. В этой статье мы поговорим о том, что такое признаки, какими они бывают и как Data Scientist их генерирует. Признаки для Data Mining: определение и виды Признак (фича, feature) – это переменная, которая описывает отдельную характеристику объекта. В табличном представлении выборки признаки – это столбцы таблицы, а объекты – строки [1]. Входные, независимые, переменные для модели машинного обучения называются предикторами, а выходные, зависимые, – целевыми признаками. Все признаки могут быть следующих видов [2]: бинарные, которые принимают два значения, например, {true, false}, {0,1}, {-1,1}, {«да», «нет»} и т.д.; Далее …

Зачем нужна очистка данных для Data Mining: 10 главных проблем подготовки датасета и способы их решения

очистка данных

Выборка, полученная в результате первого этапа подготовки данных (Data Preparation), еще пока не пригодна для обработки алгоритмами машинного обучения, поскольку информацию необходимо очистить. Сегодня мы расскажем, что такое очистка данных (Data Cleaning) для Data Mining, зачем она нужна и как выполнять этот этап Data Preparation. Что такое очистка данных для Data Mining Очистка данных – процесс обработки выборки для интеллектуального анализа информации (Data Mining) с помощью алгоритмов машинного обучения (Machine Learning). Этот этап, на котором выполняется выявление и удаление ошибок и несоответствий в данных с целью улучшения качества датасета, также называется data cleaning, data cleansing или scrubbing. Некорректная, дублирующаяся или утраченная информация может стать причиной неадекватной статистики [1] и неверных выводов в контексте бизнеса. Поэтому очистка данных является обязательной процедурой Data Далее …

Отберем то, что нужно Data Mining: как сформировать датасет для машинного обучения

выборка, датасет, Data Preparation, интеллектуальный анализ данных

Мы уже рассказывали о важности этапа подготовки данных (Data Preparation), результатом которого является обработанный набор очищенных данных, пригодных для обработки алгоритмами машинного обучения (Machine Learning). Такая выборка, называемая датасет (dataset), нужна для тренировки модели Machine Learning, чтобы обучить систему и затем использовать ее для решения реальных задач. Однако, поскольку в процессе обучения необходимо оценивать качество модели, различают несколько типов выборок. В этом материале мы расскажем, из чего состоит dataset, какие бывают датасеты и как их сформировать. Что такое датасет для Data Mining и из чего он состоит Dataset для машинного обучения – это обработанная и структурированная информация в табличном виде. Строки такой таблицы называются объектами, а столбцы – признаками. Различают 2 вида признаков [1]: независимые переменные – предикторы; зависимые переменные Далее …