Выделение признаков: зачем отбирать предикторы и как это правильно сделать – готовим датасет к Data Mining и Machine Learning

Автор Категория , ,
Выделение признаков: зачем отбирать предикторы и как это правильно сделать – готовим датасет к Data Mining и Machine Learning

Даже после очистки и нормализации данных, выборка еще не совсем готова к моделированию. Для машинного обучения (Machine Learning) нужны только те переменные, которые на самом деле влияют на итоговый результат.…

Нормально делай – нормально будет: нормализация на практике - методы и средства Data Preparation

Автор Категория , ,
Нормально делай – нормально будет: нормализация на практике - методы и средства Data Preparation

Мы уже рассказали, что такое нормализация данных и зачем она нужна при подготовке выборки (Data Preparation) к машинному обучению (Machine Learning) и интеллектуальному анализу данных (Data Mining). Сегодня поговорим о…

Data Preparation: полет нормальный – что такое нормализация данных и зачем она нужна

Автор Категория , ,
Data Preparation: полет нормальный – что такое нормализация данных и зачем она нужна

Нормализация данных – это одна из операций преобразования признаков (Feature Transformation), которая выполняется при их генерации (Feature Engineering) на этапе подготовки данных (Data Preparation). В этой статье мы расскажем, почему необходимо нормализовать…

Оцифровываем текст: как превратить слова в числа для Data Mining – 5 NLP-операций Feature Extraction

Автор Категория , ,
Оцифровываем текст: как превратить слова в числа для Data Mining – 5 NLP-операций Feature Extraction

Извлечение признаков (Feature Extraction) из текста – часто встречающаяся задача Data Mining, а именно этапа генерации признаков. Интеллектуальный анализ текста получил название Text Mining. В этом случае Feature Extraction относится…

Это не баг, а фича: генерация признаков для Data Mining

Автор Категория , ,
Это не баг, а фича: генерация признаков для Data Mining

Генерация признаков – пожалуй, самый творческий этап подготовки данных (Data Preparation) для машинного обучения (Machine Learning). Этот этап еще называют Feature Engineering. Он наступает после того, как выборка сформирована и…

Зачем нужна очистка данных для Data Mining: 10 главных проблем подготовки датасета и способы их решения

Автор Категория , ,
Зачем нужна очистка данных для Data Mining: 10 главных проблем подготовки датасета и способы их решения

Выборка, полученная в результате первого этапа подготовки данных (Data Preparation), еще пока не пригодна для обработки алгоритмами машинного обучения, поскольку информацию необходимо очистить. Сегодня мы расскажем, что такое очистка данных…

Отберем то, что нужно Data Mining: как сформировать датасет для машинного обучения

Автор Категория , ,
Отберем то, что нужно Data Mining: как сформировать датасет для машинного обучения

Мы уже рассказывали о важности этапа подготовки данных (Data Preparation), результатом которого является обработанный набор очищенных данных, пригодных для обработки алгоритмами машинного обучения (Machine Learning). Такая выборка, называемая датасет (dataset),…

Как подготовить данные к моделированию: 5 операций Data Preparation

Автор Категория , ,
Как подготовить данные к моделированию: 5 операций Data Preparation

CRISP-DM, SEMMA и другие стандарты Data Mining не случайно выделяют подготовку данных в отдельную фазу. Data Preparation – весьма трудоемкий итеративный процесс, который занимает до 80% всех затрат ресурсов и…

Зачем менеджеру язык программирования R: 7 причин освоить аналитический инструмент Big Data и Machine Learning

Автор Категория , ,
Зачем менеджеру язык программирования R: 7 причин освоить аналитический инструмент Big Data и Machine Learning

Мы уже рассказывали, зачем HR-специалисту большие данные, как Big Data и Machine Learning помогают PR-менеджеру в управлении корпоративной репутацией, а маркетологу в формировании персональных рекламных предложений. Сегодня поговорим об одном…

20 проблем для Data Scientist, от которых не спасет CRISP-DM

Автор Категория , ,
20 проблем для Data Scientist, от которых не спасет CRISP-DM

Иван Гуз, директор по аналитике и клиентскому сервису Avito, 24.04.2018 на митапе AI Community и AI Today для специалистов по Data Science в офисе компании [1] рассказал о самых главных…