Даже после очистки и нормализации данных, выборка еще не совсем готова к моделированию. Для машинного обучения (Machine Learning) нужны только те переменные, которые на самом деле влияют на итоговый результат.…
Метка: статистика
Нормально делай – нормально будет: нормализация на практике - методы и средства Data Preparation
Автор Анна ВичуговаКатегория Machine Learning, Новости, СтатьиМы уже рассказали, что такое нормализация данных и зачем она нужна при подготовке выборки (Data Preparation) к машинному обучению (Machine Learning) и интеллектуальному анализу данных (Data Mining). Сегодня поговорим о…
Data Preparation: полет нормальный – что такое нормализация данных и зачем она нужна
Автор Анна ВичуговаКатегория Machine Learning, Новости, СтатьиНормализация данных – это одна из операций преобразования признаков (Feature Transformation), которая выполняется при их генерации (Feature Engineering) на этапе подготовки данных (Data Preparation). В этой статье мы расскажем, почему необходимо нормализовать…
Оцифровываем текст: как превратить слова в числа для Data Mining – 5 NLP-операций Feature Extraction
Автор Анна ВичуговаКатегория Machine Learning, Новости, СтатьиИзвлечение признаков (Feature Extraction) из текста – часто встречающаяся задача Data Mining, а именно этапа генерации признаков. Интеллектуальный анализ текста получил название Text Mining. В этом случае Feature Extraction относится…
Это не баг, а фича: генерация признаков для Data Mining
Автор Анна ВичуговаКатегория Machine Learning, Новости, СтатьиГенерация признаков – пожалуй, самый творческий этап подготовки данных (Data Preparation) для машинного обучения (Machine Learning). Этот этап еще называют Feature Engineering. Он наступает после того, как выборка сформирована и…
Зачем нужна очистка данных для Data Mining: 10 главных проблем подготовки датасета и способы их решения
Автор Анна ВичуговаКатегория Machine Learning, Новости, СтатьиВыборка, полученная в результате первого этапа подготовки данных (Data Preparation), еще пока не пригодна для обработки алгоритмами машинного обучения, поскольку информацию необходимо очистить. Сегодня мы расскажем, что такое очистка данных…
Отберем то, что нужно Data Mining: как сформировать датасет для машинного обучения
Автор Анна ВичуговаКатегория Machine Learning, Новости, СтатьиМы уже рассказывали о важности этапа подготовки данных (Data Preparation), результатом которого является обработанный набор очищенных данных, пригодных для обработки алгоритмами машинного обучения (Machine Learning). Такая выборка, называемая датасет (dataset),…
Как подготовить данные к моделированию: 5 операций Data Preparation
Автор Анна ВичуговаКатегория Machine Learning, Новости, СтатьиCRISP-DM, SEMMA и другие стандарты Data Mining не случайно выделяют подготовку данных в отдельную фазу. Data Preparation – весьма трудоемкий итеративный процесс, который занимает до 80% всех затрат ресурсов и…
Зачем менеджеру язык программирования R: 7 причин освоить аналитический инструмент Big Data и Machine Learning
Автор Анна ВичуговаКатегория Machine Learning, Новости, СтатьиМы уже рассказывали, зачем HR-специалисту большие данные, как Big Data и Machine Learning помогают PR-менеджеру в управлении корпоративной репутацией, а маркетологу в формировании персональных рекламных предложений. Сегодня поговорим об одном…
20 проблем для Data Scientist, от которых не спасет CRISP-DM
Автор Анна ВичуговаКатегория Machine Learning, Статьи, Цифровая трансформацияИван Гуз, директор по аналитике и клиентскому сервису Avito, 24.04.2018 на митапе AI Community и AI Today для специалистов по Data Science в офисе компании [1] рассказал о самых главных…