Отвечая на вопрос, что такое большие данные для чайников, сегодня мы рассмотрим 3 практических примера использования технологий Big Data в малом и среднем бизнесе. Никакой Rocket Science, только понятные кейсы,…
Метка: Data mining
Как нормализовать данные в PySpark перед обучением ML-моделей
Автор Роман КотюбеевКатегория Machine Learning, Spark, СтатьиВ прошлый раз мы говорили о методах NLP в PySpark. Сегодня рассмотрим методы нормализации и стандартизации данных модуля ML библиотеки PySpark. Читайте в нашей статье: применение Normalizer, StandardScaler, MinMaxScaler и…
Чем похожи CRISP-DM и BABOK®Guide: бизнес-анализ в Data Science
Автор Анна ВичуговаКатегория Machine Learning, Статьи, Цифровая трансформацияМы уже рассказывали, что цифровизация и другие масштабные проекты внедрения технологий Big Data должны обязательно сопровождаться процедурами бизнес-анализа, начиная от выявления требований на старте до оценки эффективности уже эксплуатируемого решения.…
Сколько стоит цифровизация: что такое ФСА и зачем это нужно в Big Data
Автор Анна ВичуговаКатегория Use Cases, Статьи, Цифровая трансформацияВ этой статье мы расскажем, что такое функционально-стоимостный анализ, как он связан с концепцией бережливого производства (Lean) и каким образом позволяет оценить и оптимизировать бизнес-процессы. Также рассмотрим, почему этому методу…
Почему вам нужна расширенная аналитика Big Data и как ее получить
Автор Анна ВичуговаКатегория Machine Learning, Use Cases, Статьи, Цифровая трансформацияСегодня мы рассмотрим, что такое расширенная аналитика и дополненное управление данными, как они связаны с цифровизацией бизнеса и почему исследовательское бюро Gartner включило эти технологии в ТОП-10 самых перспективных трендов…
Как увидеть лес за деревьями: что такое Decision Tree и зачем это нужно в Big Data
Автор Анна ВичуговаКатегория Use Cases, Статьи, Цифровая трансформацияПродолжая насыщать курс Аналитика больших данных для руководителей важными понятиями системного анализа, сегодня мы рассмотрим, что такое дерево решений (Decision Tree). А также расскажем, как этот метод Data Mining и…
Выделение признаков: зачем отбирать предикторы и как это правильно сделать – готовим датасет к Data Mining и Machine Learning
Автор Анна ВичуговаКатегория Machine Learning, Новости, СтатьиДаже после очистки и нормализации данных, выборка еще не совсем готова к моделированию. Для машинного обучения (Machine Learning) нужны только те переменные, которые на самом деле влияют на итоговый результат.…
Нормально делай – нормально будет: нормализация на практике - методы и средства Data Preparation
Автор Анна ВичуговаКатегория Machine Learning, Новости, СтатьиМы уже рассказали, что такое нормализация данных и зачем она нужна при подготовке выборки (Data Preparation) к машинному обучению (Machine Learning) и интеллектуальному анализу данных (Data Mining). Сегодня поговорим о…
Data Preparation: полет нормальный – что такое нормализация данных и зачем она нужна
Автор Анна ВичуговаКатегория Machine Learning, Новости, СтатьиНормализация данных – это одна из операций преобразования признаков (Feature Transformation), которая выполняется при их генерации (Feature Engineering) на этапе подготовки данных (Data Preparation). В этой статье мы расскажем, почему необходимо нормализовать…
Оцифровываем текст: как превратить слова в числа для Data Mining – 5 NLP-операций Feature Extraction
Автор Анна ВичуговаКатегория Machine Learning, Новости, СтатьиИзвлечение признаков (Feature Extraction) из текста – часто встречающаяся задача Data Mining, а именно этапа генерации признаков. Интеллектуальный анализ текста получил название Text Mining. В этом случае Feature Extraction относится…