Мы уже рассказывали, как большие данные (Big Data) сохраняются на диск. Сегодня поговорим о других файловых операциях в HDFS: репликации, чтении и удалении данных. За...
Новости мира больших данных: свежие релизы Apache Hadoop, Spark, Kafka и прочих технологий Big Data, объявления о событиях и акциях
Как сохранить большие данные: операция записи файлов Big Data в HDFS
HDFS предназначена для больших данных (Big Data), поэтому размер файлов, которые хранится в ней, существенно выше чем в локальных файловых системах – более 10 GB...
Как общаются друг с другом компоненты HDFS и почему это так важно для Big Data проектов
Благодаря архитектурным особенностям распределенной файловой системы Hadoop, допустимые файловые операции в ней отличаются от возможных действий с файлами на локальных системах. В этой статье мы...
Сложно, дорого, универсально: 3 мифа о Hadoop и их опровержения
Сегодня мы поговорим о заблуждениях насчет базового инфраструктурного понятия хранения и обработки больших данных – экосистеме Hadoop и развеем 3 самых популярных мифа об этой...
Выделение признаков: зачем отбирать предикторы и как это правильно сделать – готовим датасет к Data Mining и Machine Learning
Даже после очистки и нормализации данных, выборка еще не совсем готова к моделированию. Для машинного обучения (Machine Learning) нужны только те переменные, которые на самом...
Нормально делай – нормально будет: нормализация на практике — методы и средства Data Preparation
Мы уже рассказали, что такое нормализация данных и зачем она нужна при подготовке выборки (Data Preparation) к машинному обучению (Machine Learning) и интеллектуальному анализу данных...
Data Preparation: полет нормальный – что такое нормализация данных и зачем она нужна
Нормализация данных – это одна из операций преобразования признаков (Feature Transformation), которая выполняется при их генерации (Feature Engineering) на этапе подготовки данных (Data Preparation). В этой статье...
Оцифровываем текст: как превратить слова в числа для Data Mining – 5 NLP-операций Feature Extraction
Извлечение признаков (Feature Extraction) из текста – часто встречающаяся задача Data Mining, а именно этапа генерации признаков. Интеллектуальный анализ текста получил название Text Mining. В...
Это не баг, а фича: генерация признаков для Data Mining
Генерация признаков – пожалуй, самый творческий этап подготовки данных (Data Preparation) для машинного обучения (Machine Learning). Этот этап еще называют Feature Engineering. Он наступает после...
Зачем нужна очистка данных для Data Mining: 10 главных проблем подготовки датасета и способы их решения
Выборка, полученная в результате первого этапа подготовки данных (Data Preparation), еще пока не пригодна для обработки алгоритмами машинного обучения, поскольку информацию необходимо очистить. Сегодня мы...