Data Lake (Озеро данных) – это метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах. Обычно используется blob-объект (binary large…
Encyclopedia
Data Mining
Автор Nikolay KomissarenkoData Mining – процесс поиска в сырых необработанных данных интересных, неизвестных, нетривиальных взаимосвязей и полезных знаний, позволяющих интерпретировать и применять результаты для принятия решений в любых сферах человеческой деятельности. Представляет…
Data Science
Автор Анна ВичуговаData Science – это наука о данных, объединяющая разные области знаний: информатику, математику и системный анализ. Сюда входят методы обработки больших данных (Big Data), интеллектуального анализа данных (Data Mining), статистические…
Dataframe
Автор Nikolay KomissarenkoDataframe – основная абстрация Apache Spark Dataframe – это аналог реляционной таблицы, которая хранится в распределенной памяти кластера обработки данных. Более точно – это не таблица, а алгоритм ее построения:…
DevOps
Автор Анна ВичуговаDevOps (DEVelopment OPeration) – это набор практик для повышения эффективности процессов разработки (Development) и эксплуатации (Operation) программного обеспечения (ПО) за счет их непрерывной интеграции и активного взаимодействия профильных специалистов с…