Разграничение доступа на основе атрибутов (Attribute-Based Access Control, ABAC) — модель контроля доступа к объектам, основанная на анализе правил для атрибутов объектов или субъектов, возможных операций с ними и окружения, соответствующего запросу.…
Encyclopedia
Agile
Автор Анна ВичуговаAgile – набор методов и практик для гибкого управления проектами в разных прикладных областях, от разработки ПО до реализации маркетинговых стратегий, с целью повышения скорости создания готовых продуктов и минимизации…
AirFlow
Автор Nikolay KomissarenkoApache AirFlow – это open-source инструмент, который позволяет разрабатывать, планировать и осуществлять мониторинг сложных рабочих процессов. Главной особенностью является то, что для описания процессов используется язык программирования Python. Airflow используется…
Arenadata
Автор Nikolay KomissarenkoArenadata – российская ИТ-компания, разработчик первых отечественных Big Data решений, основанных на свободном программном обеспечении с открытым исходным кодом без использования проприетарных компонентов: Arenadata Hadoop (ADH) – полноценный дистрибутив распределенной платформы хранения…
AVRO
Автор Анна ВичуговаAvro – это линейно-ориентированный (строчный) формат хранения файлов Big Data, активно применяемый в экосистеме Apache Hadoop и широко используемый в качестве платформы сериализации. Как устроен формат Avro для файлов Big…
Big Data
Автор Nikolay KomissarenkoBig Data (Большие данные) Big Data – данные большого объема, высокой скорости накопления или изменения и/или разновариантные информационные активы, которые требуют экономически эффективных, инновационных формы обработки данных, которые позволяют получить…
CAP
Автор Анна ВичуговаCAP – это акроним от англоязычных слов Consistency (Согласованность, Целостность), Availability (Доступность) и Partition tolerance (Устойчивость к разделению). Согласно утверждению профессора Калифорнийского университета в Беркли, Эрика Брюера, сделанному в 2000-м году, в…
Case Based Reasoning (CBR)
Автор Nikolay KomissarenkoCase Based Reasoning (CBR) – метод решения проблем рассуждением по аналогии, путем предположения на основе подобных случаев (прецедентов). Это способ решения проблем на основе уже известных решений, который широко применяется…
Cassandra
Автор Анна ВичуговаApache Cassandra – это нереляционная отказоустойчивая распределенная СУБД, рассчитанная на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша. Проект был разработан на языке Java в корпорации Facebook…
Churn Rate
Автор Nikolay KomissarenkoChurn Rate (уровень оттока клиентов) – индикатор, показывающий процент пользователей, которые перестали пользоваться приложением (сервисом) или перестали быть вашим клиентом в течение рассматриваемого периода. Для уменьшения оттока клиентов используют таргетированные…
ClickHouse
Автор Анна ВичуговаПолная история разработки, архитектура и принципы работы, достоинства и недостатки, а также примеры использования ClickHouse в Big Data проектах
Cloudera
Автор Анна ВичуговаCloudera CDH (Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит, разработанных компанией Cloudera для больших данных (Big Data) и машинного обучения (Machine Learning),…
CRISP-DM
Автор Анна ВичуговаCRISP-DM (от английского Cross-Industry Standard Process for Data Mining) — межотраслевой стандартный процесс исследования данных. Это проверенная в промышленности и наиболее распространённая методология, первая версия которой была представлена в Брюсселе…
Data Lake
Автор Nikolay KomissarenkoData Lake (Озеро данных) – это метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах. Обычно используется blob-объект (binary large…
Data Mining
Автор Nikolay KomissarenkoData Mining – процесс поиска в сырых необработанных данных интересных, неизвестных, нетривиальных взаимосвязей и полезных знаний, позволяющих интерпретировать и применять результаты для принятия решений в любых сферах человеческой деятельности. Представляет…
Data Science
Автор Анна ВичуговаData Science – это наука о данных, объединяющая разные области знаний: информатику, математику и системный анализ. Сюда входят методы обработки больших данных (Big Data), интеллектуального анализа данных (Data Mining), статистические…
Dataframe
Автор Nikolay KomissarenkoDataframe – основная абстрация Apache Spark Dataframe – это аналог реляционной таблицы, которая хранится в распределенной памяти кластера обработки данных. Более точно – это не таблица, а алгоритм ее построения:…
DevOps
Автор Анна ВичуговаDevOps (DEVelopment OPeration) – это набор практик для повышения эффективности процессов разработки (Development) и эксплуатации (Operation) программного обеспечения (ПО) за счет их непрерывной интеграции и активного взаимодействия профильных специалистов с…
Elasticsearch
Автор Анна ВичуговаElasticsearch – это одна из самых популярных поисковых систем в области Big Data, масштабируемое нереляционное хранилище данных с открытым исходным кодом, аналитическая NoSQL-СУБД с широким набором функций полнотекстового поиска. Назначение…