ABAC

Разграничение доступа на основе атрибутов (Attribute-Based Access Control, ABAC) — модель контроля доступа к объектам, основанная на анализе правил для атрибутов объектов или субъектов, возможных операций с ними и окружения, соответствующего запросу. Системы управления доступом на основе атрибутов обеспечивают мандатное и избирательное управление доступом. Рассматриваемый вид разграничения доступа дает возможность создать огромное количество комбинаций условий для выражения различных политик.    Оригинал определения  Разграничение доступа на основе атрибутов (Attribute-Based Access Control, ABAC)

AirFlow

Что такое AirFlow

AirFlow — это инструмент, который позволяет разрабатывать, планировать и осуществлять мониторинг сложных рабочих процессов. Главной особенностью является то, что для описания процессов используется язык программирования Python. Apache Airflow используется как планировщик ETL/ELT-процессов. Основные сущности рабочего процесса на Airflow: Направленные ациклические графы (DAG) Планировщик (Scheduler) Операторы (Operators) Задачи (Tasks)

Case Based Reasoning

Метод рассуждением по аналогии (Case Based Reasoning, CBR), предположения на основе аналогичных случаев, предположения по прецедентам

Churn Rate

Churn Rate (уровень оттока клиента) — индикатор, показывающий процент пользователей, которые перестали пользоваться приложением (сервисом) или перестали быть вашим клиентом  в течение рассматриваемого периода. Для уменьшения оттока клиентов используют таргетированные маркетинговые кампании для удержания клиентов с помощью персональных бонусов, скидок и предложения. Для успешной компании уровень оттока клиентов (Churn Rate) должен быть ниже уровня притока новых клиентов (Growth Rate). Удержание существующих клиентов как правило обходится на 60-70% дешевле чем привлечение новых.   Для уменьшения показателя Churn Rate принимают следующие меры: Программы лояльности Далее …

Data Lake

Data Lake (Озеро данных) — метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах, обычно blob (binary large object) объект или файл. Идея озера данных в том чтобы иметь логически определенное, единое хранилище всех данных в организации (enterprise data) начиная от сырых, необработанных исходных данных (RAW data) до предварительно обработанных (transformed) данных испольуемых для различных задач (отчеты, визуализация, аналитика и машинное обучение. Data Lake (озеро данных) — включает структурированные Далее …

Data Mining

Data Mining — процесс поиска в сырых необработанных данных интересных, неизвестных, нетривиальных взаимосвязей и полезных знаний, позволяющих интерпретировать и применять результаты для принятия решений в любых сферах  человеческой деятельности. Представляет собой совокупность методов  визуализации, классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики.   Дополнительно о Data Mining на Википедии

data provenance

data provenance — происхождение данных

Hive

Apache Hive — это SQL интерфейс доступа к данным для платформы Apache Hadoop. Hive позволяет выполнять запросы, агрегировать и анализировать данные используя SQL синтаксис. Для данных хранящихся на файловой системе HDFS используется схема доступа на чтение позволяющая обращаться с данными как с обыкновенной таблицей или базой данных. Запросы HiveQL при этом в Java код команды  исполняемые MapReduce.   Запросы Hive создаются на языке запросов HiveQL, который основан на языке SQL, но не имеет полной поддержки стандарта SQL-92. В то же время этот Далее …

Kafka

Apache Kafka — распределенный программный брокер сообщений поддерживающий транзакционность при работе с потребителями и поставщиками событий: публикует и подписывается на поток записей подобно очереди сообщений и корпоративной системе сообщений хранит поток записей (событий) обеспечивая отказоустойчивость и надежность обрабатывает поток записей (событий) по мере поступления Apache Kafka обычно используется как Event Processing System (система обработки событий) для двух классов приложений: построение потоков каналов данных в режиме реального времени (real-time streaming data pipelines)  с надежность. получения данных между системами и приложениями построение Далее …

KNOX

Apache KNOX — REST API и шлюз приложений для компонентов экосистемы Apache Hadoop, обеспечивает единую точку доступа для всех HTTP соединений с кластерами Apache Hadoop и систему единой аутентификации Single Sign On (SSO) для сервисов и пользовательского интерфейса компонент Apache Hadoop. В сочетании с средствами сетевой изоляции  и  аутентификацией Kerberos, KNOX Gateway обеспечивает интегрированное решение для интеграции средств управления корпоративной идентификацией  (Identity Management Systems), маскирование инфраструктуры кластера Hadoop для клиентов и упрощение доступа клиентов к сервисам кластера Apache Hadoop.     Далее …

KSQL

KSQL — это движок SQL для Apache Kafka, который может использоваться для анализа данных в режиме реального времени с использованием операторов SQL вместо написания большого количества кода на Java. KSQL, построенный на основе API Kafka Streams, поддерживает операции обработки потоков, такие как фильтрация, преобразования, агрегации, соединения, оконные операции и сессии.

lineage

Data Lineage — Линия данных включает в себя происхождение данных, что происходит с ними и где они перемещаются со временем. Линия данных обеспечивает видимость, в то же время значительно упрощая возможность отслеживания ошибок до нахождения корневой причины чего-либо в процессе анализа данных.     Data lineage  более специфический термин включающий  бизнес data lineage и технический data lineage. Технический data lineage  создается из актуальных технических метаданных и трассирует поток данных на уровне реальных таблиц, скриптов и statements.  Пример: Informatica Metadata Manager Синоним для Data Далее …

LTV

LTV (Lifetime Value) — это совокупная прибыль компании, получаемая от одного клиента за все время сотрудничества с ним. Увеличивается при уменьшении уровня оттока клиентов (Churn Rate)

provenance

Data provenance — (происхождение данных) обеспечивает исторические изменения записи  и её оригинала. Происхождение данных генерируется сложными трансформациями такими как workflow и представляют определенную ценность для data scientist. Data provenance часто используют в контексте high-level рассмотрения преобразования данных для бизнес пользователя Синоним Data Lineage     Источник  WikiPedia  

RBAC

Управление доступом на основе ролей (Role Based Access Control, RBAC) — развитие политики избирательного управления доступом, при этом права доступа субъектов системы на объекты группируются с учётом специфики их применения, образуя роли. Формирование ролей призвано определить чёткие и понятные для пользователей компьютерной системы правила разграничения доступа. Ролевое разграничение доступа позволяет реализовать гибкие, изменяющиеся динамически в процессе функционирования компьютерной системы правила разграничения доступа. Такое разграничение доступа является составляющей многих современных компьютерных систем. Как правило, данный подход применяется в системах защиты СУБД, а отдельные элементы реализуются в сетевых операционных системах. Ролевой Далее …

Zookeeper

Apache  Zookeeper —  open source проект Apache Software Foundation , cервис-координатор обеспечивающий распределенную синхронизацию небольших по объему данных (конфигурационная информация, пространство имен)  для группы приложений. Zookeeper представляет из себя распределенное хранилище ключ-значение (key-value store) гарантирующий надежное консистентное(consistency)  хранение информации  за счет использования синхронной репликации между узлами, контроля версий, механизма очередей(queue)  и блокировок(lock). За счет использования оперативной памяти и масштабируемости обладает высокой скоростью  Сценарии использования Zookeeper: Распределенный сервер имен (namespace — topics для Kafka) Распределенная  конфигурация (Hadoop, Kafka) Распределенный членство в группах (распределенные сервисы Далее …

Естественная классификация

Естественная классификация — производится по существенным признакам, характеризующим внутреннюю общность предметов и явлений.

Искусственная классификация

Искусственная классификация — производится по внешнему признаку и служит для придания множеству предметов (процессов, явлений) нужного порядка

Классификация

отнесение объектов (наблюдений, событий) к одному из заранее известных классов

Машинное обучение

Машинное обучение (Machine Learning) — класс методов искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться