ABAC

Разграничение доступа на основе атрибутов (Attribute-Based Access Control, ABAC) — модель контроля доступа к объектам, основанная на анализе правил для атрибутов объектов или субъектов, возможных операций с ними и окружения, соответствующего запросу. Системы управления доступом на основе атрибутов обеспечивают мандатное и избирательное управление доступом. Рассматриваемый вид разграничения доступа дает возможность создать огромное количество комбинаций условий для выражения различных политик.    Оригинал определения  Разграничение доступа на основе атрибутов (Attribute-Based Access Control, ABAC)

Apache AirFlow

Что такое AirFlow

Apache AirFlow — это инструмент, который позволяет разрабатывать, планировать и осуществлять мониторинг сложных рабочих процессов. Главной особенностью является то, что для описания процессов используется язык программирования Python. Apache Airflow используется как планировщик ETL/ELT-процессов. Основные сущности рабочего процесса на Apache Airflow: Направленные ациклические графы (DAG) Планировщик (Scheduler) Операторы (Operators) Задачи (Tasks) AIRF: Apache AirFlow Что такое AirFlow?

Arenadata

Arenadata Hadoop — корпоративная платформа для обработки данных с открытым исходным кодом, представляет собой полноценный дистрибутив распределенной платформы хранения на базе Apache Hadoop. Для российских пользователей Arenadata Hadoop предлагает поддержку в России и на русском языке, с полным набором возможностей по автоматическому развертыванию в облаке и on-premises. оригинальтная документация ня русском языке, и удаленная или on-site поддержка. Сайт компании производителя Аренадата 

Big Data

Big Data (Большие данные) Big Data — данные большого объема, высокой скорости накопления или изменения и/или разновариантные информационные активы, которые требуют экономически эффективных, инновационных формы обработки данных, которые позволяют получить расширенное  понимание информации, способствующее принятию решений и автоматизации процессов. Для каждой организации или компании существует предел объема данных (Volume) которые компания или организация способна обрабатывать одновременно для целей аналитики, как правило этот объем ограничен объемами оперативной памяти серверов корпоративных приложений и баз данных и необходимостью партиционирования (Partitioning)  хранимых данных. Для каждой организации или компании существуют физические ограничения на количество транзакций/ объем данных (Velocity) , которая корпоративныя система может обработать или передать за единицу времени вследствии ограничений scale in архитектуры.  Традиционные корпоративные системы (реляционные) могут использовать эффективно только структурированные источники поступления Далее …

Case Based Reasoning

Метод рассуждением по аналогии (Case Based Reasoning, CBR), предположения на основе аналогичных случаев, предположения по прецедентам

Churn Rate

Churn Rate (уровень оттока клиента) — индикатор, показывающий процент пользователей, которые перестали пользоваться приложением (сервисом) или перестали быть вашим клиентом  в течение рассматриваемого периода. Для уменьшения оттока клиентов используют таргетированные маркетинговые кампании для удержания клиентов с помощью персональных бонусов, скидок и предложения. Для успешной компании уровень оттока клиентов (Churn Rate) должен быть ниже уровня притока новых клиентов (Growth Rate). Удержание существующих клиентов как правило обходится на 60-70% дешевле чем привлечение новых.   Для уменьшения показателя Churn Rate принимают следующие меры: Программы лояльности для маректинговых кампаний  и персонализированных  таргетированных скидок Поддержка существующих клиентов для улучшения пользовательского опыта и удержания постоянных клиентов Качественный сервис Рассчитывается как: Churn Rate = (Кол-во ушедших пользователей / Общее количество пользователей) * 100% Низкий Churn Rate увеличивает показатель Life Time Далее …

Data Lake

Data Lake (Озеро данных) — метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах, обычно blob (binary large object) объект или файл. Идея озера данных в том чтобы иметь логически определенное, единое хранилище всех данных в организации (enterprise data) начиная от сырых, необработанных исходных данных (RAW data) до предварительно обработанных (transformed) данных испольуемых для различных задач (отчеты, визуализация, аналитика и машинное обучение. Data Lake (озеро данных) — включает структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, лог файлы, XML, JSON), неструктурированные данные (почтовые сообщения , документы, pdf файлы) и даже бинарные данные (видео, аудио, графические файлы). Data Lake (озеро данных) — кроме методов хранения и Далее …

Data Mining

Data Mining — процесс поиска в сырых необработанных данных интересных, неизвестных, нетривиальных взаимосвязей и полезных знаний, позволяющих интерпретировать и применять результаты для принятия решений в любых сферах  человеческой деятельности. Представляет собой совокупность методов  визуализации, классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики.   Дополнительно о Data Mining на Википедии

data provenance

data provenance — происхождение данных

Hive

Apache Hive — это SQL интерфейс доступа к данным для платформы Apache Hadoop. Hive позволяет выполнять запросы, агрегировать и анализировать данные используя SQL синтаксис. Для данных хранящихся на файловой системе HDFS используется схема доступа на чтение позволяющая обращаться с данными как с обыкновенной таблицей или базой данных. Запросы HiveQL при этом в Java код команды  исполняемые MapReduce.   Запросы Hive создаются на языке запросов HiveQL, который основан на языке SQL, но не имеет полной поддержки стандарта SQL-92. В то же время этот язык позволяет программистам использовать их собственные запросы, когда неудобно или неэффективно использовать логику в HiveQL. HiveQL может быть расширен с помощью пользовательских скалярных функций (UDF), агрегаций (UDAF кодов), и табличных функций (UDTF). Архитектура HIVE: Название компонента Описание UI Пользовательский интерфейс Позволяет Далее …

Internet of Things

Internet of Things (Интернет вещей) означает сеть физических или виртуальных предметов (вещей) подключенных напрямую или опосредованно к интернету и взаимодействующие между собой и/или с внешней средой посредством сбора данных и обмена данных поступающих со встроенных сервисов. Интернет вещей (IoT) дает компаниям и организациям возможность контролировать удаленно расположенные «дешевые» вещи /объекты  получая с них информацию и выполняя мониторинг удаленно исполняемых операций. Учитывая огромное количество «умных» устройств в промышленности и повседневной жизни мы получаем колоссальную базу источников поступления информации (больших данных) в реальном времени. Источники https://ru.wikipedia.org/https://ru.wikipedia.org/wiki/Интернет вещей Узнайте больше про Internet of Things и Промышленный интернет вещей на наших курсах для руководителей по основам больших данных Big Data: общее описание и примеры использования

Kafka

Apache Kafka — распределенный программный брокер сообщений поддерживающий транзакционность при работе с потребителями и поставщиками событий: публикует и подписывается на поток записей подобно очереди сообщений и корпоративной системе сообщений хранит поток записей (событий) обеспечивая отказоустойчивость и надежность обрабатывает поток записей (событий) по мере поступления Apache Kafka обычно используется как Event Processing System (система обработки событий) для двух классов приложений: построение потоков каналов данных в режиме реального времени (real-time streaming data pipelines)  с надежность. получения данных между системами и приложениями построение потоковых приложений работающих в режиме реального времени (real-time streaming applications) которые трансформируют или реагируют на данные потока или более красочно от Confluent  Apache Kafka, a Distributed Streaming Platform Проект Apache Kafka https://kafka.apache.org Почитать про Kafka  и попробовать https://www.confluent.io/product/confluent-platform/ Учебные курсы  по Kafka на Далее …

KNOX

Apache KNOX — REST API и шлюз приложений для компонентов экосистемы Apache Hadoop, обеспечивает единую точку доступа для всех HTTP соединений с кластерами Apache Hadoop и систему единой аутентификации Single Sign On (SSO) для сервисов и пользовательского интерфейса компонент Apache Hadoop. В сочетании с средствами сетевой изоляции  и  аутентификацией Kerberos, KNOX Gateway обеспечивает интегрированное решение для интеграции средств управления корпоративной идентификацией  (Identity Management Systems), маскирование инфраструктуры кластера Hadoop для клиентов и упрощение доступа клиентов к сервисам кластера Apache Hadoop.           Список поддерживаемых сервисов: Ambari WebHDFS (HDFS) Yarn RM Stargate (Apache HBase) Apache Oozie Apache Hive/JDBC Apache Hive WebHCat (Templeton) Apache Storm Apache Tinkerpop — Gremlin Apache Avatica/Phoenix Apache SOLR Apache Livy (Spark REST Service) Kafka REST Proxy Далее …

KSQL

KSQL — это движок SQL для Apache Kafka, который может использоваться для анализа данных в режиме реального времени с использованием операторов SQL вместо написания большого количества кода на Java. KSQL, построенный на основе API Kafka Streams, поддерживает операции обработки потоков, такие как фильтрация, преобразования, агрегации, соединения, оконные операции и сессии.

lineage

Data Lineage — Линия данных включает в себя происхождение данных, что происходит с ними и где они перемещаются со временем. Линия данных обеспечивает видимость, в то же время значительно упрощая возможность отслеживания ошибок до нахождения корневой причины чего-либо в процессе анализа данных.     Data lineage  более специфический термин включающий  бизнес data lineage и технический data lineage. Технический data lineage  создается из актуальных технических метаданных и трассирует поток данных на уровне реальных таблиц, скриптов и statements.  Пример: Informatica Metadata Manager Синоним для Data Provenance Оригинал термина на сайте Wikipedia 

LTV

LTV (Lifetime Value) — это совокупная прибыль компании, получаемая от одного клиента за все время сотрудничества с ним. Увеличивается при уменьшении уровня оттока клиентов (Churn Rate)

NiFi

Управление потоками данных с использованием Apache NiFi

Apache NiFi простая платформа обработки событий (сообщений), предоставляющая возможности управления потоками данных из разнообразных источников в режиме реального времени с использованием графического интерфейса. Программа Apache NiFi написана на Java  и была разработана Агентством Национальной Безопасности  (NSA) под кодовым названием «Niagara Files» для диспетчеризации данных поддерживающих работу как  с разнообразными небольшими сетевыми граничными устройствами, такими как Raspberry Pi. так и крупными кластерами данных и облачной инфраструктурой.  Apache NiFi использует концепцию потока рассматриваемую как последовательность операций(таких как передача, преобразование данных, обогащение данных) над последовательностью отдельных событий (events),  вместо того чтобы рассматривать поток как большая batch операция, требующая выполнения первоначальной загрузки всех данных  перед тем как начать процессинг. База данных SQL с миллионами строк данных,  таким образом рассматривается Apache NiFi как милионы отдельных строк требующие Далее …

provenance

Data provenance — (происхождение данных) обеспечивает исторические изменения записи  и её оригинала. Происхождение данных генерируется сложными трансформациями такими как workflow и представляют определенную ценность для data scientist. Data provenance часто используют в контексте high-level рассмотрения преобразования данных для бизнес пользователя Синоним Data Lineage     Источник  WikiPedia  

RBAC

Управление доступом на основе ролей (Role Based Access Control, RBAC) — развитие политики избирательного управления доступом, при этом права доступа субъектов системы на объекты группируются с учётом специфики их применения, образуя роли. Формирование ролей призвано определить чёткие и понятные для пользователей компьютерной системы правила разграничения доступа. Ролевое разграничение доступа позволяет реализовать гибкие, изменяющиеся динамически в процессе функционирования компьютерной системы правила разграничения доступа. Такое разграничение доступа является составляющей многих современных компьютерных систем. Как правило, данный подход применяется в системах защиты СУБД, а отдельные элементы реализуются в сетевых операционных системах. Ролевой подход часто используется в системах, для пользователей которых чётко определён круг их должностных полномочий и обязанностей.   Оригинал определения  Управление доступом на основе ролей (Role Based Access Control, RBAC)

Zookeeper

Apache  Zookeeper —  open source проект Apache Software Foundation , cервис-координатор обеспечивающий распределенную синхронизацию небольших по объему данных (конфигурационная информация, пространство имен)  для группы приложений. Zookeeper представляет из себя распределенное хранилище ключ-значение (key-value store) гарантирующий надежное консистентное(consistency)  хранение информации  за счет использования синхронной репликации между узлами, контроля версий, механизма очередей(queue)  и блокировок(lock). За счет использования оперативной памяти и масштабируемости обладает высокой скоростью  Сценарии использования Zookeeper: Распределенный сервер имен (namespace — topics для Kafka) Распределенная  конфигурация (Hadoop, Kafka) Распределенный членство в группах (распределенные сервисы Kafka, Hadoop) Выбор главного в распределенных системах с арбитражом(Leader election)