CAP

Big Data, Большие данные, NoSQL, SQL, HBase, Cassandra, архитектура

CAP – это акроним от англоязычных слов Consistency (Согласованность, Целостность), Availability (Доступность) и Partition tolerance (Устойчивость к разделению). Согласно утверждению профессора Калифорнийского университета в Беркли, Эрика Брюера, сделанному в 2000-м году, в распределенных системах осуществимы лишь 2 свойства из указанных 3-х. В частности, считается что нереляционные базы данных жертвуют согласованностью данных в пользу доступности и устойчивости к разделению, когда расщепление распределённой системы на несколько изолированных частей сохраняет корректный отклик от каждой из них [1]. В 2002 году Сет Гилберт и Нэнси Линч из MIT опубликовали формальное доказательство гипотезы Брюера, после чего она стала считаться теоремой [2]. Классы NoSQL-СУБД с точки зрения CAP-теоремы и их значимость для Big Data По аналогии с железным треугольником проектного менеджмента, когда требуется найти баланс между сроками, затратами Далее …

Case Based Reasoning (CBR)

Case Based Reasoning (CBR) — метод решения проблем рассуждением по аналогии, путем предположения на основе подобных случаев (прецедентов). Это способ решения проблем на основе уже известных решений, который широко применяется во всех областях деятельности. Например, в бизнес-аналитике такое сопоставление с эталоном, целенаправленный поиск и внедрение лучших практик со стороны называется бенчмаркингом (Benchmarking) [1]. В Data Mining CBR-подход реализуется в виде методов решения новых задач на основе анализа предыдущего опыта. В частности, в Data Science именно так искусственные нейронные сети (частный случай машинного обучения, Machine Learning) вычисляют результат, вспоминая предыдущие подобные ситуации и повторно используя знания из подобных ситуаций [2]. Таким образом, можно сказать, что Case Based Reasoning — это наиболее распространенный подход к решению проблем, который применим не только к Далее …

Cassandra

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra

Apache Cassandra – это нереляционная отказоустойчивая распределенная СУБД, рассчитанная на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша. Проект был разработан на языке Java в корпорации Facebook в 2008 году, и передан фонду Apache Software Foundation в 2009 [1]. Эта СУБД относится к гибридным NoSQL-решениям, поскольку она сочетает модель хранения данных на базе семейства столбцов (ColumnFamily) с концепцией key-value (ключ-значение) [2]. Модель данных Apache Cassandra Модель данных Cassandra состоит из следующих элементов [3]: столбец или колонка (column) – ячейка с данными, включающая 3 части – имя (column name) в виде массива байтов, метку времени (timestamp) и само значение (value) также в виде байтового массива. С каждым значением связана метка времени — задаваемое пользователем 64-битное число, которое используется Далее …

Churn Rate

Churn Rate (уровень оттока клиентов) — индикатор, показывающий процент пользователей, которые перестали пользоваться приложением (сервисом) или перестали быть вашим клиентом  в течение рассматриваемого периода. Для уменьшения оттока клиентов используют таргетированные маркетинговые кампании для удержания клиентов с помощью персональных бонусов, скидок и предложения. Для успешной компании уровень оттока клиентов (Churn Rate) должен быть ниже уровня притока новых клиентов (Growth Rate). Удержание существующих клиентов как правило обходится на 60-70% дешевле чем привлечение новых.   Для уменьшения показателя Churn Rate принимают следующие меры: Программы лояльности для маркетинговых кампаний  и персонализированных  таргетированных скидок Поддержка существующих клиентов для улучшения пользовательского опыта и удержания постоянных клиентов Качественный сервис Рассчитывается как: Churn Rate = (Кол-во ушедших пользователей / Общее количество пользователей) * 100% Низкий отток увеличивает другую важную для бизнеса Далее …

ClickHouse

Big Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse, DWH

Полная история разработки, архитектура и принципы работы, достоинства и недостатки, а также примеры использования ClickHouse в Big Data проектах

Cloudera

Cloudera CDH (Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит, разработанных компанией Cloudera для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый для некоторых Linux-систем (Red Hat, CentOS, Ubuntu, SuSE SLES, Debian) [1]. Состав и архитектура Клаудера CDH Помимо классического Hadoop от Apache Software Foundation, состоящего из 4-х основных модулей (HDFS, MapReduce, Yarn и Hadoop Common), CDH также содержит дополнительные решения Apache для работы с большими данными и машинным обучением: инструменты для управления потоками данных (Flume, Sqoop); фреймворки распределённой и потоковой обработки, а также брокеры сообщений (Spark, Kafka) СУБД для Big Data аналитики (HBase, Hive, Impala); высокоуровневый процедурный язык для выполнения запросов к большим слабоструктурированным наборам данных Далее …

CRISP-DM

CRISP-DM, обработка данных, Big Data, Большие данные, жизненный цикл, Machine Learning, машинное обучение

CRISP-DM (от английского Cross-Industry Standard Process for Data Mining) — межотраслевой стандартный процесс исследования данных. Это проверенная в промышленности и наиболее распространённая методология, первая версия которой была представлена в Брюсселе в марте 1999 года, а пошаговая инструкция опубликована в 2000 году [1]. CRISP-DM описывает жизненный цикл исследования данных, состоящий из 6 фаз, от постановки задачи с точки зрения бизнеса до внедрения технического решения. Последовательность между фазами определена не строго, переходы могут повторяться от итерации к итерации [1]. Все фазы CRISP-DM делятся на задачи, по итогам каждой должен быть достигнут конкретный результат [2]. Рассмотрим подробнее фазы жизненного цикла исследования данных по CRISP-DM [3]: Понимание бизнеса (Business Understanding) – определение целей проекта и требований со стороны бизнеса. Затем эти знания конвертируются в Далее …