CAP

Big Data, Большие данные, NoSQL, SQL, HBase, Cassandra, архитектура

CAP – это акроним от англоязычных слов Consistency (Согласованность, Целостность), Availability (Доступность) и Partition tolerance (Устойчивость к разделению). Согласно утверждению профессора Калифорнийского университета в Беркли, Эрика Брюера, сделанному в 2000-м году, в распределенных системах осуществимы лишь 2 свойства из указанных 3-х. В частности, считается что нереляционные базы данных жертвуют согласованностью данных в пользу доступности и устойчивости к разделению, когда расщепление распределённой системы на несколько изолированных частей сохраняет корректный отклик от каждой из них [1]. В 2002 году Сет Гилберт и Нэнси Линч из MIT опубликовали формальное доказательство гипотезы Брюера, после чего она стала считаться теоремой [2]. Классы NoSQL-СУБД с точки зрения CAP-теоремы и их значимость для Big Data По аналогии с железным треугольником проектного менеджмента, когда требуется найти баланс между сроками, затратами Далее …

Case Based Reasoning (CBR)

Case Based Reasoning (CBR) — метод решения проблем рассуждением по аналогии, путем предположения на основе подобных случаев (прецедентов). Это способ решения проблем на основе уже известных решений, который широко применяется во всех областях деятельности. Например, в бизнес-аналитике такое сопоставление с эталоном, целенаправленный поиск и внедрение лучших практик со стороны называется бенчмаркингом (Benchmarking) [1]. В Data Mining CBR-подход реализуется в виде методов решения новых задач на основе анализа предыдущего опыта. В частности, в Data Science именно так искусственные нейронные сети (частный случай машинного обучения, Machine Learning) вычисляют результат, вспоминая предыдущие подобные ситуации и повторно используя знания из подобных ситуаций [2]. Таким образом, можно сказать, что Case Based Reasoning — это наиболее распространенный подход к решению проблем, который применим не только к Далее …

Cassandra

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra

Apache Cassandra – это нереляционная отказоустойчивая распределенная СУБД, рассчитанная на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша. Проект был разработан на языке Java в корпорации Facebook в 2008 году, и передан фонду Apache Software Foundation в 2009 [1]. Эта СУБД относится к гибридным NoSQL-решениям, поскольку она сочетает модель хранения данных на базе семейства столбцов (ColumnFamily) с концепцией key-value (ключ-значение) [2]. Модель данных Apache Cassandra Модель данных Cassandra состоит из следующих элементов [3]: столбец или колонка (column) – ячейка с данными, включающая 3 части – имя (column name) в виде массива байтов, метку времени (timestamp) и само значение (value) также в виде байтового массива. С каждым значением связана метка времени — задаваемое пользователем 64-битное число, которое используется Далее …