Big Data

Big Data (Большие данные) Big Data — данные большого объема, высокой скорости накопления или изменения и/или разновариантные информационные активы, которые требуют экономически эффективных, инновационных формы обработки данных, которые позволяют получить расширенное  понимание информации, способствующее принятию решений и автоматизации процессов. Для каждой организации или компании существует предел объема данных (Volume) которые компания или организация способна обрабатывать одновременно для целей аналитики, как правило этот объем ограничен объемами оперативной памяти серверов корпоративных приложений и баз данных и необходимостью партиционирования (Partitioning)  хранимых данных. Для каждой организации или компании существуют физические ограничения на количество транзакций/ объем данных (Velocity) , которая корпоративныя система может обработать или передать за единицу времени вследствии ограничений scale in архитектуры.  Традиционные корпоративные системы (реляционные) могут использовать эффективно только структурированные источники поступления Далее …

CRISP-DM

CRISP-DM, обработка данных, Big Data, Большие данные, жизненный цикл, Machine Learning, машинное обучение

CRISP-DM (от английского Cross-Industry Standard Process for Data Mining) — межотраслевой стандартный процесс исследования данных. Это проверенная в промышленности и наиболее распространённая методология, первая версия которой была представлена в Брюсселе в марте 1999 года, а пошаговая инструкция опубликована в 2000 году [1]. CRISP-DM описывает жизненный цикл исследования данных, состоящий из 6 фаз, от постановки задачи с точки зрения бизнеса до внедрения технического решения. Последовательность между фазами определена не строго, переходы могут повторяться от итерации к итерации [1]. Все фазы CRISP-DM делятся на задачи, по итогам каждой должен быть достигнут конкретный результат [2]. Рассмотрим подробнее фазы жизненного цикла исследования данных по CRISP-DM [3]: Понимание бизнеса (Business Understanding) – определение целей проекта и требований со стороны бизнеса. Затем эти знания конвертируются в Далее …

Data Lake

Data Lake (Озеро данных) — метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах, обычно blob (binary large object) объект или файл. Идея озера данных в том чтобы иметь логически определенное, единое хранилище всех данных в организации (enterprise data) начиная от сырых, необработанных исходных данных (RAW data) до предварительно обработанных (transformed) данных испольуемых для различных задач (отчеты, визуализация, аналитика и машинное обучение. Data Lake (озеро данных) — включает структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, лог файлы, XML, JSON), неструктурированные данные (почтовые сообщения , документы, pdf файлы) и даже бинарные данные (видео, аудио, графические файлы). Data Lake (озеро данных) — кроме методов хранения и Далее …

Hadoop

хадуп, Hadoop

Hadoop – это свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Эта основополагающая технология хранения и обработки больших данных (Big Data) является проектом верхнего уровня фонда Apache Software Foundation. Из чего состоит Hadoop: концептуальная архитектура Изначально проект разработан на Java в рамках вычислительной парадигмы MapReduce, когда приложение разделяется на большое количество одинаковых элементарных заданий, которые выполняются на распределенных компьютерах (узлах) кластера и сводятся в единый результат [1]. Проект состоит из основных 4-х модулей: Hadoop Common – набор инфраструктурных программных библиотек и утилит, которые используются в других решениях и родственных проектах, в частности, для управления распределенными файлами и создания необходимой инфраструктуры [1]; HDFS – распределённая файловая система, Hadoop Далее …

Блокчейн

Блокчейн, бизнес, банки, Big Data, Большие данные

Блокчейн (от английского blockchain, block chain – цепочка блоков) — выстроенная по определённым правилам непрерывная последовательность информационных блоков (связный список). Копии цепочек блоков хранятся на множестве разных, независимых друг от друга, компьютеров [1]. Поэтому данную цифровую цепочку называют технологией распределенного реестра [2]. История появления блокчейна Цифровизация финансовой сферы стала родоначальником термина «блокчейн»: впервые он появился в 2008 году, когда была реализована популярная криптовалюта Биткойн. Однако, блокчейн – это не только транзакцит в криптовалютах, эта технология может использоваться в любых взаимосвязанных информационных блоках и реестрах [1]. Зачем нужен блокчейн Блокчейн позволяет автоматизировать процесс заверения данных и подтверждения событий за счет распределенного характера хранения информации, неподконтрольной конкретному регулятору. Поскольку распределенный реестр цепочек информационных блоков хранится на разных компьютерах, проверить наличие и целостность этих Далее …

Большие данные (Big Data)

Большие данные (Big Data) – совокупность непрерывно увеличивающихся объемов информации одного контекста, но разных форматов представления, а также методов и средств для эффективной и быстрой обработки [1].   Big Data: какие данные считаются большими Благодаря экспоненциальному росту возможностей вычислительной техники, описанному в законе Мура [2], объем данных не может являться точным критерием того, являются ли они большими. Например, сегодня большие данные измеряются в терабайтах, а завтра – в петабайтах. Поэтому главной характеристикой Big Data является степень их структурированности и вариантов представления. Яркая иллюстрация больших данных – это непрерывно поступающая информация с датчиков или устройств аудио- и видеорегистрации, потоки сообщений из соцсетей, метеорологические данные, координаты геолокации абонентов сотовой связи и т.п. [3]. Например, вот здесь мы рассказывали, как ПАО «Газпромнефть» собирал Далее …

Мультиколлинеарность

Мультиколлинеарность — корреляция независимых переменных [1], которая затрудняет оценку и анализ общего результата [2]. Когда независимые переменные коррелируют друг с другом, говорят о возникновении мультиколлинеарности. В машинном обучении (Machine Learning) мультиколлинеарность может стать причиной переобучаемости модели, что приведет к неверному результату [3]. Кроме того, избыточные коэффициенты увеличивают сложность модели машинного обучения, а значит, время ее тренировки возрастает. Еще мультиколлинеарность факторов плоха тем, что математическая модель регрессии содержит избыточные переменные, а это значит [4]: осложняется интерпретация параметров множественной регрессии как величин действия факторов, параметры регрессии теряют смысл и следует рассматривать другие переменные; оценки параметров ненадежны – получаются большие стандартные ошибки, которые меняются с изменением объема наблюдений, что делает модель регрессии непригодной для прогнозирования. Для оценки мультиколлинеарности используется матрица парных коэффициентов корреляции, у Далее …

Цифровая трансформация

Цифровая трансформация (Digital Transformation) —  переход компании к Цифровому Бизнесу через изменение Культуры организации и внедрение новых информационных технологий, расширяющих границы организации и позволяющих формировать свою экосистему.