Data Lake

Data Lake (Озеро данных) — метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах, обычно blob (binary large object) объект или файл. Идея озера данных в том чтобы иметь логически определенное, единое хранилище всех данных в организации (enterprise data) начиная от сырых, необработанных исходных данных (RAW data) до предварительно обработанных (transformed) данных испольуемых для различных задач (отчеты, визуализация, аналитика и машинное обучение.

Data Lake (озеро данных) — включает структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, лог файлы, XML, JSON), неструктурированные данные (почтовые сообщения , документы, pdf файлы) и даже бинарные данные (видео, аудио, графические файлы).

Data Lake (озеро данных) — кроме методов хранения и описания данных Data Lake предполагает определение источников и методов пополнения данных (источники — sources, настройки каналов —pipelines, регулярность обновлений- schedulers, владельцы — custodians, время хранения — retention time, другие метаданные).
Data Lake (озеро данных) — может использовать единый репозиторий в качестве хранилища данных (HDFS, EDW, IMDG, Cloud и т.д.) либо использовать модульную концепцию источников хранения данных для разных требований по безопасности, скорости, доступности при соблюдении условий хранения данных (неизменяемые RAW данные, согласованное время хранения (retention time), доступность).

 

Related Entries