Почему вам нужны данные как сервис или что такое DaaS

цифровизация, цифровая трансформация, Big Data, Machine Learning, искусственный интеллект, Большие данные, предиктивная аналитика, обработка данных, облачные технологии

Аналитика больших данных (Big Data) сегодня нужна всем компаниям, но далеко не каждое предприятия готово инвестировать в сложную ИТ-инфраструктуру и дорогих специалистов. Избежать этих затрат, получив все преимущества практического использования технологий Data Science, поможет парадигма «данные как сервис». В продолжение темы по цифровизации, сегодня поговорим про концепцию Data as a Service (DaaS): разберем, что это такое и как связано с Big Data и Machine Learning, чем это выгодно современным предприятиям и каковы риски практического использования этого подхода. Читайте в нашей статье, почему DaaS-решения стали сегодня так популярны и за что клиент платит облачному провайдеру.

Что такое DaaS: определение и история развития

Данные как услуга или DaaS – это модель дистрибуции данных или стратегия управления ими, когда пользователи не занимаются самостоятельно процессами сбора, хранения, интеграции, обработки и анализа данных, а передают эти задачи специализированным облачным провайдерам. Таким образом, DaaS-подход обеспечивает доставку конечным пользователям данных, ценных для их бизнеса, избавляя от необходимости локальной реализации процессов генерации и поддержки этих результатов, а также затрат на инфраструктуру и оплату труда ИТ-специалистов (администраторов Big Data, инженеров и аналитиков данных, а также Data Scientist’ов) [1].

Согласно DaaS-парадигме, данные должны быть предоставлены пользователю по требованию (on demand), независимо от географического или организационного разделения между поставщиком и потребителем информации. Началом развития DaaS-подхода считаются гибридные облачные технологии и веб-приложения, которые примерно с 2015 года все чаще используется как в коммерческих, так и в государственных целях. Например, ООН практикует именно DaaS-модель. В плане технологий наибольшее влияние на развитие концепции Data as a Service оказали популяризация инструментов Big Data c методами Machine Learning, сервис-ориентированная архитектура (SOA), микросервисный подход и различные API-интерфейсы для интеграции систем и данных. Благодаря этому сама платформу, на которой находятся данные, не обязательно должна располагаться внутри предприятия, а потому может быть легко передана в облако [2].

Еще в 2017 году концепция DaaS была отмечена аналитическим агентством Gartner как одна из самых перспективных технологий в области Data and Analytics, которая достигнет плато технологической зрелости по графику Hype Cycle через 5-10 лет. Тогда аналитики Gartner расположили DaaS на кривой роста завышенных ожиданий. Всего через год, в 2018 году DaaS переместился на самый пик ажиотажа, вызывая повышенный интерес общественности и профессионального сообщества. Примечательно, что спустя 2 года, в 2020-м подход Data as a Service продолжает оставаться актуальным для больших и малых компаний, стимулируя их цифровизацию и переход к data-driven управлению.

DaaS Hype Cycle Gartner
DaaS на графике технологической зрелости (Hype Cycle) от агентства Gartner

Чем хороши данные как сервис и в чем здесь подвох

По сравнению с локальным хранением и управлением данными, DaaS-подход обеспечивает несколько ключевых преимуществ в отношении скорости, надежности и производительности [1]:

  • минимальное время развертывания, когда можно начать хранение, обработку и анализ данных практически сразу;
  • повышенная надежность – облачная инфраструктура менее подвержена сбоям, что сокращает время простоя важных бизнес-приложений;
  • гибкая настройка благодаря практически мгновенному выделению ресурсов для облачных рабочих нагрузок;
  • экономия средств, когда не требуется тратить деньги на локальную инфраструктуру и оплату труда специалистов, варьируя размер инвестиций по мере изменения потребностей. В частности, нет необходимости покупать сервера и объединять их в кластеры, чтобы построить собственное озеро данных (Data Lake) на Apache Hadoop, нанимая для этого дорогостоящих Data Engineer’ов и администраторов Big Data.
  • автоматизированное обслуживание и техническая поддержка инфраструктуры и программных решений, что избавляет конечных пользователей от необходимости самостоятельно управлять сложными инструментами или привлекать соответствующий персонал.

Обратной стороной всех вышеотмеченных преимуществ являются следующие проблемы [1]:

  • риски утечки данных и обеспечения информационной безопасности, что частично может быть смягчено за счет шифрования данных;
  • дополнительные требования к обеспечению соответствия конфиденциальных данных при их перемещении в облачную среду, например, требования к размещению информации о гражданах страны на серверах, которые находятся на территории этого государства.
  • потенциально ограниченные возможности, когда клиенты могут работать только с теми инструментами, которые размещены на их платформе DaaS или совместимы с ними, вместо того, чтобы использовать любые инструменты по своему выбору для создания собственных решений по обработке и анализу данных. Эту проблему решает поиск DaaS-платформы, которая предлагает максимальную гибкость в выборе инструментов.

Таким образом, как и для любого облачного решения, краеугольным камнем DaaS-парадигмы является безопасность и приватность данных при высокой гибкости интеграционных решений и широких функциональных возможностей. DaaS-провайдеры имеют всю необходимую инфраструктуру для сбора, хранения, анализа и предоставления данных в нужном пользователю виде, включая инструменты Data Science (машинное обучение и прочие методы искусственного интеллекта) и инженерию процессов. Обычно бизнес DaaS-провайдеров организован по подписной модели, когда клиент платит за пользование услугами в течение определенного временного периода [3]. При этом можно выделить 2 категории подписной модели [2]:

  • на основе объема (volume-based), когда провайдер взимает плату в зависимости от объема данных или услуги с оплатой за вызов, когда плата взимается за каждый API-вызов клиента к платформе поставщика данных;
  • на основе типов данных (type-based), которые заранее структурированы поставщиками по типам или атрибутам, например, географические, финансовые и исторические данные, необходимые для бизнеса клиентов. Для этого некоторые провайдеры, такие как Microsoft Azure, хранят данные в трех различных типах: BLOB-объекты, очереди и таблицы.

Эта бизнес-модель имеет риски, связанные с пиратством данных. Обычно DaaS-провайдеры разрабатывают и используют Лицензионное соглашение для сохранения прав интеллектуальной собственности на данные, которые они продают, обрабатывают или анализируют, чтобы защитить информацию от любого типа нарушений авторских прав, правил подписки или нелегитимного использования. При этом, как и в случае всех облачных сервисов, доверие остается за клиентом [3].

Завтра мы продолжим разговор про DaaS-решения и рассмотрим примеры практического использования этой концепции. А как применить парадигму Data as a Service в проектах цифровизации своего бизнеса или цифровой трансформации государственных и муниципальных предприятий, вы узнаете в рамках нашего обновленного курса «Аналитика больших данных для руководителей» в лицензированном учебном центре обучения и повышения квалификации разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве.

Источники

  1. https://www.talend.com/resources/what-is-data-as-a-service/
  2. https://en.wikipedia.org/wiki/Data_as_a_service
  3. https://www.dataversity.net/data-as-a-service-daas-an-overview/