5 причин, почему аналитика больших данных иногда выгоднее модного Data Science: взгляд со стороны бизнеса

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, обработка данных, CRISP-DM, Data Science, Data Scientist

В этой статье мы рассмотрим несколько популярных мифов о Data Science и аналитике больших данных (Big Data), разобрав, когда и почему простое использование BI-систем или облачных DaaS-платформ бывает гораздо эффективнее попыток внедрения алгоритмов машинного обучения (Machine Learning) и прочих методов Data Science в операционные и стратегические бизнес-процессы.

Почему 80% Data Science проектов обречены на провал: простая причина больших ошибок в Big Data

Начнем с наиболее распространенного в широкой общественности мнения: Big Data есть только у больших компаний, а Data Science мгновенно приносит огромную выгоду, генерируя магические дата-инсайты. На самом деле сегодня достаточно большие объемы данных имеются даже у малого и среднего бизнеса, чья деятельность, в основном, связана с цифровыми технологиями. Например, интернет-магазины и процессинговые центры, а также популярные медиа (блоги, аккаунты в соцсетях, веб-журналы и пр.) и другие бренды, которые плотно работают со множеством SMM-каналов и активными пользователями (подписчиками).

При этом данные являются «побочными продуктом» основной деятельности таких компаний, а не значимой ценностью. Как правило, мысль о монетизации Big Data возникает как интересная идея, которую можно попробовать «на досуге», не слишком отвлекаясь от текущих задач. Именно такая постановка вопроса со стороны бизнеса «У нас есть данные, их много и разные, нужно что-то с ними можно сделать, желательно выгоднее и побыстрее» является одной из главных причиной «провала» различных Data Science проектов. Следует помнить, что данные, как и любое сырье – это лишь средство достижения заранее поставленных бизнес-целей или материал, из которого получают конечный продукт в виде нового решения, приносящего измеримую пользу.

Таким образом, компания совершает глобальную ошибку, приступая к внедрению инструментов Data Science без четкой идентификации бизнес-потребности, которые они смогут удовлетворить. Даже если здесь обошлось без весомых инвестиций в ИТ-инфраструктуру, таких как приобретение и настройка Big Data кластеров с Apache Hadoop и прочими средствами сбора, хранения и аналитики больших данных, необходимо оплачивать привлечение дорогостоящих аналитиков и специалистов по машинному обучению. Однако, при глубоких технических компетенциях этих Data-профессионалов, большинство из них фокусируются только на работе с данными, за множеством специфических деталей упуская главное – бизнес-постановку задачи. Разумеется, выявление потребностей и разработка требований к решению является ответственностью бизнес-аналитика, но знание о конечном результате и понимание его влияния на корпоративную деятельность в целом должно быть у каждого члена команды.

Кроме того, цифровизация, цифровая трансформация и data-driven организация – это, прежде всего, про управленческую зрелость операционных процессов и ИТ-инфраструктуры, а также имеющихся в них данных. Поэтому, прежде чем пытаться прогнозировать будущее с помощью сложных моделей Machine Learning или искать неведомые инсайты в залежах сырых данных, нанимая Data Engineer’a и Data Scientist’a, попробуйте по максимуму использовать возможности готовых систем класса Business Intelligence (BI) и DaaS-сервисов – облачных платформ, предоставляющих услуги по сбору, обработке и анализу Big Data (Data as a Service). Далее мы рассмотрим, почему именно эти средства аналитики больших данных оказываются для многих бизнесов выгоднее собственных Data Science проектов, покрывая большинство их потребностей без существенных инвестиций времени, денег и человеческих ресурсов.

5 причин, почему BI-аналитика больших данных выгоднее Data Science

  1. Дешевле: существует множество готовых BI-систем, наиболее популярными из которых сегодня считаются MS Power BI, Qlik и Tableau, а также их различные бесплатные и коммерческие аналоги, в т.ч. комплексные DaaS-сервисы, такие как Talend Data Cloud, Azure Open Datasets, Google DataStudio и пр. Как правило, их можно использовать как локально, так и в облачном варианте по подписной модели, когда плата взимается за временной период или количество используемых ресурсов. В любом случае, это будет экономичнее, чем развертывание собственной Big Data инфраструктуры и разработка уникальных алгоритмов Machine Learning для анализа логов, JSON, XML и прочих файлов с сырыми данными.
  1. Быстрее: поскольку готовые решения предназначены для массового использования, они уже содержат наборы алгоритмов для обработки и анализа больших данных, которые наиболее востребованы на практике. Например, кластеризация потребительских сегментов и их наглядная визуализация с помощью понятных графиков, диаграмм и таблиц. Таким образом, TTM (Time To Market) идеи будет существенно меньше, чем в случае полноценного CRISP-DM цикла в Data Science проектах, когда требуется сперва разработать бизнес-гипотезу, реализовать ее прототип с алгоритмами Machine Learning, обучить и протестировать ML-модель, а также развернуть все это в устойчивом production-качестве.
  1. Понятнее: встроенные модули визуализации готовых BI- и DaaS-решений наглядно демонстрируют наиболее значимые для бизнеса показатели, такие как количество посещений, конверсия, уровень продаж, совокупные расходы и доходы, а также в разрезе отдельных статей. Интерфейс «говорит на языке бизнеса», оставаясь понятным не только ИТ-специалисту, но и руководителю, а также маркетологу, функциональному менеджеру и прочим специалистам.
  1. Практичнее: BI-системы и DaaS-решения для аналитики больших данных не только наглядно отображают наиболее важные бизнес-показатели, но и автоматизируют множество процессов «бэк-офиса», нужных для создания понятной картинки. Например, очистка «сырых» данных (удаление пропусков, выбросов и некорректных значений), генерация отчетов по корпоративным стандартам, подготовка данных в нужном формате для отправки в другие системы и т.д. При этом большинство готовых решений являются расширяемыми, предоставляя API или визуальные редакторы для создания собственных функций, скриптов и прочих уникальных настроек. В специализированных Data Science проектах по созданию принципиально нового решения «с нуля» большая часть ресурсов, как правило, уходит на научно-исследовательскую работу, поиск новых моделей, интересных алгоритмов и «игры» с оптимизацией параметров нейросетей.
  1. Доступнее: помимо того, что готовые BI- и DaaS-решения не требуют вложения существенных инвестиций, что мы отметили выше, для их использования не обязательно наличие устоявшейся команды Data-профессионалов (инженер, аналитик, архитектор, разработчик, Data Scientist), а также полноценной Big Data инфраструктуры. Кроме того, поскольку на первых этапах BI- и DaaS-платформы используются, преимущественно, для мониторинга наиболее важных бизнес-показателей, они более толерантны к управленческой зрелости текущих бизнес-процессов чем data-driven подход. Таким образом, внедрение BI/DaaS можно рассматривать как начальный этап цифровизации без глубокого реинжиниринга корпоративной деятельности, который реализует так называемую «эволюционную стратегию» постепенно улучшения.

В заключение подчеркнем, что готовые BI- и DaaS-платформы ни в коем случае не заменят полноценных Data Science решений, которые нужны data-driven бизнесу с высокой степенью управленческой и цифровой зрелости. Однако, именно BI-системы можно назвать универсальным фундаментом, на чем стоит глубокая Data Science и прикладная аналитика больших данных, и который подходит для практического использования почти в любом бизнесе. В следующей статье мы рассмотрим основные проблемы, с которыми сталкивается каждый директор по цифровизации при цифровой трансформации частных компаний и государственных предприятий, а также поговорим про возможные пути их решения. А прикладной кейс аналитик больших данных в малом бизнесе с помощью технологий Big Data разберем в этом материале.

Business Intelligence, Data Science, Big Data Analytics
Пирамида Data-дисциплин: от Business Intelligence к Data Science

Понять, какие именно решения для аналитики Big Data будут наиболее эффективны  для цифровизации вашего бизнеса или цифровой трансформации государственных и муниципальных предприятий, вы сможете на нашем обновленным курсе «Аналитика больших данных для руководителей» в лицензированном учебном центре обучения и повышения квалификации разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве.

 

Поиск по сайту