Почему вам нужна расширенная аналитика Big Data и как ее получить

Big Data, Большие данные, Machine Learning, машинное обучение, системный анализ, Data Mining, предиктивная аналитика, цифровизация, цифровая трансформация

Сегодня мы рассмотрим, что такое расширенная аналитика и дополненное управление данными, как они связаны с цифровизацией бизнеса и почему исследовательское бюро Gartner включило эти технологии в ТОП-10 самых перспективных трендов 2020 года. Читайте в нашей статье, как машинное обучение (Machine Learning) помогает аналитикам и руководителям находить во множестве больших данных (Big Data) полезные для бизнеса инсайты.

Что такое расширенная аналитика и при чем здесь цифровизация

Расширенная аналитика и дополненное управление данными – 2 главных тренда из 10 самых перспективных направлений в области Data&Analytics по версии исследовательского агентства Gartner. Прогнозируется, что эти технологии станут доминировать уже в 2020 году, а спрос на них многократно возрастет в ближайшие 3-5 лет [1]. Такие тенденции актуальны и для России, где цифровизация сегодня стала фактически национальной идей с огромным бюджетом (1,634 триллионов рублей) [2]. Однако, цифровая трансформация – это не цель, а только средство перевода предприятия или целой страны в оптимальное состояние с помощью современных ИТ-инструментов, таких как интернет вещей, Big Data, Machine Learning и прочие методы искусственного интеллекта. С точки зрения бизнеса, основная польза всех этих технологий – это оптимизация текущих процессов и генерация новых возможностей. Например, расширенная аналитика данных о потребительском поведении и пользовательских интересах, помогла банкам обнаружить потребность молодых клиентов (от 20 до 35 лет) в управлении активами и предложить этой категории соответствующие продукты [1].

Другой показательный кейс явной пользы от расширенной аналитики, когда она помогла сети ресторанов быстрого питания на 20% увеличить продажи газированных напитков за счет изменения их расположения относительно других бутылок. Big Data система проанализировала продажи всего ассортимента продукции и выявила зависимость спроса от локации товаров. Эту закономерность компания учла при переделке своих помещений и получила существенную выгоду [3].

Таким образом, технологии переходят на следующий уровень абстракции, позволяя не только решать текущие задачи, но и ставить новые. Что же такое расширенная аналитика (Augmented analytics)? Приведем определение от компании Gartner: расширенная аналитика – это применение машинного обучения и других методов искусственного интеллекта для подготовки данных, их анализа и интерпретации, чтобы расширить человеческие возможности людей исследовать и анализировать данные, в т.ч. в рамках BI-платформ. Расширенная аналитика повышает эффективность аналитиков и руководителей за счет автоматизации многих процессов Data Science, методов Machine Learning и разработки программного обеспечения, управления данными и развертывания моделей искусственного интеллекта [4].

Augmented analytics, BI, аналитика больших данных
Расширенная аналитика — новый тренд BI

Как реализовать расширенную аналитику: Big Data, Machine Learning и дополненное управление данными

Расширенная аналитика автоматизирует поиск и выявление наиболее важных идей или изменений в бизнесе для оптимизации принятия решений. Благодаря автоматизации это занимает меньше времени по сравнению с традиционными методами бизнес-аналитики. Таким образом, Augmented analytics в будущем сделает прогнозирование и генерацию бизнес-инсайтов более доступными для широкого круга лиц (руководителей, линейных менеджеров и профильных работников), а не только аналитиков и специалистов по Data Science, как сейчас. Однако, внедрение такой технологии потребует повышения общего уровня информационной грамотности и качества данных во всей организации. Поэтому Gartner предполагает, что в 2020 году расширенная аналитика станет основным драйвером бизнес-аналитики, а также платформ для обработки данных и машинного обучения [1].

Этот тренд продолжается в другой перспективной тенденции – дополненном управлении данными (Augmented data management). Как и расширенная аналитика, оно предполагает использование Machine Learning и прочих методов искусственного интеллекта в процессах сбора, передачи, обработки и интерпретации Big Data. Это необходимо, чтобы сделать управление корпоративными данными самонастраивающимся и самоуправляемым, включая повышение качества данных, менеджмент метаданных и основных информационных активов, интеграцию различных информационных систем, СУБД и файловых хранилищ [1]. Такая демократизация является еще одним стратегическим трендом, выявленным агентством Gartner [5]. В технологическом плане эта инициатива поддерживается системами автоматического машинного обучения (AutoML) – онлайн-сервисов и готовых библиотек для максимального упрощения процессов создания и применения сложных алгоритмов. Благодаря упрощенным пользовательским интерфейсам они позволяют быстро разрабатывать необходимые модели, снижая вероятность ошибочных вычислений. Из наиболее популярных сегодня AutoML-решений стоит упомянуть Amazon SageMaker, Google Cloud AutoML, Microsoft Azure ML, Auto-Keras, RECIPE, TransmogrifAI, Auto-WEKA, H2O AutoML и другие фреймворки. Все эти инструменты облегчают работу Data Scientist’a, экономя время за счет автоматического конструирования признаков, оптимизации гиперпараметров, поиске наилучшей архитектуры нейросетей, подборе каналов и оценочных метрик, определения ошибок и выполнения прочих ML-процедур [6]. AutoML также отмечен агентством Garther как наиболее перспективная тенденция Machine Learning: в сентябрьском отчете 2019 года эта технология расположена на пике цикла зрелости (Hype cycle), о котором мы рассказывали здесь [7].

искусственный интеллект, прогнозы Gartner, Machine Learning, машинное обучение
Самые перспективные технологии Machine Learning и другие приложения искусственного интеллекта: аналитический прогноз Gartner 2019

Разумеется, модели машинного обучения, построенные с помощью AutoML или разработанные Data Scientist’ом вручную, тесно связаны с другими технологиями Big Data: Apache Hadoop, Spark, Kafka, HBase, Hive и пр. Например, большие данные для моделирования могут храниться в корпоративных хранилищах (Data Lake) на базе Hadoop или собираться в режиме реального времени с помощью Kafka. Поэтому расширенная аналитика и дополненное управление данными реализуются за счет уже давно используемых фреймворков распределенной обработки больших объемов разноформатной информации. С потоковой обработкой Big Data связан еще один перспективный тренд в области Data&Analytics, отмеченный агентством Garther: непрерывный интеллектуальный анализ данных (Continuous intelligence). Эта тенденция означает постоянный сбор технологических и программных данных с конечных IoT/IIoT-устройств и облачные вычисления в режиме онлайн. Ожидается, что к 2022 году более половины крупных бизнес-систем будут включать модули Continuous Intelligence, чтобы анализировать контекстные данные в реальном времени для оптимизации управленческих решений [1].

Такая цифровизация на основе расширенной аналитики и дополненного управления данными наиболее точно соответствует целям цифровой трансформации, позволяя комплексно оптимизировать деятельность всего предприятия, а не просто автоматизировать его отдельные бизнес-процессы. Однако, проектирование и внедрение подобной Big Data системы расширенной аналитики – достаточно сложный проект, который требует тщательной проработки, особенно на этапе анализа бизнес-потребностей стейкхолдеров и возможностей самой компании. Некоторые практические приемы, методы и техники для эффективного выполнения этой задачи изложены в профессиональном стандарте бизнес-аналитика, руководстве BABOK, о котором мы писали здесь. Некоторые из этих практик рассмотрим в наших следующих статьях. Например, читайте завтра про функционально-стоимостный анализ для оценки стоимости бизнес-процессов.

Цифровизация, цифровая трансформация, бизнес-процессы, digitalization, digital transformation, аналитика Big Data
На чем стоит цифровизация: от людей и процессов до данных и технологий

Еще больше прикладных знаний по системному анализу, цифровизации бизнеса и аналитике больших данных вы получите на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации руководителей и ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data) в Москве:

Источники

  1. https://www.gartner.com/smarterwithgartner/gartner-top-10-data-analytics-trends/
  2. http://www.tadviser.ru/index.php/Статья:Финансирование_программы_Цифровая_экономика
  3. https://www.gartner.com/smarterwithgartner/scale-the-value-of-analytics/
  4. https://www.gartner.com/en/information-technology/glossary/augmented-analytics
  5. https://www.gartner.com/smarterwithgartner/gartner-top-10-strategic-technology-trends-for-2020/
  6. https://chernobrovov.ru/articles/mesto-nejrosetej-v-data-science-kratkij-likbez-i-poslednie-trendy.html
  7. https://www.gartner.com/smarterwithgartner/top-trends-on-the-gartner-hype-cycle-for-artificial-intelligence-2019