Case Based Reasoning (CBR)

Case Based Reasoning (CBR) — метод решения проблем рассуждением по аналогии, путем предположения на основе подобных случаев (прецедентов). Это способ решения проблем на основе уже известных решений, который широко применяется во всех областях деятельности. Например, в бизнес-аналитике такое сопоставление с эталоном, целенаправленный поиск и внедрение лучших практик со стороны называется бенчмаркингом (Benchmarking) [1]. В Data Mining CBR-подход реализуется в виде методов решения новых задач на основе анализа предыдущего опыта. В частности, в Data Science именно так искусственные нейронные сети (частный случай машинного обучения, Machine Learning) вычисляют результат, вспоминая предыдущие подобные ситуации и повторно используя знания из подобных ситуаций [2]. Таким образом, можно сказать, что Case Based Reasoning — это наиболее распространенный подход к решению проблем, который применим не только к Далее …

Churn Rate

Churn Rate (уровень оттока клиентов) — индикатор, показывающий процент пользователей, которые перестали пользоваться приложением (сервисом) или перестали быть вашим клиентом  в течение рассматриваемого периода. Для уменьшения оттока клиентов используют таргетированные маркетинговые кампании для удержания клиентов с помощью персональных бонусов, скидок и предложения. Для успешной компании уровень оттока клиентов (Churn Rate) должен быть ниже уровня притока новых клиентов (Growth Rate). Удержание существующих клиентов как правило обходится на 60-70% дешевле чем привлечение новых.   Для уменьшения показателя Churn Rate принимают следующие меры: Программы лояльности для маркетинговых кампаний  и персонализированных  таргетированных скидок Поддержка существующих клиентов для улучшения пользовательского опыта и удержания постоянных клиентов Качественный сервис Рассчитывается как: Churn Rate = (Кол-во ушедших пользователей / Общее количество пользователей) * 100% Низкий отток увеличивает другую важную для бизнеса Далее …

CRISP-DM

CRISP-DM, обработка данных, Big Data, Большие данные, жизненный цикл, Machine Learning, машинное обучение

CRISP-DM (от английского Cross-Industry Standard Process for Data Mining) — межотраслевой стандартный процесс исследования данных. Это проверенная в промышленности и наиболее распространённая методология, первая версия которой была представлена в Брюсселе в марте 1999 года, а пошаговая инструкция опубликована в 2000 году [1]. CRISP-DM описывает жизненный цикл исследования данных, состоящий из 6 фаз, от постановки задачи с точки зрения бизнеса до внедрения технического решения. Последовательность между фазами определена не строго, переходы могут повторяться от итерации к итерации [1]. Все фазы CRISP-DM делятся на задачи, по итогам каждой должен быть достигнут конкретный результат [2]. Рассмотрим подробнее фазы жизненного цикла исследования данных по CRISP-DM [3]: Понимание бизнеса (Business Understanding) – определение целей проекта и требований со стороны бизнеса. Затем эти знания конвертируются в Далее …

Data Mining

Data Mining — процесс поиска в сырых необработанных данных интересных, неизвестных, нетривиальных взаимосвязей и полезных знаний, позволяющих интерпретировать и применять результаты для принятия решений в любых сферах  человеческой деятельности. Представляет собой совокупность методов  визуализации, классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики.   Дополнительно о Data Mining на Википедии

Data Science

Big Data, Большие данные, обработка данных, машинное обучение, Machine Learning

Data Science – это наука о данных, объединяющая разные области знаний: информатику, математику и системный анализ. Сюда входят методы обработки больших данных (Big Data), интеллектуального анализа данных (Data Mining), статистические методы, методы искусственного интеллекта, в т.ч машинное обучение (Machine Learning). DS включает методы проектирования и разработки баз данных и прикладного программного обеспечения [1]. Немного истории: как появилась Data Science и при чем тут большие данные В отличие от термина «большие данные», который стал популярен с 2010-х гг., наука о данных зародилась намного раньше, во второй половине 20-го века. Первое упоминание этого понятия датируется 1974 годом, когда вышла книга Петера Наура. В этой публикации Data Science определяется как дисциплина по изучению жизненного цикла цифровых данных, от момента их появления до преобразования Далее …

LTV

LTV (Lifetime Value) — это совокупная прибыль компании, получаемая от одного клиента за все время сотрудничества с ним. Увеличивается при уменьшении уровня оттока клиентов (Churn Rate). Каждая компания стремится увеличить LTV, удерживая клиента с помощью различных мер повышения лояльности (скидки, акции, подарки и пр.), т.к. привлечение нового пользователя обходится в 8-10 раз дороже. Современные маркетинговые инструменты (CRM-системы, рекламные платформы) вместе с технологиями анализа данных на базе Big Data  и Machine Learning помогают бизнесу увеличить LTV. Это делается с помощью специальных кампаний, чтобы лучше узнать интересы клиента и даже определить его желание уйти в отток, т.е. перестать пользоваться продуктом или услугой. Например, направить на этого пользователя тартегированную контекстную рекламу, которая будет демонстрировать ему продукцию с наиболее предпочтительной для клиента позиции на основании Далее …

Machine Learning

Machine Learning, машинное обучение

Machine learning — множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить задачу не прямым способом, а на основе поиска закономерностей в разнообразных входных данных. Что такое Machine Learning Общий термин «Machine Learning» или «машинное обучение» обозначает множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить задачу не прямым способом, а на основе поиска закономерностей в разнообразных входных данных [1].  Решение вычисляется не по четкой формуле, а по установленной зависимости результатов от конкретного набора признаков и их значений. Например, если каждый день в течении недели земля покрыта снегом и температура воздуха существенно ниже нуля, то вероятнее всего, наступила зима. Поэтому машинное обучение применяется для диагностики, прогнозирования, распознавания и принятия решений в различных прикладных сферах: от медицины Далее …

Object Detection

TensorFlow для обнаружение объектов

Object detection – технология, связанная с компьютерным зрением (computer vision) и обработкой изображений, заключающаяся в обнаружении объектов определенных классов на цифровых изображениях и видео. Причем, обнаружение объектов заключается в определении границ объекта на цифровом изображении или видео.   В качестве примера мы можем использовать открытую программную библиотеку для машинного обучения TensorFlow, разработанную компанией Google для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов, достигая качества человеческого восприятия.   Пример кода вы можете посмотреть на GitHub MachineLearningIsEasy    

Scikit-learn

Scikit—learn (Sklearn) – это библиотека с  реализацией целого ряда алгоритмов для обучения с учителем (Supervised Learning) и обучения без учителя (Unsupervised Learning) через интерфейс для языка программирования Python. Scikit-learn построена на основе SciPy (Scientific Python). Кроме того Sklearn имеет следующие зависимости: NumPy: расширение языка Python, добавляющее поддержку больших многомерных массивов и матриц, вместе с большой библиотекой высокоуровневых математических функций для операций с этими массивами; SciPy: открытая библиотека высококачественных научных инструментов для языка программирования Python; Matplotlib: библиотека на языке программирования Python для визуализации данных 2D и 3D графики; IPython: интерактивная оболочка для языка программирования Python, которая предоставляет расширенную интроспекцию, дополнительный командный синтаксис, подсветку кода и автоматическое дополнение; Sympy: библиотека для символьных вычислений; Pandas: различные структуры данных и анализ.   Pandas – высокоуровневая библиотека Далее …

Segmentation image

Segmentation image – технология, связанная с компьютерным зрением (computer vision) и обработкой изображений, заключающаяся в обнаружении объектов определенных классов на цифровых изображениях и видео. Причем, обнаружение объектов заключается в определении класса (раскраска) каждого пикселя на цифровом изображении или на каждом кадре видеопотока.     Пример кода вы можете посмотреть на GitHub MachineLearningIsEasy        

TensorFlow serving

TensorFlow serving –сервер для развертывания TensorFlow — моделей нейронных сетей с поддержкой батчинга, версионности, обработки параллельных запросов. TensorFlow Serving — серверная архитектура для развёртывания и обслуживания моделей ML в продуктивной среде. TensorFlow Serving делает легким процесс развертывания новых алгоритмов и экспериментов, при сохранении той же серверной архитектуры и API. TensorFlow Serving обеспечивает прозрачную интеграцию «из коробки» с моделями TensorFlow, так и возможностями по расширению другими типами моделей и данных.   Листинг команд: mkdir /tmp/resnet                                                              #создаем дирректорию. curl -s https://storage.googleapis.com/download.tensorflow.org/models/official/20181001_resnet/savedmodels/resnet_v2_fp32_savedmodel_NHWC_jpg.tar.gz | tar —strip-components=2 -C /tmp/resnet -xvz            Далее …

Естественная классификация

Естественная классификация — разделение (или, наоборот, группировка) предметов и явлений по существенным признакам, характеризующим их внутреннюю общность. В отличие от искусственной классификации, которая сосредоточена на внешних признаках, естественная больше ориентируется на внутреннее содержание исследуемого предмета. В частности, группировка предмета со схожими по сути (овощи, посуда, техника) — это естественная классификация. А группировка объектов по цвету, например, апельсин объединяем с оранжевым мячом, т.к. они похожи по цвету (оранжевый) и форме (круг) — это искусственное классифицирование.  В Data Science, Data Mining и Machine Learning чаще встречается именно искусственная классификация, поскольку анализировать внешние признаки проще. Однако, в более сложной задаче синтеза новых объектов, встречаются элементы естественной классификации. В настоящее время это больше свойственно человеку, чем методам искусственного интеллекта.

Искусственная классификация

Искусственная классификация — разделение объектов по внешнему признаку для придания множеству исследуемых предметов (процессов, явлений) нужного порядка. Вообще в Data Mining, Data Science и машинном обучении (Machine Learning) в частности, искусственная классификация используется в рамках подготовки данных к моделированию, на этапе формирования датасета. Например, Data Scientist может заниматься искусственной классификацией при выборке данных или во время генерации признаков. Кроме того, задача искусственной классификации является частым компонентом многих прикладных моделей Machine Learning, например, когда нужно отнести пользователя к какой-либо категории, проанализировав особенности его поведения на сайте. Также искусственная классификация выполняется при скоринговой оценке клиента по тем или иным его характеристикам, к примеру, при анализе его платежеспособности для выдачи кредита в банке. В отличие от естественной классификации, которая ориентируется в большей степени Далее …

Классификация

отнесение объектов (наблюдений, событий) к одному из заранее известных классов

Машинное обучение

Машинное обучение (Machine Learning) — класс методов искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться

Мультиколлинеарность

Мультиколлинеарность — корреляция независимых переменных [1], которая затрудняет оценку и анализ общего результата [2]. Когда независимые переменные коррелируют друг с другом, говорят о возникновении мультиколлинеарности. В машинном обучении (Machine Learning) мультиколлинеарность может стать причиной переобучаемости модели, что приведет к неверному результату [3]. Кроме того, избыточные коэффициенты увеличивают сложность модели машинного обучения, а значит, время ее тренировки возрастает. Еще мультиколлинеарность факторов плоха тем, что математическая модель регрессии содержит избыточные переменные, а это значит [4]: осложняется интерпретация параметров множественной регрессии как величин действия факторов, параметры регрессии теряют смысл и следует рассматривать другие переменные; оценки параметров ненадежны – получаются большие стандартные ошибки, которые меняются с изменением объема наблюдений, что делает модель регрессии непригодной для прогнозирования. Для оценки мультиколлинеарности используется матрица парных коэффициентов корреляции, у Далее …

Ошибка распознавания

отношение объектов, неправильно классифицированных в процессе обучения, к общему количеству объектов набора данных, которые принимали участие в обучении

Прогнозирование

установление функциональной зависимости между зависимыми и независимыми переменными

Точность распознавания

Точность распознавания — это отношение объектов, правильно классифицированных в процессе обучения, к общему количеству объектов набора данных, которые принимали участие в обучении. Точность распознавания может оцениваться с помощью матрицы ошибок (confusion matrix), о которой мы рассказываем здесь на примере оценки эффективности прогнозирования спроса с помощью Machine Learning.