Машинное обучение: наглядные примеры применения

Машинное обучение

Если говорить об уровне совершенства современных программ и программируемых систем, то наиболее наглядно его показывает машинное обучение. Это активно разрабатываемый сейчас класс алгоритмов и методов работы искусственного интеллекта, подразумевающий не просто решение системой задач, а ее самостоятельный поиск верного направления на основе анализа и консолидации подобных задач, решение для которых уже найдено. На первый взгляд способность программ самостоятельно обучаться кажется фантастикой, однако, сейчас машинное обучение уже является достаточно распространенной и широко используемой технологией. Сферы применения Вот только некоторые общеизвестные варианты использования методик машинного обучения: сайт YELP, где технология используется для автоматизации классификации изображений; PINTEREST – курирование и повышение качества поиска контента; FACEBOOK – автоматическое самообучение многочисленных чатботов; TWITTER – автоматическое построение новостных лент пользователей; GOOGLE – самообучение нейронных сетей; EDGECASE Далее …

Data mining – что это такое?

Data mining – что это такое?

Одним из относительно новых терминов стало словосочетание Data mining, подразумевающее извлечение определенных данных из общего массива, упорядоченного или не упорядоченного. Работа с большими массивами данных – достаточно новая задача, инструментарий для решения которой в данный момент фактически только прорабатывается и совершенствуется. Подобных вызовов в практике человечества ранее не существовало, поэтому именно теперь формируется фактически новое направление, в котором появляются свои термины и инструменты. Задачи, решаемые с помощью инструментов Data mining Инструментарий Data mining используется для решения целого спектра задач. Среди которых: классификация данных по заранее определенным категориям; кластеризация данных на группы, похожие между собой по заданным параметрам; ассоциация – поиск и обработка повторяющихся данных, как цельных, так и участков; прогнозирование – поиск и анализ предстоящих состояний данных на основе информации Далее …

Что такое AirFlow?

Планируем рабочие процессы вместе с Apache Airflow Почему Apache Airflow? Большинство процессов обработки данных строятся на определении набора «задач» для извлечения, анализа, преобразования, загрузки и хранения данных. Например, последовательность обработки данных может состоять из таких задач, как чтение логов из S3, создание задания Spark для извлечения соответствующих объектов, индексирование объектов с помощью Solr и обновление существующего индекса для расширения поиска. Чтобы автоматизировать процесс и запускать его еженедельно, вы можете использовать планировщик времени, например Cron, определяя рабочие процессы в Crontab. Это действительно отлично подходит для простых рабочих процессов, но все становится хуже, когда вы начинаете поддерживать рабочий процесс в крупных проектах, где между элементами существуют зависимости. Еще это усложняется, если вы ждете каких-то входных данных от сторонних разработчиков, или другие команды Далее …

Большие данные: общее описание и примеры использования

big data

Большие Данные (Big Data) – определение, широко используемое айтишниками, статистиками и другими специалистами, работающими с данными. В последнее время оно стало настолько распространенным, что просочилось из узкоспециализированной сферы в общий лексикон. Многие уже слышали разговоры о Big Data, но сходу не так просто разобраться, что это такое и где оно требуется. Термин «Большие данные» сейчас не обозначает что-то конкретное. Как правило, так принято определять целое направление инструментов и алгоритмов, предназначенных для работы с большими массивами упорядоченных и разрозненных данных в условиях постоянного роста их объема и изменения структура. Это сложная задача, и достаточно разносторонняя, поэтому не существует какого-то одного универсального инструмента для ее решения. Практические примеры использования «больших данных» Чтобы лучше понять, что такое Большие Данные, и где ее методы Далее …

Hadoop: практичное применение инструмента

hadoop

Hadoop – специализированный пакет алгоритмов и инструментов, предназначенных для массированной обработки информации. Его задача – работа с крупнейшими массивами данных, упорядоченных и неупорядоченных. Инструмент настолько эффективен, что достаточно широко используется в ряде алгоритмов поисковых систем и при построении ресурсоемких сайтов. Однако, Hadoop можно использовать и в гораздо более практичных и приближенных к повседневным задачам целях. Например, внедрить систему в своей компании для решения различных задач, связанных со структурированием и анализом имеющихся и поступающих данных. Суть Hadoop заключается в том, что этот пакет предполагает работу не на одном устройстве, а на целом кластере, каждая система в котором получает одну и ту же задачу. В результате объединения усилий кластера решение находится максимально быстро. Задачи, которые можно решить с помощью Hadoop Вариантов корпоративного Далее …

Без рубрики

11-13 сентября курс «Аналитика больших данных для менеджеров»

Расширенный тренинг для руководителей и собственников компаний, менеджеров проектов по большим данным и специалистов желающих получить полное представление о технологиях и трендах  в больших данных для понимания принципов аналитики больших данных, основ построения кластеров Hadoop, цифровой трансформации, Промышленного Интернета Вещей, машинного обучения и Data mining:ltv , компонентах экосистемы Hadoop и NoSQL, облачных вычислений, Data Lakes, DevOps, Agile, микросервисах, dockers & kubernets.     Related Posts:DSEC: Безопасность озера данных HadoopHDDE: Hadoop для инженеров данных20 проблем для Data Scientist, от которых не спасет CRISP-DMКак продавать проекты Больших данных

KSQL — для тех кто любит Kafka и не знает Java

KSQL — это движок SQL с открытым исходным кодом для Apache Kafka. Он обеспечивает простой, но мощный интерактивный SQL интерфейс для потоковой обработки на Kafka, без необходимости писать код на языке программирования, таком как Java или Python.  SELECT * FROM payments-kafka-stream WHERE fraud_probability > 0.8                                                                    KSQL поддерживает широкий спектр потоковых операций, включая фильтрацию данных, преобразования, агрегации, соединения, оконные операции и сессии. Он является масштабируемым, отказоустойчивым и позволяет в режиме реального времени удовлетворить потребности бизнеса в данных.  Теперь вы можете задаться вопросом, для чего я могу использовать KSQL? Вот несколько Далее …