11 марта Выездной курс по обучению руководителей «Аналитика Больших Данных», Алматы, Казахстан

Для наших клиентов и партнеров в Республике Казахстан мы предлагаем 3х дневный выездной курс по обучению руководителей и топ менеджеров основам работы с большими данными, машинному обучению, Hadoop и Интернету Вещей. В программе курса подробно рассматриваются сценарии применения технологий работы с Большими Данными (Big Data)  в различных отраслях бизнеса (Банки и финансовые учреждения, промышленность, торговля и транспорт) и организациях государственного сектора, начиная от процесса инициации проекта по цифровизации предприятия ( сбора больших данных, формирования команды проекта по аналитики больших данных) Далее …

Новая версия Apache Spark

В прошлом месяце Apache Spark выпустили свою последнюю версию — Apache Spark 2.4.0. Это пятая версия в серии 2.x. В этой версии появляется метод Барьерной синхронизации для лучшей интеграции с системами глубокого обучения. Apache Spark 2.4.0 содержит более 30 встроенных функций и функций более высокого порядка для работы со сложными типами данных. Эти функции работают с Scala 2.12 и улучшают интеграцию K8s (Kubernetes). Новая версия также фокусируется на удобстве использования и стабильности. Что нового в Apache Spark 2.4.0? 1) Встроенная Далее …

Apache Airflow

В этой статье я бы хотел рассказать об основных концепциях Airflow и как с ним работать. Что такое Airflow? Airflow – это open-source оркестаратор для управления процессами загрузки и обработки данных. Если у вас есть большое количество задач, запускаемых на cron, особенно, если между ними есть зависимости, то Airflow может вам сильно помочь. Основные его преимущества – это несложная инсталяция и первые шаги, хорошая визуализация, а также возможность автоматически создавать большое число задач и широкие возможности кастомизации. Основной объект Airflow Далее …

Оптимизация запросов JOIN в HIVE

В последних версиях HIVE пытается внедрить CBO (cost based optimizer) и JOIN одна из главных его составляющих. Понимание лучших примеров применения соединений является одним из ключевых факторов настройки производительности HIVE. Рассмотрим каждый вид соединений на примерах и определим их разницу: Shuffle Join (Common Join) – общее соединение или соединение в случайном порядке Этот вид соединений используется по умолчанию и включает map и reduce этапы Mapper: считывает таблицы и выводит пары ключ-значение соединения в промежуточный файл. Shuffle: эти пары сортируются и Далее …

Что такое AirFlow?

Планируем рабочие процессы вместе с Apache Airflow Почему Apache Airflow? Большинство процессов обработки данных строятся на определении набора «задач» для извлечения, анализа, преобразования, загрузки и хранения данных. Например, последовательность обработки данных может состоять из таких задач, как чтение логов из S3, создание задания Spark для извлечения соответствующих объектов, индексирование объектов с помощью Solr и обновление существующего индекса для расширения поиска. Чтобы автоматизировать процесс и запускать его еженедельно, вы можете использовать планировщик времени, например Cron, определяя рабочие процессы в Crontab. Это Далее …

KSQL — для тех кто любит Kafka и не знает Java

KSQL — это движок SQL с открытым исходным кодом для Apache Kafka. Он обеспечивает простой, но мощный интерактивный SQL интерфейс для потоковой обработки на Kafka, без необходимости писать код на языке программирования, таком как Java или Python.  SELECT * FROM payments-kafka-stream WHERE fraud_probability > 0.8                                                                    KSQL поддерживает широкий Далее …

Cloudera выпустила новый релиз Cloudera Enterprise 6.0

10 сентября 2018 г. компания Cloudera  выпустила новую платформу для построения решений Data Warehousing и Machine Learning  предназначенную для унификации контроля и управления длительными и  переходящими нагрузками в Public Clouds и центрах данных с испольованием нового решения Cloudera Altus.   Cloudera Enterprise 6.0 построенная поверх новой версии дистрибутива Apache Hadoop 3.0  добавляет ряд новых улучшений в  состав и характеристики компонент решения: Cloudera Altus Director — решение для управления несколькими высилительными кластерами и кластерами данных  в гибридном облаке. Новая версия Solr — Далее …

Новый курс по безопасности озера данных Hadoop

На протяжении 3 дней практического обучения  вы рассмотрите вопросы  установки и настройки эшелонированной защиты  озера данных (Data Lake) Hadoop под управлением дистрибутива Hadoop компании HortonWorks с использованием протоколов безопасности Kerberos, интеграция с  Active Directory или FreeIPA с поддержкой механизмов авторизации и аудита событий безопасности Apache Ranger, настройка защищенного периметра сети с поддержкой Single-Sign-On средствами Apache Knox Gateway. Политики ограничения доступа Apache Ranger на уровне строк, колонок и  значений  с использованием Apache Atlas.  Использование технологии машинного обучения для распознавания инцидентов безопасности с использованием Apache Metron, а также настройка опций безопасности для компонентов экосистемы Hadoop: Kafka, HDFS, YARN, Apache Spark, Hive, HBase, MapReduce.  Подробная программа Далее …

Конференция Больших Данных 2018

13 сентября 2018  в Москве пройдет 5я Практическая конференция по Большим Данным. В рамках программы конференции будут проведены три трека программ: Бизнес Технический Научный В форме чемпионата Big Data Hackathon среди специалистов в области Data Science будет предложенно  решить различные задачи на датасетах партнеров Big Data Conference В программе новые, неопубликованные ранее кейсы, обсуждение эффективности разных подходов и уроки для начинающих использовать большие данные для бизнеса, доклады посвященные техническим деталям реализации подходов Data Science, и научные доклады посвященные методам Data Mining, Далее …

Доступна KNIME Analytics Platform 3.6

Вышла новая версия KNIME Analytics Platform 3.6 , в качестве интересных особенностей улучшена интеграция алгоритмов Deep Learning, добавлена поддержка H2O Sparkling Water, утилит-узлы: multi column dictionary Tagger numeric outlier node multi column expression node узлы для поддержки Git репозитория узел для поддержки работы с большими данными KNIME Workflow для  подключения к Apache Spark 2.3, Apache Hive, and Apache Hadoop Оригинал анонса вы можете найти по адресу KNIME Analytics Platform 3.6.0 Release notes .