Построение хранилища данных на базе Clickhouse

Освойте лучшие практики использования ClickHouse в качестве корпоративного хранилища данных. Архитектура популярной колоночной СУБД, принципы работы и эффективные приемы для дата-инженера, аналитика, администратора, а также специалиста по Data Science и Machine Learning
Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
CLICH
03 июня 2024
09 сентября 2024
72 000 руб. 24 ак.часов Дистанционный

Что такое ClickHouse и его роль в DWH

Clickhouse — это популярная колоночная аналитическая СУБД, которая позволяет обрабатывать гигабайты данных в реальном времени. В отличие от строковых баз данных, например, mysql или postgresql, где информация данные хранятся на диске по одной строке за раз, что отлично подходит для транзакционных рабочих нагрузок, т.е. OLTP-приложений, в ClickHouse данные хранятся на диске по одному столбцу за раз. Каждый фрагмент данных представляет собой целый столбец. Поэтому все значения одного атрибута сущности сгруппированы вместе. Подобный принцип хранения данных сокращает время выполнения аналитических запросов в OLAP-приложениях, где соединяются данные по очень большому количеству записей.

ClickHouse имеет массивно-параллельную архитектуру (MPP, Massively Parallel Processing) без разделения ресурсов. Такая архитектура отлично подходит для OLAP-сценариев, поскольку аналитические СУБД работают с огромными объёмами данных, которые постоянно растут.

ClickHouse не поддерживает ACID-требования к транзакциям и ANSI SQL. Но эта СУБД предоставляет декларативный SQL-подобный язык запросов, включая такие операторы, как GROUP BY, ORDER BY, подзапросы в разделах FROM, IN, JOIN, оконные функции и скалярные подзапросы. Зависимые подзапросы пока не поддерживаются.

С архитектурной точки зрения один экземпляр ClickHouse на несколько серверов, к которым напрямую приходят запросы пользователей. Для репликации данных и выполнения распределённых SQL-запросов в ClickHouse используется сервис синхронизации метаданных ClickHouse Keeper, аналогичный по функция Apache Zookeeper, но написанный на C++.

Высокую скорость обработки больших данных ClickHouse обеспечивает не только благодаря колоночному принципу хранения данных, но и за счет физической сортировки данных по первичному ключу. А векторный движок обработки запросов, оптимизированному для современных ЦП, а также распределенной и параллельной обработки запросов дает дополнительное ускорение.

Данные в ClickHouse располагаются на разных сегментах (shard), обеспечивая отказоустойчивость за счет репликации данных. SQL-запрос выполняется параллельно, т.е. одновременно на всех сегментах. Поэтому ClickHouse очень быстрый и может обрабатывать до 1 миллиарда строк в секунду на одном сервере и до двух ТБ в секунду на кластере из 400 узлов.

Эта колоночная СУБД отлично подходит для построения витрин данных и DWH, критичного к малейшим задержкам, обеспечивая быструю аналитику больших данных в реальном времени.

Программа курса «CLICH: Построение хранилища данных на базе Clickhouse»

Скачать программу курса «CLICH: Построение хранилища данных на базе Clickhouse» в формате pdf

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Программа курса "CLICH: Построение хранилища данных на базе Clickhouse"

1. Введение

  • Колоночные/строковые СУБД
  • Ограничение и особенности колоночных
  • Что такое ClickHouse
  • Преимущества и недостатки ClickHouse
  • Clickhouse VS Postgresql
  • Примеры использования ClickHouse
  • Установка и настройка сервера ClickHouse
    • Системные требования
  • Использование Docker для развертывания ClickHouse
  • ClickHouse в Yandex Cloud

2. Основы работы с данными в ClickHouse 

  • Создание баз данных/таблиц
  • Загрузка данных 
  • Типы данных и манипуляции с ними
  • Джойны
  • Индексы
  • Агрегация и оконные функции
  • Функции работы с датой и временем

3. Движки в ClickHouse

  • MergeTree
  •  Log
  • Движки для интеграций
  • Специальные движки
  • Обработка ошибок

4. Оптимизация производительности и нагрузки

  • Ограничения
  • Миграции
  • Кэширование и сжатие данных
  • Распараллеливание запросов
  • Балансировка нагрузки
  • Мониторинг и оптимизация запросов
  • Репликация и шардинг
  • Материлизация

5. Clickhouse и инструменты для визуализации данных

  • Datalens
  • SuperSet
  • Metabase
  • Grafana

6. Расширенные возможности и интеграции

  • Работа с географическими данными
  • Внешние ключи
  • Обработка событий в режиме реального времени
  • Интеграция с Kafka, Postgresql
  • Использование ClickHouse для машинного обучения

7. Администрирование и безопасность

  • Управление пользователями и ролями
  • Резервное копирование и восстановление данных
  • Шифрование данных
  • Аудит и мониторинг безопасности

8. Заключение

  • Комньюти
  • Сессия Q&A

Кому нужно обучение по Clickhouse

Цель курса:

научиться работать с ClickHouse и использовать его в качестве корпоративного хранилища данных (DWH)

Аудитория:

Предварительный уровень подготовки:

Как проходят кликхаус курсы

Курс построен таким образом, чтобы всего за 6 дней дать студентам глубокое понимание и навыки работы с СУБД ClickHouse, включая ее архитектуру, возможности и ограничения. Для этого придется выполнять задания, решая задачи проектирования и эксплуатации корпоративного хранилища данных, включая выполнение операций devops.

Курс позволит понять, как устроена платформа Clichouse и каковые ее возможности для решения различных задач, связанных с обработкой и анализом больших объемов данных. Наше кликхаус обучение включает практические задания, которые помогут вам закрепить полученные знания и научиться применять их на практике. Все задания основаны на реальных задачах, которые приходится решать дата-инженеру при работе с Clickhouse. Задания выполняются онлайн, на платформе данных, предоставленной нашими специалистами devops, дополнительная оплата за экземпляр СУБД не требуется.

Продолжительность курса: 24 ак.часа, 6 дней по 4 ак.часа

Занятия проходят онлайн в дистанционном режиме с преподавателем. Практические задания тоже выполняются онлайн

Соотношение теории к практике: 50/50

Чему вы научитесь

В результате обучения вы приобретете базовые знания и навыки, необходимые для эффективной работы с Clickhouse и сможете:

работать с данными в ClickHouse

настраивать визуализацию и отчетность

администрировать и оптимизировать работу ClickHouse

По завершении обучения вы получите

Получение сертификата после обучения: курсы длительностью от 24 часов предусматривают выдачу удостверения о повышении квалификации вместо сертификата. Поэтому, окончив курс "Построение хранилища данных на базе Clickhouse" в нашем лицензированном учебном центре «Школа Больших Данных»вы получите удостоверение установленного образца, что свидетельствует о повышении квалификации. По умолчанию документ выдается в электронном виде (pdf-файл), по желанию делаем бумажный вариант без дополнительной оплаты.

Кто проводит курс

Преподаватель Школы Больших Данных Горбатова Виктория
Преподаватель Школы Больших Данных

Горбатова Виктория

МГУ им. М.В. Ломоносова (Москва, 2017)
Профессиональные компетенции:
  • Разработчик Python/Data Engineer
  • Руководитель группы по обработке и визуализации данных в Мастер Деливери
  • Организация ETL-процессов
  • Мониторинг и поддержка хранилищ данных (Clickhouse/Vertica/Greenplum)
  • Разработка на Python, Scala, SQL

География наших клиентов

  • Москва
  • Санкт-Петербург
  • Нижний Новгород
  • Екатеринбург
  • Казань
  • Краснодар
  • Красноярск
  • Перьм
  • Челябинск
  • Новосибирск
  • Томск
  • Тверь
  • Саратов
  • Самара
  • Ростов-на-Дону
  • Хабаровск
  • Волгоград
  • Калуга
  • Якутск
  • Севастополь
  • Тольяти
  • Владивоссток
  • Тюмень
  • Южно-Сахалинск
  • Уфа
  • Ставрополь
  • Минск
  • Алматы
  • Астана
  • Ташкент
  • Душанбе
  • Бешкек

Записаться на курс

Остались вопросы по формату обучения, содержанию курсов, стоимости, сертификатам или другим важным моментам?
Оставьте номер телефона или e-mail и мы оперативно проконсультируем вас в течение рабочего дня.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту