Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud

Автор Категория ,
Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud

Продолжая вчерашний разговор про Delta Lake на базе Apache Spark от Databricks, сегодня мы расскажем одну из последних новостей о запуске этого решения на Google Cloud с середины февраля 2021 года. Читайте далее, чем хороша эта проприетарная Big Data платформа для аналитики больших данных на Spark, инструментах визуализации и MLOps, интегрированная с сервисами Google.

Один для всех: универсальный Apache Spark класса люкс для 3-х крупнейших Cloud-провайдеров

17 февраля 2021 года Google Cloud и Databricks объявили о новом партнерстве по развертыванию Delta Lake от Databricks, о котором мы рассказывали здесь, в облаке Google. Теперь это быстрое хранилище больших данных с улучшенными возможностями Apache Spark позволяет решать сложные аналитические задачи корпоративного масштаба, объединившись с сервисами Google Cloud.

Помимо основной среды выполнения Databricks, проприетарной реализации Spark, которая в 7 раз быстрее open-source дистрибутив, решение включает Delta Lake и Delta Engine для построения быстрых, гибких и масштабируемых озер данных с SQL-аналитикой, средства визуализации и MLflow для MLOps-операций. С Databricks в Google Cloud можно развернуть Delta Lake в полностью контейнерной облачной среде, проводить аналитику больших данных с машинного обучения (Machine Learning) и других методов ИИ, чтобы обеспечить интеллектуальное принятие решений, ускорить цифровую трансформацию и переход к компании data-driven управлению. Это уже успели по достоинству оценить инженеры данных международного журнального издательства Condé Nast [1].

Сотрудничество Databricks с Google Cloud привело к уникальным на текущий момент результатам: сегодня Big Data платформа премиум-класса на основе Apache Spark, которой считается Delta Lake от Databricks, является единственным унифицированным решением для всех 3-х крупнейших Cloud-сервисов. Речь идет об SaaS-гигантах Google, MS Azure и Amazon Web Services. В AWS продукт Databricks представлен на Amazon Marketplace, а в Azure – это первичное предложение Microsoft. Версия для Google Cloud находится где-то между ними [2]:

  • предложение относится к торговой площадке Google Cloud Marketplace, а не выходит под брендом Google, что делает его похожим на вариант AWS, однако, Google Cloud и Databricks предпринимают совместные усилия по выводу продукта на рынок;
  • Databricks в Google Cloud тесно интегрирован с другими сервисами Google, аналогично версии Azure.

Таким образом, большинство уникальных опций Databricks в Google Cloud обусловлено тесной интеграцией с сервисами Google, о чем мы подробнее поговорим далее.

ТОП-5 Google-возможностей для Delta Lake Databricks

Отметим следующие преимущества, которые дает развертывание платформы Databricks в облаке Google [3]:

  • готовые коннекторы к BigQuery, Pub/Sub, Google Kubernetes Engine, Cloud Storage, Looker и AI-платформе с предиктивными ML-моделями и инструментами AutoML;
  • рабочие процессы машинного обучения, выполняемые на Databricks, могут использовать платформу искусственного интеллекта Google в качестве вычислительной службы для обучения и в качестве службы хостинга для развертывания ML-модели;
  • развертывание и эксплуатация полностью на основе контейнеров в Kubernetes, что увеличивает гибкость процессов разработки и доставки продукта конечным пользователям, ускоряя выпуск новых функций в любом масштабе и с меньшими затратами;
  • обеспечение безопасности с помощью Google Cloud IAM и Google Identity;
  • несмотря на корпоративную ориентацию решений Databricks и Google, их совместная платформа остается в статусе open-source. Кроме того, эти Big Data компании заявили о готовности обеспечить своим клиентам беспроблемную интеграцию и опыт работы с Databricks в облаке Google, включая решения Accenture, Cognizant, Collibra, Confluent, Deloitte, Fishtown Analytics, Fivetran, Immuta, Informatica, Infoworks, Insight, MongoDB, Privacera, Qlik, SoftServe, Slalom, Tableau, TCS, Trifacta и пр.

Таким образом, теперь развернуть в облаке Google по-настоящему гибкое и прозрачное озеро данных с поддержкой ACID-транзакций и другими дополнительными возможностями Delta Lake, которые расширяют нативный Apache Spark, стало еще проще и эффективнее.

Delta Lake, Databricks, Google Cloud
Интеграция Delta Lake Databricks с сервисами Google Cloud

Узнайте больше об аналитике больших данных с Delta Lake и Apache Spark на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

 

 

Источники

  1. https://cloud.google.com/press-releases/2021/0217/databricks-on-google-cloud
  2. https://www.zdnet.com/article/databricks-wins-triple-crown-with-launch-on-google-cloud/
  3. https://cloud.google.com/databricks