Pular para o conteúdo principal

Visão geral da arquitetura do Databricks

Este artigo fornece uma visão geral de alto nível da arquitetura do Databricks, incluindo sua arquitetura corporativa, em combinação com o Google Cloud.

Arquitetura de alto nível

Databricks opera a partir de um plano de controle e de um planocompute .

  • O plano de controle inclui o serviço de backend que Databricks gerenciar em seu Databricks account. O aplicativo web está no plano de controle.

  • O planocompute é onde seus dados são processados. Há dois tipos de planos compute, dependendo do compute que o senhor estiver usando.

    • Para serverless compute, o serverless compute recurso execução em um serverless compute plano em seu Databricks account.
    • Para o clássico Databricks compute, o recurso compute está em seu recurso do Google Cloud no que é chamado de plano clássico compute . Isso se refere à rede em seu recurso do Google Cloud e seu recurso.

    Para saber mais sobre os sites clássicos compute e serverless compute, consulte Types of compute.

Cada Databricks workspace tem dois buckets associados account conhecidos como buckets de armazenamentoworkspace . Os buckets de armazenamento workspace estão em seu Google Cloud account.

O diagrama a seguir descreve a arquitetura geral do Databricks.

Diagrama: Arquitetura da Databricks

sem servidor compute plane

No plano serverless compute , Databricks compute recurso execução em uma camada compute dentro do seu Databricks account. Databricks cria um serverless compute plano na mesma região do Google Cloud que workspaceo compute plano clássico do seu. O senhor seleciona essa região ao criar um workspace.

Para proteger os dados do cliente dentro do plano serverless compute , serverless compute execução dentro de um limite de rede para o workspace, com várias camadas de segurança para isolar diferentes espaços de trabalho do cliente Databricks e controles de rede adicionais entre clusters do mesmo cliente.

Para saber mais sobre a rede no plano serverless compute , a rede no plano compute sem servidor.

Clássico compute avião

No plano clássico compute, Databricks compute recurso execução em seu Google Cloud account. Novos recursos do compute são criados em cada rede virtual do workspaceno Google Cloud account do cliente.

Um plano compute clássico tem isolamento natural porque é executado no Google Cloud de cada cliente account. Para saber mais sobre a rede no plano compute clássico, consulte Rede no plano compute clássico.

Para obter suporte regional, consulte nuvens e regiões da Databricks.

baldes de armazenamento de espaço de trabalho

Quando o senhor cria um workspace, o Databricks cria três buckets no Google Cloud account para serem usados como buckets de armazenamento workspace.

  • Um bucket de armazenamento workspace armazena dados do sistemaworkspace que são gerados à medida que o senhor usa vários recursos Databricks, como a criação do Notebook. Esse bucket inclui revisões do Notebook, detalhes da execução do trabalho, resultados do comando e Spark logs.
  • Outro bucket de armazenamento do workspace é o armazenamento raiz do seu workspace para DBFS . O DBFS (Databricks File System) é um sistema de arquivos distribuído em ambientes Databricks acessíveis pelo namespace dbfs:/. DBFS root e DBFS mounts estão ambos no namespace dbfs:/. O armazenamento e o acesso a montagens de uso de dados DBFS root ou DBFS é um padrão obsoleto e não é recomendado por Databricks. Para obter mais informações, consulte O que é DBFS?
  • Se o seu workspace foi ativado para Unity Catalog automaticamente, um terceiro bucket de armazenamento workspace contém o catálogo default Unity Catalog workspace . Todos os usuários do site workspace podem criar ativos no esquema default desse catálogo. Consulte Configurar e gerenciar o Unity Catalog.

Para limitar o acesso aos seus buckets de armazenamento workspace, consulte Proteger os buckets workspace's GCS em seu projeto.