Pular para o conteúdo principal

Arquitetura de alto nível

Este artigo fornece uma visão geral de alto nível da arquitetura do Databricks, incluindo sua arquitetura corporativa, em combinação com a nuvem do Google.

Arquitetura de alto nível

Databricks opera a partir de um plano de controle e de um planocompute .

  • O plano de controle inclui o serviço de backend que Databricks gerenciar em seu Databricks account. O aplicativo web está no plano de controle.

  • O planocompute é onde seus dados são processados. Há dois tipos de planos compute, dependendo do compute que o senhor estiver usando.

    • Para serverless compute, o serverless compute recurso execução em um serverless compute plano em seu Databricks account.
    • Para o clássico Databricks compute, o recurso compute está em seu recurso de nuvem do Google no que é chamado de plano clássico compute . Isso se refere à rede em seu recurso de nuvem do Google e seu recurso.

    Para saber mais sobre os sites clássicos compute e serverless compute, consulte computar.

Cada Databricks workspace tem dois buckets associados account conhecidos como buckets de armazenamentoworkspace . Os buckets de armazenamento workspace estão em sua nuvem do Google account.

O diagrama a seguir descreve a arquitetura geral do Databricks.

Diagrama: Arquitetura da Databricks

sem servidor compute plane

No plano serverless compute , Databricks compute recurso execução em uma camada compute dentro do seu Databricks account. Databricks cria um plano serverless compute na mesma região da nuvem do Google que o plano clássico compute do seu workspace. O senhor seleciona essa região ao criar um workspace.

Para proteger os dados do cliente dentro do plano serverless compute , serverless compute execução dentro de um limite de rede para o workspace, com várias camadas de segurança para isolar diferentes espaços de trabalho do cliente Databricks e controles de rede adicionais entre clusters o mesmo cliente.

Para saber mais sobre a rede no plano serverless compute , a rede no plano compute sem servidor.

Clássico compute avião

No plano clássico compute, Databricks compute recurso execução em sua nuvem do Google account. Novos recursos do compute são criados em cada rede virtual do workspace na nuvem do Google do cliente account.

Um plano compute clássico tem isolamento natural porque é executado na nuvem do Google de cada cliente account. Para saber mais sobre a rede no plano compute clássico, consulte Rede no plano compute clássico.

Para obter suporte regional, consulte Databricks clouds e regiões.

baldes de armazenamento de espaço de trabalho

Quando o senhor cria um workspace, o Databricks cria três buckets na nuvem do Google account para serem usados como buckets de armazenamento workspace.

  • Um bucket de armazenamento workspace armazena dados do sistemaworkspace que são gerados à medida que o senhor usa vários recursos Databricks, como a criação do Notebook. Esse bucket inclui revisões do Notebook, detalhes da execução do trabalho, resultados do comando e Spark logs.

  • Outro bucket de armazenamento do workspace é o armazenamento raiz do seu workspace para DBFS . O DBFS (Databricks File System) é um sistema de arquivos distribuído em ambientes Databricks acessíveis no namespace dbfs:/. DBFS root e as montagens DBFS estão no namespace dbfs:/. O armazenamento e o acesso a montagens de uso de dados DBFS root ou DBFS é um padrão obsoleto e não é recomendado por Databricks. Para obter mais informações, consulte O que é DBFS?

  • Se o seu workspace foi ativado para Unity Catalog automaticamente, um terceiro bucket de armazenamento workspace contém o catálogo default Unity Catalog workspace . Todos os usuários do site workspace podem criar ativos no esquema default desse catálogo. Veja Get começar com Unity Catalog.

nota

Se o seu workspace foi ativado para Unity Catalog automaticamente, o Databricks provisiona automaticamente um catálogo workspace com o backup de um local externo e credencial de armazenamento. Essa credencial de armazenamento é restrita para acessar apenas o caminho específico do catálogo workspace e não pode acessar outros caminhos restritos no armazenamento workspace account, como os dados do sistema DBFS root ou workspace. Isso é para garantir a segurança e evitar o acesso não autorizado a dados confidenciais do workspace.

Para limitar o acesso aos seus buckets de armazenamento workspace, consulte Proteger os buckets workspace's GCS em seu projeto.