Visão geral da arquitetura do Databricks

Este artigo fornece uma visão geral de alto nível da arquitetura Databricks, incluindo sua arquitetura empresarial, em combinação com AWS.

Arquitetura de alto nível

Databricks opera a partir de um plano de controle e de um planocompute .

O plano de controle inclui o serviço de backend que Databricks gerenciar em seu Databricks account. O aplicativo web está no plano de controle.
O planocompute é onde seus dados são processados. Há dois tipos de planos compute, dependendo do compute que o senhor estiver usando.
- Para serverless compute, o serverless compute recurso execução em um serverless compute plano em seu Databricks account.
- Para o clássico Databricks compute, o recurso compute está em seu AWS account no que é chamado de plano clássico compute . Isso se refere à rede em seu site AWS account e seu recurso.
Para saber mais sobre os sites clássicos compute e serverless compute, consulte Types of compute.

Cada Databricks workspace tem um bucket de armazenamento associado conhecido como workspace storage bucket . O balde de armazenamento workspace está em seu AWS account.

O diagrama a seguir descreve a arquitetura geral do Databricks.

Diagrama: Arquitetura da Databricks

sem servidor compute plane

No plano serverless compute , Databricks compute recurso execução em uma camada compute dentro do seu Databricks account. Databricks cria um plano serverless compute na mesma região AWS que o plano workspace clássico compute do senhor. O senhor seleciona essa região ao criar um workspace.

Para proteger os dados do cliente dentro do plano serverless compute , serverless compute execução dentro de um limite de rede para o workspace, com várias camadas de segurança para isolar diferentes espaços de trabalho do cliente Databricks e controles de rede adicionais entre clusters do mesmo cliente.

Para saber mais sobre a rede no plano serverless compute , a rede no plano compute sem servidor.

Clássico compute avião

No plano clássico compute, Databricks compute recurso execução em seu AWS account. Novos recursos compute são criados dentro de cada rede virtual workspace no site AWS account do cliente.

Um avião clássico compute tem isolamento natural porque é executado no próprio AWS account de cada cliente. Para saber mais sobre a rede no plano clássico compute, consulte Rede no plano clássico compute.

Para obter suporte regional, consulte nuvens e regiões da Databricks.

balde de armazenamento do espaço de trabalho

Ao criar um workspace, o senhor fornece um bucket S3 e um prefixo para usar como bucket de armazenamento workspace.

O bucket de armazenamento workspace contém:

Dados do sistema do espaço de trabalho: os dados do sistema do espaço de trabalho são gerados à medida que o senhor usa vários recursos do Databricks, como a criação do Notebook. Esse bucket inclui revisões do Notebook, detalhes da execução do trabalho, resultados do comando e Spark logs
DBFS: o DBFS (Databricks File System) é um sistema de arquivos distribuído em ambientes Databricks acessíveis no namespace dbfs:/. DBFS root e DBFS mounts estão ambos no namespace dbfs:/. O armazenamento e o acesso a montagens de uso de dados DBFS root ou DBFS é um padrão obsoleto e não é recomendado por Databricks. Para obter mais informações, consulte O que é DBFS?
Unity Catalog workspace catálogo: Se o seu workspace foi ativado para Unity Catalog automaticamente, o bucket de armazenamento workspace contém o catálogo default workspace . Todos os usuários do site workspace podem criar ativos no esquema default desse catálogo. Veja Get começar com Unity Catalog.

Arquitetura de alto nível​

sem servidor compute plane​

Clássico compute avião​

balde de armazenamento do espaço de trabalho​

Arquitetura de alto nível

sem servidor compute plane

Clássico compute avião

balde de armazenamento do espaço de trabalho