Visão geral da arquitetura do Databricks

Este artigo fornece uma visão geral de alto nível da arquitetura Databricks, incluindo sua arquitetura empresarial, em combinação com AWS.

Arquitetura de alto nível

Databricks opera a partir de um plano de controle e de um planocompute .

  • O plano de controle inclui o serviço de backend que Databricks gerenciar em seu Databricks account. O aplicativo da Web está no plano de controle.

  • O planocompute é onde seus dados são processados. Há dois tipos de planos compute, dependendo do compute que o senhor estiver usando.

    • Para serverless compute, o serverless compute recurso execução em um serverless compute plano em seu Databricks account.

    • Para o clássico Databricks compute, o recurso compute está em seu AWS account no que é chamado de plano clássico compute . Isso se refere à rede em seu site AWS account e seu recurso.

    Para saber mais sobre os sites clássicos compute e serverless compute, consulte Types of compute.

Cada Databricks workspace tem um bucket de armazenamento associado conhecido como workspace storage bucket. O balde de armazenamento workspace está em seu AWS account.

O diagrama a seguir descreve a arquitetura geral do Databricks.

Diagrama: Arquitetura da Databricks

Plano de computação sem servidor

No plano serverless compute , Databricks compute recurso execução em uma camada compute dentro do seu Databricks account. Databricks cria um plano serverless compute na mesma região AWS que o plano workspaceclássico compute do senhor. O senhor seleciona essa região ao criar um workspace.

Para proteger os dados do cliente dentro do plano serverless compute , serverless compute execução dentro de um limite de rede para o workspace, com várias camadas de segurança para isolar diferentes espaços de trabalho do cliente Databricks e controles de rede adicionais entre clusters o mesmo cliente.

Para saber mais sobre redes no plano serverless compute , serverless compute plane networking.

Plano de computação clássico

No plano clássico compute, Databricks compute recurso execução em seu AWS account. Novos recursos compute são criados dentro de cada rede virtual workspaceno site AWS account do cliente.

Um avião clássico compute tem isolamento natural porque é executado no próprio AWS account de cada cliente. Para saber mais sobre a rede no plano clássico compute, consulte Rede no plano clássico compute .

Para obter suporte regional, consulte Nuvens e regiões do Databricks.

Balde de armazenamento do espaço de trabalho

Ao criar um workspace, o senhor fornece um bucket S3 e um prefixo para usar como bucket de armazenamento workspace.

O bucket de armazenamento workspace contém:

  • workspace dados do sistema: os dados do sistema workspace são gerados à medida que o senhor usa vários recursos do Databricks, como a criação do Notebook. Esse bucket inclui Notebook revisões, Job detalhes da execução, resultados do comando e Spark logs

  • DBFS: o DBFS (Databricks File System) é um sistema de arquivos distribuído em ambientes Databricks acessíveis sob o namespace dbfs:/. DBFS root e DBFS mounts estão ambos no namespace dbfs:/. O armazenamento e o acesso a montagens de uso de dados DBFS root ou DBFS é um padrão obsoleto e não é recomendado por Databricks. Para obter mais informações, consulte O que é DBFS?

  • Unity Catalog workspace catálogo: Se o seu workspace foi ativado para Unity Catalog automaticamente, o bucket de armazenamento workspace contém o catálogo default workspace . Todos os usuários do site workspace podem criar ativos no esquema default desse catálogo. Consulte Configurar e gerenciar o Unity Catalog.