Pular para o conteúdo principal

Planejamento de produção do Databricks

Esta seção fornece uma abordagem estruturada, fase por fase, para o planejamento e projeto de uma plataforma Databricks lakehouse empresarial pronta para produção. O foco está nas decisões arquitetônicas, nos padrões de projeto e nas melhores práticas, em vez de instruções de implementação passo a passo.

Visão geral

Esta seção ajuda os administradores a compreender os princípios básicos e os padrões de design para o planejamento de implantações account e workspace de produção Databricks .

Para quem é este produto?

Esta seção foi projetada para implantações de produção corporativas com requisitos complexos de governança, segurança e múltiplosworkspace :

  • Arquitetos de nuvem projetando implantações corporativas Databricks .
  • Engenheiros de plataforma planejando a infraestrutura de produção lakehouse .
  • Arquitetos de dados que projetam estratégias de governança e armazenamento para várias equipes.
  • Equipes de segurança avaliando padrões de segurança do Databricks para ambientes regulamentados.
  • Administradores de contas implantaram frotas de workspace de produção.

Que tal começar agora? Se você é novo no Databricks ou está explorando a plataforma, comece criando um workspace serverless . Consulte Criar um workspace serverless. Você pode retornar a esta seção quando estiver pronto para projetar sua arquitetura de produção.

O que está incluído

Esta seção aborda as decisões de projeto e arquitetura . Cada fase apresenta padrões de design, melhores práticas e considerações estratégicas. Para obter instruções de implementação passo a passo, consulte a documentação disponível no final de cada fase.

Casa de lago Well-Architected

Cada fase inclui as melhores práticas alinhadas com a estrutura Well-Architected de lagos. Para princípios arquitetônicos abrangentes, consulte a arquitetura de data lakehouse : Framework Databricks Well-Architected.

Pré-requisitos

Antes de iniciar o planejamento da produção, certifique-se de ter:

  • accountna nuvem : account ativa cloud com as permissões de administrador apropriadas.
  • accountDatabricks : acesso de administrador da conta ao console account Databricks .
  • Levantamento de requisitos : Compreensão dos requisitos de segurança, compliance e governança da sua organização.
  • Planejamento de rede : Plano de arquitetura de rede, incluindo intervalos CIDR e requisitos de conectividade.
  • Provedor de identidade : Detalhes do provedor de identidade para integração SSO (recomendado para produção).

Fases de planejamento

Esta seção é composta por 10 fases. As fases podem se sobrepor ou ser executadas em paralelo, dependendo das necessidades da sua organização e da infraestrutura existente.

Estratégias de execução de fase

  • Sequencial : Conclua as fases na ordem correta para implantações em áreas não urbanizadas.
  • Paralelo : Executar fases independentes simultaneamente (por exemplo, configuração de rede e de identidade).
  • Iterativo : revisitar as fases à medida que os requisitos evoluem (por exemplo, adicionar espaço de trabalho, expandir para novas regiões).

Fase

Descrição

Fase 1: conta

Configure a estratégia básica de administração account e gerenciamento de identidades.

Fase 2: estratégia de espaço de trabalho

Planeje a arquitetura workspace com base na estrutura organizacional, nos requisitos de segurança e nas necessidades operacionais.

Fase 3: Unity Catalog

Projetar a arquitetura de governança Unity Catalog incluindo padrões de metastore, estrutura do catálogo e modelos de controle de acesso.

Fase 4: Rede

Projetar infraestrutura de rede cloud para suportar a conectividade do plano compute e dados Databricks .

Fase 5: Armazenamento

Desenvolver uma estratégia de armazenamento para espaços workspace e dados em diversas clouds.

Fase 6: Delta Lake

Projete a arquitetura de armazenamento e os padrões de organização de dados para sua lakehouse Delta Lake .

Fase 7: IaC

Desenvolva uma estratégia de Infraestrutura IaC para automatizar a implantação e o gerenciamento do recurso Databricks .

Fase 8: calcular

Projete a estratégia compute e as configurações workspace para otimizar o desempenho, o custo e a segurança.

Fase 9: Observabilidade

Desenvolver estratégias de observabilidade e monitoramento para garantir a excelência operacional.

Fase 10: Alta disponibilidade e recuperação de desastres

Desenvolver estratégias de alta disponibilidade (HA) e recuperação de desastres (DR) para garantir a continuidade e a resiliência dos negócios.

Do projeto à implementação

Após concluir as fases de projeto, implemente sua arquitetura usando:

Implantação de infraestrutura

  • Utilize Terraform para implantar infraestrutura em nível account(por exemplo, espaço de trabalho, redes, metastores Unity Catalog ).
  • Utilize pacotes de automação declarativa para implantar dados e cargas de trabalho AI (por exemplo, trabalhos, pipelines, notebooks, modelos).
  • Automatize implantações por meio de um pipeline de CI/CD .

Validação e testes

  • Teste a conectividade workspace e o provisionamento de compute .
  • Valide as permissões Unity Catalog e os padrões de acesso a dados.
  • Teste a conectividade da rede com a fonte de dados.
  • Verificar painéis de observabilidade e alertas.

Recursos adicionais

Documentação

Próximos passos

Comece o seu planejamento de produção com a Fase 1: contabilização.