Pular para o conteúdo principal

Confiabilidade para o data lakehouse

Os princípios arquitetônicos do pilar de confiabilidade abordam a capacidade de um sistema se recuperar de falhas e continuar funcionando.

Confiabilidade lakehouse diagrama de arquitetura para Databricks.

Princípios de confiabilidade

  1. Design para falhas

    Em um ambiente altamente distribuído, podem ocorrer interrupções. Tanto para a plataforma quanto para as várias cargas de trabalho, como transmissão Job, trabalho em lote, treinamento de modelos e consultas BI, as falhas devem ser previstas e soluções resilientes devem ser desenvolvidas para aumentar a confiabilidade. O foco está em projetar aplicativos para se recuperarem rapidamente e, na melhor das hipóteses, automaticamente.

  2. gerenciar a qualidade dos dados

    A qualidade dos dados é fundamental para obter percepções precisas e significativas dos dados. A qualidade dos dados tem muitas dimensões, incluindo integridade, precisão, validade e consistência. É preciso gerenciar ativamente para melhorar a qualidade dos conjuntos de dados finais, de modo que os dados sirvam como informações confiáveis e fidedignas para os usuários corporativos.

  3. Projeto para autoescala

    Os processos padrão do site ETL, os relatórios comerciais e os painéis de controle geralmente têm requisitos de recursos previsíveis em termos de memória e compute. No entanto, novos projetos, tarefas sazonais ou abordagens avançadas, como o treinamento de modelos (para rotatividade, previsão e manutenção), criam picos nos requisitos de recursos. Para que uma organização possa lidar com todas essas cargas de trabalho, ela precisa de um armazenamento escalável e de uma plataforma compute. A adição de novos recursos conforme necessário deve ser fácil, e somente o consumo real deve ser cobrado. Quando o pico termina, o recurso pode ser liberado e os custos reduzidos de acordo. Isso geralmente é chamado de escala horizontal (número de nós) e escala vertical (tamanho dos nós).

  4. Procedimentos de recuperação de testes

    Uma estratégia de recuperação de desastres em toda a empresa para a maioria dos aplicativos e sistemas exige uma avaliação das prioridades, capacidades, limitações e custos. Uma abordagem confiável de recuperação de desastres testa regularmente como as cargas de trabalho falham e valida os procedimentos de recuperação. A automação pode ser usada para simular diferentes falhas ou recriar cenários que causaram falhas no passado.

  5. Automatize implantações e cargas de trabalho

    A automação de implementações e cargas de trabalho para a lakehouse ajuda a padronizar esses processos, eliminar erros humanos, melhorar a produtividade e proporcionar maior repetibilidade. Isso inclui o uso de "configuração como código" para evitar desvios de configuração e "infraestrutura como código" para automatizar o provisionamento de todos os serviços de nuvem e lakehouse necessários.

  6. Monitore sistemas e cargas de trabalho

    As cargas de trabalho no site lakehouse normalmente integram o serviço da plataforma Databricks e o serviço de nuvem externa, por exemplo, como fonte de dados ou alvos. A execução bem-sucedida só pode ocorrer se cada serviço da cadeia de execução estiver funcionando adequadamente. Quando esse não é o caso, o monitoramento, os alertas e o registro são importantes para detectar e rastrear problemas e entender o comportamento do sistema.

Próximo: Práticas recomendadas para confiabilidade

Consulte Práticas recomendadas para confiabilidade.