Confiabilidade para o data lakehouse
Os princípios arquitetônicos do pilar de confiabilidade abordam a capacidade de um sistema se recuperar de falhas e continuar funcionando.
Princípios de confiabilidade
-
Design para falhas
Em um ambiente altamente distribuído, podem ocorrer interrupções. Tanto para a plataforma quanto para as várias cargas de trabalho, como transmissão Job, trabalho em lote, treinamento de modelos e consultas BI, as falhas devem ser previstas e soluções resilientes devem ser desenvolvidas para aumentar a confiabilidade. O foco está em projetar aplicativos para se recuperarem rapidamente e, na melhor das hipóteses, automaticamente.
-
gerenciar a qualidade dos dados
A qualidade dos dados é fundamental para obter percepções precisas e significativas dos dados. A qualidade dos dados tem muitas dimensões, incluindo integridade, precisão, validade e consistência. É preciso gerenciar ativamente para melhorar a qualidade dos conjuntos de dados finais, de modo que os dados sirvam como informações confiáveis e fidedignas para os usuários corporativos.
-
Projeto para autoescala
Os processos padrão do site ETL, os relatórios comerciais e os painéis de controle geralmente têm requisitos de recursos previsíveis em termos de memória e compute. No entanto, novos projetos, tarefas sazonais ou abordagens avançadas, como o treinamento de modelos (para rotatividade, previsão e manutenção), criam picos nos requisitos de recursos. Para que uma organização possa lidar com todas essas cargas de trabalho, ela precisa de um armazenamento escalável e de uma plataforma compute. A adição de novos recursos conforme necessário deve ser fácil, e somente o consumo real deve ser cobrado. Quando o pico termina, o recurso pode ser liberado e os custos reduzidos de acordo. Isso geralmente é chamado de escala horizontal (número de nós) e escala vertical (tamanho dos nós).
-
Procedimentos de recuperação de testes
Uma estratégia de recuperação de desastres em toda a empresa para a maioria dos aplicativos e sistemas exige uma avaliação das prioridades, capacidades, limitações e custos. Uma abordagem confiável de recuperação de desastres testa regularmente como as cargas de trabalho falham e valida os procedimentos de recuperação. A automação pode ser usada para simular diferentes falhas ou recriar cenários que causaram falhas no passado.
-
Automatize implantações e cargas de trabalho
A automação de implementações e cargas de trabalho para a lakehouse ajuda a padronizar esses processos, eliminar erros humanos, melhorar a produtividade e proporcionar maior repetibilidade. Isso inclui o uso de "configuração como código" para evitar desvios de configuração e "infraestrutura como código" para automatizar o provisionamento de todos os serviços de nuvem e lakehouse necessários.
-
Monitore sistemas e cargas de trabalho
As cargas de trabalho no site lakehouse normalmente integram o serviço da plataforma Databricks e o serviço de nuvem externa, por exemplo, como fonte de dados ou alvos. A execução bem-sucedida só pode ocorrer se cada serviço da cadeia de execução estiver funcionando adequadamente. Quando esse não é o caso, o monitoramento, os alertas e o registro são importantes para detectar e rastrear problemas e entender o comportamento do sistema.