Práticas recomendadas para computação sem servidor

Este artigo apresenta recomendações de práticas recomendadas para o uso do serverless compute em seu Notebook e Job.

Seguindo essas recomendações, o senhor aumentará a produtividade, a eficiência de custos e a confiabilidade de suas cargas de trabalho no Databricks.

Migração de cargas de trabalho para a computação sem servidor

Para proteger o isolamento do código do usuário, o serverless compute utiliza o modo de acesso compartilhado seguro Databricks. Por esse motivo, algumas cargas de trabalho exigirão alterações no código para continuar trabalhando em serverless compute. Para obter uma lista de recursos sem suporte, consulte serverless compute limitations.

Algumas cargas de trabalho são mais fáceis de migrar do que outras. As cargas de trabalho que atendem aos seguintes requisitos serão as mais fáceis de migrar:

  • Os dados que estão sendo acessados devem ser armazenados no Unity Catalog.

  • A carga de trabalho deve ser compatível com o modo de acesso compartilhado compute.

  • A carga de trabalho deve ser compatível com Databricks Runtime 14.3 ou acima.

Para testar se uma carga de trabalho funcionará em serverless compute, execute-a em um recurso nãoserverless compute com modo de acesso compartilhado e um Databricks Runtime de 14,3 ou superior. Se a execução for bem-sucedida, a carga de trabalho estará pronta para a migração.

Devido à importância dessa mudança e à lista atual de limitações, muitas cargas de trabalho não serão migradas sem problemas. Em vez de recodificar tudo, o site Databricks recomenda priorizar a compatibilidade com serverless compute à medida que o senhor cria novas cargas de trabalho.

Ingerir dados de sistemas externos

Como o site serverless compute não oferece suporte à instalação de arquivos JAR, o senhor não pode usar um driver JDBC ou ODBC para ingerir dados de uma fonte de dados externa.

As estratégias alternativas que o senhor pode usar para a ingestão incluem:

Alternativas de ingestão

Ao usar o site serverless compute, o senhor também pode usar o seguinte recurso para consultar os dados sem movê-los.

  • Se o senhor quiser limitar a duplicação de dados ou garantir que está consultando os dados mais recentes possíveis, a Databricks recomenda o uso do Delta Sharing. Consulte O que é Delta Sharing?

  • Se o senhor quiser fazer relatórios ad hoc e trabalhos de prova de conceito, o site Databricks recomenda tentar a escolha certa, que pode ser a Lakehouse Federation. A lakehouse Federation permite a sincronização de bancos de dados inteiros para Databricks a partir de sistemas externos e é regida por Unity Catalog. Veja o que é Lakehouse Federation?

Experimente um ou ambos os recursos e veja se eles atendem aos requisitos de desempenho de sua consulta.

Monitorar o custo da computação sem servidor

Há vários recursos que o senhor pode usar para ajudá-lo a monitorar o custo do serverless compute: