Práticas recomendadas para computação sem servidor
Este artigo apresenta recomendações de práticas recomendadas para o uso do serverless compute em seu Notebook e Job.
Seguindo essas recomendações, o senhor aumentará a produtividade, a eficiência de custos e a confiabilidade de suas cargas de trabalho no Databricks.
Migração de cargas de trabalho para a computação sem servidor
Para proteger o isolamento do código do usuário, o serverless compute utiliza o modo de acesso compartilhado seguro Databricks. Por esse motivo, algumas cargas de trabalho exigirão alterações no código para continuar trabalhando em serverless compute. Para obter uma lista de recursos sem suporte, consulte serverless compute limitations.
Algumas cargas de trabalho são mais fáceis de migrar do que outras. As cargas de trabalho que atendem aos seguintes requisitos serão as mais fáceis de migrar:
Os dados que estão sendo acessados devem ser armazenados no Unity Catalog.
A carga de trabalho deve ser compatível com o modo de acesso compartilhado compute.
A carga de trabalho deve ser compatível com Databricks Runtime 14.3 ou acima.
Para testar se uma carga de trabalho funcionará em serverless compute, execute-a em um recurso nãoserverless compute com modo de acesso compartilhado e um Databricks Runtime de 14,3 ou superior. Se a execução for bem-sucedida, a carga de trabalho estará pronta para a migração.
Devido à importância dessa mudança e à lista atual de limitações, muitas cargas de trabalho não serão migradas sem problemas. Em vez de recodificar tudo, o site Databricks recomenda priorizar a compatibilidade com serverless compute à medida que o senhor cria novas cargas de trabalho.
Ingerir dados de sistemas externos
Como o site serverless compute não oferece suporte à instalação de arquivos JAR, o senhor não pode usar um driver JDBC ou ODBC para ingerir dados de uma fonte de dados externa.
As estratégias alternativas que o senhor pode usar para a ingestão incluem:
Blocos de construção baseados em SQL, como COPY INTO e tabelas de transmissão.
Auto Loader para processar de forma incremental e eficiente novos arquivos de dados à medida que eles chegam ao armazenamento cloud. Consulte O que é o Auto Loader?
ingestão de dados parceiros soluções. Consulte Conectar-se a parceiros de ingestão usando o Partner Connect.
A UI de adição de dados para upload arquivos diretamente. Consulte Upload de arquivos para a Databricks.
Alternativas de ingestão
Ao usar o site serverless compute, o senhor também pode usar o seguinte recurso para consultar os dados sem movê-los.
Se o senhor quiser limitar a duplicação de dados ou garantir que está consultando os dados mais recentes possíveis, a Databricks recomenda o uso do Delta Sharing. Consulte O que é Delta Sharing?
Se o senhor quiser fazer relatórios ad hoc e trabalhos de prova de conceito, o site Databricks recomenda tentar a escolha certa, que pode ser a Lakehouse Federation. A lakehouse Federation permite a sincronização de bancos de dados inteiros para Databricks a partir de sistemas externos e é regida por Unity Catalog. Veja o que é Lakehouse Federation?
Experimente um ou ambos os recursos e veja se eles atendem aos requisitos de desempenho de sua consulta.
Monitorar o custo da computação sem servidor
Há vários recursos que o senhor pode usar para ajudá-lo a monitorar o custo do serverless compute:
Use as tabelas do sistema para criar painéis, configurar alertas e realizar consultas ad hoc. Veja Monitorar o custo de serverless compute .
Configure um alerta de orçamento em seu site account. Consulte Usar orçamentos para monitorar os gastos da conta.
Importar um painel de controle de uso pré-configurado. Consulte Importar um painel de controle de uso.