Práticas recomendadas para serverless compute
Este artigo apresenta recomendações de práticas recomendadas para o uso do site serverless compute em seu Notebook e Job.
Seguindo essas recomendações, o senhor aumentará a produtividade, a eficiência de custos e a confiabilidade de suas cargas de trabalho no Databricks.
Migração de cargas de trabalho para serverless compute
Para proteger o isolamento do código do usuário, o site serverless compute utiliza o modo de acesso padrão seguro Databricks (anteriormente, modo de acesso compartilhado). Por esse motivo, algumas cargas de trabalho exigirão alterações no código para continuar trabalhando em serverless compute. Para obter uma lista de recursos sem suporte, consulte limitações do compute sem servidor.
Algumas cargas de trabalho são mais fáceis de migrar do que outras. As cargas de trabalho que atenderem aos seguintes requisitos serão as mais fáceis de migrar:
- Os dados que estão sendo acessados devem ser armazenados no Unity Catalog.
- A carga de trabalho deve ser compatível com o modo de acesso padrão compute.
- A carga de trabalho deve ser compatível com Databricks Runtime 14.3 ou acima.
Para testar se uma carga de trabalho funcionará em serverless compute, execute-a em um recurso que não sejaserverless compute com o modo de acesso Standard e um Databricks Runtime de 14,3 ou superior. Se a execução for bem-sucedida, a carga de trabalho estará pronta para a migração.
Devido à importância dessa mudança e à lista atual de limitações, muitas cargas de trabalho não migrarão sem problemas. Em vez de recodificar tudo, o site Databricks recomenda priorizar a compatibilidade com serverless compute à medida que o senhor cria novas cargas de trabalho.
Ingestão de dados de sistemas externos
Como o site serverless compute não oferece suporte à instalação de arquivos JAR, o senhor não pode usar um driver JDBC ou ODBC para ingerir dados de uma fonte de dados externa.
As estratégias alternativas que você pode usar para ingestão incluem:
-
Blocos de construção baseados em SQL, como COPY INTO e tabelas de transmissão.
-
Auto Loader para processar de forma incremental e eficiente novos arquivos de dados à medida que eles chegam ao armazenamento em nuvem. Consulte O que é o Auto Loader?
-
ingestão de dados parceiros soluções. Consulte Conectar-se a parceiros de ingestão usando o Partner Connect.
-
A UI de adição de dados para upload arquivos diretamente. Consulte upload de arquivos em Databricks.
Alternativas de ingestão
Ao usar o site serverless compute, o senhor também pode usar o seguinte recurso para consultar os dados sem movê-los.
- Se o senhor quiser limitar a duplicação de dados ou garantir que está consultando os dados mais recentes possíveis, a Databricks recomenda o uso do Delta Sharing. Consulte O que é Delta Sharing?
- Se o senhor quiser fazer relatórios ad hoc e trabalhos de prova de conceito, o site Databricks recomenda tentar a escolha certa, que pode ser a Lakehouse Federation. A lakehouse Federation permite a sincronização de bancos de dados inteiros para Databricks a partir de sistemas externos e é regida por Unity Catalog. Veja o que é Lakehouse Federation?
Experimente um ou ambos os recursos e veja se eles atendem aos requisitos de desempenho de sua consulta.
Monitorar o custo de serverless compute
Há vários recursos que o senhor pode usar para ajudá-lo a monitorar o custo do serverless compute:
-
Use as tabelas do sistema para criar painéis, configurar alertas e realizar consultas ad hoc. Veja Monitorar o custo de serverless compute .
-
Configure um alerta de orçamento em seu site account. Consulte Criar e monitorar orçamentos.
-
Importe um painel de uso pré-configurado. Consulte Importar um painel de uso.