execução your Databricks Job with serverless compute for fluxo de trabalho
Importante
Como o site serverless compute for fluxo de trabalho não oferece suporte ao controle do tráfego de saída, seu trabalho tem acesso total à Internet.
O serverless compute for fluxo de trabalho permite que o senhor execute seu Databricks Job sem configurar e implantar infraestrutura. Com o serverless compute, o senhor se concentra na implementação do pipeline de análise e processamento de dados e Databricks gerencia com eficiência o compute recurso, incluindo a otimização e o dimensionamento do compute para suas cargas de trabalho. autoscale e Photon são ativados automaticamente para o recurso compute que executa seu trabalho.
A otimização automática do serverless compute for fluxo de trabalho otimiza automaticamente o compute selecionando o recurso apropriado, como tipos de instância, memória e mecanismos de processamento com base em sua carga de trabalho. A otimização automática também tenta novamente, de forma automática, os trabalhos com falha.
Databricks atualiza automaticamente a versão do Databricks Runtime para oferecer suporte a aprimoramentos e atualizações da plataforma, garantindo a estabilidade do seu trabalho no Databricks. Para ver a versão atual do Databricks Runtime usada pelo serverless compute para fluxo de trabalho, consulte serverless compute notas sobre a versão.
Como a permissão de criação do cluster não é necessária, todos os usuários do workspace podem usar o serverless compute para executar seu fluxo de trabalho.
Este artigo descreve o uso da UI Databricks Jobs para criar e executar trabalhos que usam serverless compute. O senhor também pode automatizar a criação e a execução de trabalhos que usam serverless compute com os Jobs API, Databricks ativo Bundles e o Databricks SDK para Python.
Para saber mais sobre como usar o Jobs API para criar e executar trabalhos que usam serverless compute, consulte Jobs na referência REST API .
Para saber mais sobre como usar Databricks ativo Bundles para criar e executar um trabalho que use serverless compute, consulte Desenvolver um trabalho em Databricks usando Databricks ativo Bundles.
Para saber mais sobre como usar o Databricks SDK para Python para criar e executar trabalhos que usam serverless compute, consulte Databricks SDK para Python.
Requisitos
Seu Databricks workspace deve ter o Unity Catalog ativado.
Como o serverless compute para fluxo de trabalho usa o modo de acesso compartilhado, suas cargas de trabalho devem suportar esse modo de acesso.
Seu site Databricks workspace deve estar em uma região compatível. Consulte compute disponibilidade de recursos sem servidor.
Criar um trabalho usando serverless compute
Observação
Como o serverless compute para fluxo de trabalho garante o provisionamento de recursos suficientes para a execução de suas cargas de trabalho, o senhor poderá ter um aumento no tempo de startup ao executar um trabalho Databricks que exija grandes quantidades de memória ou inclua muitas tarefas.
O sem servidor é compatível com os compute Python dbt Python wheel tipos de tarefa Notebook, script, e . Por default, serverless compute é selecionado como o tipo compute quando o senhor cria um novo trabalho e adiciona um desses tipos de tarefa compatíveis.
Databricks recomenda o uso do site serverless compute para todas as tarefas de trabalho. O senhor também pode especificar diferentes tipos de compute para tarefa em um trabalho, o que pode ser necessário se um tipo de tarefa não for suportado pelo serverless compute para fluxo de trabalho.
Configurar um trabalho existente para usar o site serverless compute
O senhor pode mudar um trabalho existente para usar o site serverless compute para os tipos de tarefa suportados ao editar o trabalho. Para mudar para serverless compute, o senhor pode:
No painel lateral Job details, clique em swap em compute, clique em New, insira ou atualize as configurações e clique em Update.
Clique em no menu suspenso de computação e selecione serverless.
Programar um Notebook usando serverless compute
Além de usar o Jobs UI para criar e programar um trabalho usando serverless compute, o senhor pode criar e executar um trabalho que use serverless compute diretamente de um notebook Databricks. Consulte Criar e gerenciar o trabalho agendado do Notebook.
Definir os parâmetros de configuração do Spark
Para automatizar a configuração de Spark em serverless compute, Databricks permite definir apenas parâmetros específicos de configuração de Spark. Para obter a lista de parâmetros permitidos, consulte Parâmetros de configuração compatíveis com o Spark.
O senhor pode definir os parâmetros de configuração do Spark somente no nível da sessão. Para fazer isso, defina-os em um Notebook e adicione o Notebook a uma tarefa incluída no mesmo Job que usa os parâmetros. Consulte Obter e definir as propriedades de configuração do Apache Spark em um Notebook.
Configurar ambientes e dependências
Para saber como instalar bibliotecas e dependências usando serverless compute, consulte Instalar dependências do Notebook.
Configurar a otimização automática da computação sem servidor para não permitir novas tentativas
Otimização automática do compute for fluxo de trabalho sem servidor otimiza automaticamente o compute usado para executar seu trabalho e tenta novamente os trabalhos com falha. A otimização automática é ativada pelo site default, e o Databricks recomenda deixá-la ativada para garantir que as cargas de trabalho críticas sejam executadas com êxito pelo menos uma vez. No entanto, se o senhor tiver cargas de trabalho que devem ser executadas no máximo uma vez, por exemplo, trabalhos que não são idempotentes, poderá desativar a otimização automática ao adicionar ou editar uma tarefa:
Ao lado de Retries (Repetições), clique em Add (Adicionar ) (ou se já existir uma política de repetição).
Na caixa de diálogo Retry Policy (Política de repetição ), desmarque a opção Enable serverless auto-optimization (pode incluir tentativas adicionais).
Clique em Confirmar.
Se estiver adicionando uma tarefa, clique em Create task (Criar tarefa). Se estiver editando uma tarefa, clique em Save task (Salvar tarefa).
Monitorar o custo do trabalho que usa o site serverless compute para fluxo de trabalho
O senhor pode monitorar o custo do trabalho que usa o site serverless compute para fluxo de trabalho consultando a tabela do sistema de uso faturável. Essa tabela é atualizada para incluir atributos de usuário e carga de trabalho sobre os custos do serverless. Consulte a referência da tabela do sistema de uso faturável.
Ver detalhes de suas consultas Spark
O serverless compute for fluxo de trabalho tem uma nova interface para a visualização de informações detalhadas de tempo de execução para suas declarações Spark, como métricas e planos de consulta. Para view consultar percepções para Spark declarações incluídas na execução de seu trabalho em serverless compute:
Clique em fluxo de trabalho na barra lateral.
Na coluna Name (Nome ), clique no nome do trabalho para o qual o senhor deseja view percepções.
Clique na execução específica para a qual o senhor deseja view percepções.
Na seção de computação do painel lateral da tarefa execução, clique em Query história.
O senhor é redirecionado para o site Query History, pré-filtrado com base no ID de execução da tarefa em que estava.
Para obter informações sobre como usar o histórico de consultas, consulte Histórico de consultas.
Limitações
Para obter uma lista de serverless compute limitações de fluxo de trabalho, consulte as limitações do serverless compute em serverless compute notas sobre a versão.