Notebook tarefa for Job

Use a tarefa Notebook para implantar o Databricks Notebook.

Configurar uma tarefa de Notebook

Antes de começar, o usuário deve ter o Notebook em um local acessível para o usuário que está configurando o Job.

Observação

A Job UI exibe opções dinamicamente com base em outras definições configuradas.

Para iniciar o fluxo de configuração de uma tarefa Notebook:

  1. Navegue até a tarefa tab na UI de Jobs.

  2. No menu suspenso Tipo, selecione Notebook.

Configurar a fonte

No menu suspenso Source (Fonte ), selecione um local para o script Python usando uma das seguintes opções.

Workspace

Use o espaço de trabalho para configurar um Notebook armazenado no site workspace, completando os seguintes passos:

  1. Clique no campo Caminho. A caixa de diálogo Select Notebook é exibida.

  2. Navegue até o Notebook, clique para destacar o arquivo e clique em Confirm (Confirmar).

Observação

You can use this option to configure a task for a notebook stored in a Databricks Git folder. Databricks recommends using the Git provider option and a remote Git repository for versioning assets scheduled with jobs.

Provedor Git

Use o provedorGit para configurar um Notebook em um repositório Git remoto.

As opções exibidas pela interface do usuário dependem do fato de o senhor já ter ou não configurado um provedor Git em outro lugar. Apenas um repositório Git remoto pode ser usado para todas as tarefas em um trabalho. Consulte Use Git with Job.

Importante

Notebook criado por Databricks Job que a execução de Git repositórios remotos é efêmera e não é confiável para rastrear MLflow execuções, experimentos ou modelos. Ao criar um Notebook a partir de um Job, use um experimentoworkspace MLflow (em vez de um experimento Notebook MLflow ) e chame mlflow.set_experiment("/path/to/experiment") no Notebook workspace antes de executar qualquer código de acompanhamento MLflow. Para obter mais detalhes, consulte Evitar a perda de dados em experimentos do MLflow.

O campo Caminho aparece depois que você configura uma referência do git.

Digite o caminho relativo para o Notebook, como etl/bronze/ingest.py.

Importante

Ao inserir o caminho relativo, não comece com / ou ./. Por exemplo, se o caminho absoluto para o Notebook que o senhor deseja acessar for /etl/bronze/ingest.py, digite etl/bronze/ingest.py no campo Path (Caminho ).

Configurar o site compute e a biblioteca dependente

  1. Use a computação para selecionar ou configurar um site cluster que ofereça suporte à lógica em seu Notebook.

  2. Se o senhor usar Serverless compute, use o campo Environment and biblioteca (Ambiente e biblioteca ) para selecionar, editar ou adicionar um novo ambiente. Consulte Instalar dependências do Notebook.

  3. Para todas as outras configurações de compute, clique em + Add (Adicionar ) em Dependent biblioteca (Biblioteca dependente). É exibida a caixa de diálogo Adicionar biblioteca dependente.

    • O senhor pode selecionar uma biblioteca existente ou upload uma nova biblioteca.

    • O senhor só pode usar o biblioteca armazenado em um local compatível com as configurações do site compute. Consulte Suporte à biblioteca Python.

    • Cada biblioteca Source tem um fluxo diferente para selecionar ou carregar uma biblioteca. Ver biblioteca.

Finalizar a configuração do trabalho

  1. (Optional) Configure Parameters as key-value pairs that can be accessed in the notebook using dbutils.widgets. See Configure task parameters.

  2. Clique em Save task (Salvar tarefa).

Limitações

A saída total da célula do notebook (a saída combinada de todas as células do notebook) está sujeita a um limite de tamanho de 20 Mb. Além disso, a saída de células individuais está sujeita a um limite de tamanho de 8 MB. Se a saída total da célula exceder 20 MB de tamanho ou se a saída de uma célula individual for maior que 8 MB, a execução será cancelada e marcada como falha.

Se precisar de ajuda para encontrar células próximas ou além do limite, execute o notebook em um cluster multiuso e use essa técnica de salvamento automático do notebook.