Pular para o conteúdo principal

Migrar o recurso existente para um pacote

Ao criar seu pacote, talvez o senhor queira incluir Databricks recurso que já exista e esteja totalmente configurado no site remoto workspace. O senhor pode usar o comando Databricks CLI bundle generate para gerar automaticamente e com rapidez a configuração do seu pacote para aplicativos, painéis, trabalhos e pipelines existentes. Consulte Gerar um arquivo de configuração de pacote. A configuração que o senhor pode copiar e colar manualmente nos arquivos de configuração do recurso de pacote está disponível na interface do usuário Databricks para alguns recursos, como Job e pipeline.

Depois que o senhor tiver gerado a configuração para um recurso em seu pacote e implantado o pacote, use o comando bundle deployment bind para vincular um recurso em seu pacote ao recurso correspondente no workspace. Consulte Vincular um recurso de pacote.

Esta página fornece exemplos simples que usam o site Databricks CLI ou a UI para gerar ou recuperar a configuração do recurso de pacote.

Para obter detalhes sobre definições de recurso em pacotes, consulte Databricks ativo Bundles recurso.

Gerar uma configuração de trabalho existente ou pipeline usando o Databricks CLI

Para gerar programaticamente a configuração do pacote para um trabalho existente ou pipeline:

  1. Recupere o ID do Job ou pipeline existente nos detalhes doJob ou no painel lateral de detalhes do pipeline para o Job ou pipeline na interface do usuário. Como alternativa, use o comando Databricks CLI databricks jobs list ou databricks pipelines list-pipelines.

  2. Execute bundle generate job bundle generate pipeline o Databricks CLI comando ou, definindo o pipeline ID do Job ou:

    Bash
    databricks bundle generate job --existing-job-id 6565621249
    Bash
    databricks bundle generate pipeline --existing-pipeline-id 6565621249

    Esse comando cria um arquivo de configuração de pacote para o recurso na pasta resources do pacote e downloads todos os artefatos referenciados na pasta src.

Você também pode gerar configurações para um painel existente. Consulte Gerar configuração do painel.

Recuperar uma definição de trabalho existente usando a interface do usuário

Para recuperar a representação YAML de uma definição de trabalho existente na interface do usuário Databricks workspace :

  1. Na barra lateral do site Databricks workspace, clique em fluxo de trabalho .

  2. No site Jobs tab, clique no link Job's Name (Nome do trabalho).

  3. Ao lado do botão Executar agora , clique no botão e, em seguida, clique em Editar como YAML .

  4. Copie o YAML e adicione-o ao arquivo databricks.yml do seu pacote ou crie um arquivo de configuração para o Job no diretório resources do projeto do pacote e faça referência a ele no arquivo databricks.yml. Ver recurso.

  5. Faça o download e adicione todos os arquivos Python e o Notebook referenciados no trabalho existente à fonte do projeto do pacote. Normalmente, os artefatos do pacote estão localizados no diretório src em um pacote.

dica

O senhor pode exportar um Notebook existente de um Databricks workspace para o formato .ipynb clicando em File > Export > IPython Notebook na interface do usuário do Databricks Notebook.

Depois de adicionar o Notebook, os arquivos Python e outros artefatos ao pacote, altere as referências a esses arquivos na definição do trabalho para a localização local. Por exemplo, se o senhor tivesse um arquivo de configuração hello_job.job.yml na pasta resources do seu pacote e fizesse o download de um Notebook chamado hello.ipynb para a pasta src do seu pacote, o conteúdo do arquivo hello_job.job.yml seria o seguinte:

YAML
resources:
jobs:
hello_job:
name: hello_job
tasks:
- task_key: hello_task
notebook_task:
notebook_path: ../src/hello.ipynb

Para obter mais informações sobre a visualização do trabalho como código na interface do usuário, consulte Visualizar trabalho como código.

Recuperar uma definição de pipeline existente usando a interface do usuário

Para recuperar a representação YAML de uma definição existente de pipeline na interface do usuário Databricks workspace :

  1. Na barra lateral do site Databricks workspace, clique em fluxo de trabalho .

  2. Na seção DLT tab clique no link pipeline's Name .

  3. Ao lado do botão Desenvolvimento , clique no botão e, em seguida, clique em visualizar configurações YAML .

  4. Copie o YAML da definição do pipeline na caixa de diálogo YAML das configurações do pipeline para a área de transferência local clicando no ícone de cópia.

  5. Adicione o YAML que você copiou ao arquivo databricks.yml do seu pacote ou crie um arquivo de configuração para o pipeline na pasta resources do projeto do pacote e faça referência a ele no arquivo databricks.yml. Ver recurso.

  6. Faça o download e adicione todos os arquivos Python e o Notebook que são referenciados à fonte do projeto do pacote. Normalmente, os artefatos do pacote estão localizados no diretório src em um pacote.

dica

O senhor pode exportar um Notebook existente de um Databricks workspace para o formato .ipynb clicando em File > Export > IPython Notebook na interface do usuário do Databricks Notebook.

Depois de adicionar o Notebook, os arquivos Python e outros artefatos ao pacote, certifique-se de que a definição pipeline os referencie corretamente. Por exemplo, para um Notebook chamado hello.ipynb que está no diretório src/ do pacote:

YAML
resources:
pipelines:
hello_pipeline:
name: hello_pipeline
libraries:
- notebook:
path: ../src/hello.ipynb

Vincular um recurso à sua contraparte remota

Normalmente, depois de adicionar um recurso ao seu pacote, o senhor deseja garantir que o recurso no seu pacote e o recurso existente no site workspace permaneçam sincronizados. O comando bundle deployment bind permite que o senhor os vincule. Se o senhor vincular um recurso, o recurso vinculado Databricks no workspace será atualizado com base na configuração definida no pacote no próximo bundle deploy.

Para obter mais informações sobre bundle deployment bind e detalhes sobre o suporte a recursos, consulte Bind a bundle recurso.

O comando a seguir vincula o recurso hello_job à sua contraparte remota no workspace. Ele solicita uma confirmação para garantir que as atualizações da configuração do trabalho no pacote sejam aplicadas ao trabalho remoto correspondente quando o pacote for implantado novamente.

Bash
databricks bundle deployment bind hello_job 6565621249

Para remover o vínculo entre um recurso de pacote e sua contraparte no site workspace, use bundle deployment unbind. Consulte Desvincular um recurso de pacote.

Bash
databricks bundle deployment unbind 6565621249