Pular para o conteúdo principal

Migrar o recurso existente para um pacote

Ao criar seu pacote, talvez o senhor queira incluir Databricks recurso que já exista e esteja totalmente configurado no site remoto workspace. O senhor pode usar o comando Databricks CLI bundle generate para gerar automaticamente e com rapidez a configuração do seu pacote para aplicativos, painéis, trabalhos e pipelines existentes. Consulte Gerar um arquivo de configuração de pacote. A configuração que o senhor pode copiar e colar manualmente nos arquivos de configuração do recurso de pacote está disponível na interface do usuário Databricks para alguns recursos, como Job e pipeline.

Depois que o senhor tiver gerado a configuração para um recurso em seu pacote e implantado o pacote, use o comando bundle deployment bind para vincular um recurso em seu pacote ao recurso correspondente no workspace. Consulte Vincular um recurso de pacote.

Esta página fornece exemplos simples que usam o site Databricks CLI ou a UI para gerar ou recuperar a configuração do recurso de pacote.

Para obter detalhes sobre definições de recurso em pacotes, consulte Databricks ativo Bundles recurso.

Gerar uma configuração de trabalho existente ou pipeline usando o Databricks CLI

Para gerar programaticamente a configuração do pacote para um trabalho existente ou pipeline:

  1. Recupere o ID do Job ou pipeline existente nos detalhes doJob ou no painel lateral de detalhes do pipeline para o Job ou pipeline na interface do usuário. Como alternativa, use o comando Databricks CLI databricks jobs list ou databricks pipelines list-pipelines.

  2. Execute bundle generate job bundle generate pipeline o Databricks CLI comando ou, definindo o pipeline ID do Job ou:

    Bash
    databricks bundle generate job --existing-job-id 6565621249
    Bash
    databricks bundle generate pipeline --existing-pipeline-id 6565621249

    Esse comando cria um arquivo de configuração de pacote para o recurso na pasta resources do pacote e downloads todos os artefatos referenciados na pasta src.

Você também pode gerar configurações para um painel existente. Consulte Gerar configuração do painel.

Recuperar uma definição de trabalho existente usando a interface do usuário

Para recuperar a representação YAML de uma definição de trabalho existente na interface do usuário Databricks workspace :

  1. Na barra lateral do site Databricks workspace , clique em fluxo de trabalho .

  2. No site Jobs tab, clique no link Job's Name (Nome do trabalho).

  3. Ao lado do botão Executar agora , clique no botão e, em seguida, clique em Editar como YAML .

  4. Copie o YAML e adicione-o ao arquivo databricks.yml do seu pacote ou crie um arquivo de configuração para o Job no diretório resources do projeto do pacote e faça referência a ele no arquivo databricks.yml. Ver recurso.

  5. Faça o download e adicione todos os arquivos Python e o Notebook referenciados no trabalho existente à fonte do projeto do pacote. Normalmente, os artefatos do pacote estão localizados no diretório src em um pacote.

dica

O senhor pode exportar um Notebook existente de um Databricks workspace para o formato .ipynb clicando em File > Export > IPython Notebook na interface do usuário do Databricks Notebook.

Depois de adicionar o Notebook, os arquivos Python e outros artefatos ao pacote, certifique-se de que a definição do trabalho os referencie adequadamente. Por exemplo, para um Notebook chamado hello.ipynb que está no diretório src do pacote:

YAML
resources:
jobs:
hello-job:
name: hello-job
tasks:
- task_key: hello-task
notebook_task:
notebook_path: ../src/hello.ipynb

Para obter mais informações sobre a visualização do trabalho como código na interface do usuário, consulte Visualizar trabalho como código.

Recuperar uma definição de pipeline existente usando a interface do usuário

Para recuperar a representação YAML de uma definição existente de pipeline na interface do usuário Databricks workspace :

  1. Na barra lateral do site Databricks workspace , clique em fluxo de trabalho .

  2. Na seção DLT tab clique no link pipeline's Name .

  3. Ao lado do botão Desenvolvimento , clique no botão e, em seguida, clique em visualizar configurações YAML .

  4. Copie o YAML da definição do pipeline na caixa de diálogo YAML das configurações do pipeline para a área de transferência local clicando no ícone de cópia.

  5. Adicione o YAML que você copiou ao arquivo databricks.yml do seu pacote ou crie um arquivo de configuração para o pipeline na pasta resources do projeto do pacote e faça referência a ele no arquivo databricks.yml. Ver recurso.

  6. Faça o download e adicione todos os arquivos Python e o Notebook que são referenciados à fonte do projeto do pacote. Normalmente, os artefatos do pacote estão localizados no diretório src em um pacote.

dica

O senhor pode exportar um Notebook existente de um Databricks workspace para o formato .ipynb clicando em File > Export > IPython Notebook na interface do usuário do Databricks Notebook.

Depois de adicionar o Notebook, os arquivos Python e outros artefatos ao pacote, certifique-se de que a definição pipeline os referencie corretamente. Por exemplo, para um Notebook chamado hello.ipynb que está no diretório src/ do pacote:

YAML
resources:
pipelines:
hello-pipeline:
name: hello-pipeline
libraries:
- notebook:
path: ../src/hello.ipynb

Vincular um recurso à sua contraparte remota

Normalmente, depois de adicionar um recurso ao seu pacote, o senhor deseja garantir que o recurso no seu pacote e o recurso existente no site workspace permaneçam sincronizados. O comando bundle deployment bind permite que o senhor os vincule. Se o senhor vincular um recurso, o recurso vinculado Databricks no workspace será atualizado com base na configuração definida no pacote no próximo bundle deploy. Para obter uma lista de recursos que suportam bundle deployment bind, consulte Bind a bundle recurso.

Por exemplo, o comando a seguir vincula o recurso hello_job à sua contraparte remota no workspace. Ele solicita uma confirmação para garantir que as atualizações da configuração do trabalho no pacote sejam aplicadas ao trabalho remoto correspondente quando o pacote for implantado novamente.

Bash
databricks bundle deployment bind hello_job 6565621249

Para remover o vínculo entre um recurso de pacote e sua contraparte no site workspace, use bundle deployment unbind. Consulte Desvincular um recurso de pacote.

Bash
databricks bundle deployment unbind 6565621249