Migrar o recurso existente para um pacote
Ao criar seu pacote, talvez o senhor queira incluir Databricks recurso que já exista e esteja totalmente configurado no site remoto workspace. O senhor pode usar o comando Databricks CLI bundle generate
para gerar automaticamente e com rapidez a configuração do seu pacote para aplicativos, painéis, trabalhos e pipelines existentes. Consulte Gerar um arquivo de configuração de pacote. A configuração que o senhor pode copiar e colar manualmente nos arquivos de configuração do recurso de pacote está disponível na interface do usuário Databricks para alguns recursos, como Job e pipeline.
Depois que o senhor tiver gerado a configuração para um recurso em seu pacote e implantado o pacote, use o comando bundle deployment bind
para vincular um recurso em seu pacote ao recurso correspondente no workspace. Consulte Vincular um recurso de pacote.
Esta página fornece exemplos simples que usam o site Databricks CLI ou a UI para gerar ou recuperar a configuração do recurso de pacote.
Para obter detalhes sobre definições de recurso em pacotes, consulte Databricks ativo Bundles recurso.
Gerar uma configuração de trabalho existente ou pipeline usando o Databricks CLI
Para gerar programaticamente a configuração do pacote para um trabalho existente ou pipeline:
-
Recupere o ID do Job ou pipeline existente nos detalhes doJob ou no painel lateral de detalhes do pipeline para o Job ou pipeline na interface do usuário. Como alternativa, use o comando Databricks CLI
databricks jobs list
oudatabricks pipelines list-pipelines
. -
Execute
bundle generate job
bundle generate pipeline
o Databricks CLI comando ou, definindo o pipeline ID do Job ou:Bashdatabricks bundle generate job --existing-job-id 6565621249
Bashdatabricks bundle generate pipeline --existing-pipeline-id 6565621249
Esse comando cria um arquivo de configuração de pacote para o recurso na pasta
resources
do pacote e downloads todos os artefatos referenciados na pastasrc
.
Você também pode gerar configurações para um painel existente. Consulte Gerar configuração do painel.
Recuperar uma definição de trabalho existente usando a interface do usuário
Para recuperar a representação YAML de uma definição de trabalho existente na interface do usuário Databricks workspace :
-
Na barra lateral do site Databricks workspace, clique em fluxo de trabalho .
-
No site Jobs tab, clique no link Job's Name (Nome do trabalho).
-
Ao lado do botão Executar agora , clique no botão e, em seguida, clique em Editar como YAML .
-
Copie o YAML e adicione-o ao arquivo
databricks.yml
do seu pacote ou crie um arquivo de configuração para o Job no diretórioresources
do projeto do pacote e faça referência a ele no arquivodatabricks.yml
. Ver recurso. -
Faça o download e adicione todos os arquivos Python e o Notebook referenciados no trabalho existente à fonte do projeto do pacote. Normalmente, os artefatos do pacote estão localizados no diretório
src
em um pacote.
O senhor pode exportar um Notebook existente de um Databricks workspace para o formato .ipynb
clicando em File > Export > IPython Notebook na interface do usuário do Databricks Notebook.
Depois de adicionar o Notebook, os arquivos Python e outros artefatos ao pacote, certifique-se de que a definição do trabalho os referencie adequadamente. Por exemplo, para um Notebook chamado hello.ipynb
que está no diretório src
do pacote:
resources:
jobs:
hello-job:
name: hello-job
tasks:
- task_key: hello-task
notebook_task:
notebook_path: ../src/hello.ipynb
Para obter mais informações sobre a visualização do trabalho como código na interface do usuário, consulte Visualizar trabalho como código.
Recuperar uma definição de pipeline existente usando a interface do usuário
Para ver um tutorial que mostra como converter um DLT pipeline existente em um projeto Databricks ativo Bundles, consulte Converter um DLT pipeline em um projeto Databricks ativo Bundle.
Para recuperar a representação YAML de uma definição existente de pipeline na interface do usuário Databricks workspace :
-
Na barra lateral do site Databricks workspace, clique em fluxo de trabalho .
-
Na seção DLT tab clique no link pipeline's Name .
-
Ao lado do botão Desenvolvimento , clique no botão e, em seguida, clique em visualizar configurações YAML .
-
Copie o YAML da definição do pipeline na caixa de diálogo YAML das configurações do pipeline para a área de transferência local clicando no ícone de cópia.
-
Adicione o YAML que você copiou ao arquivo
databricks.yml
do seu pacote ou crie um arquivo de configuração para o pipeline na pastaresources
do projeto do pacote e faça referência a ele no arquivodatabricks.yml
. Ver recurso. -
Faça o download e adicione todos os arquivos Python e o Notebook que são referenciados à fonte do projeto do pacote. Normalmente, os artefatos do pacote estão localizados no diretório
src
em um pacote.
O senhor pode exportar um Notebook existente de um Databricks workspace para o formato .ipynb
clicando em File > Export > IPython Notebook na interface do usuário do Databricks Notebook.
Depois de adicionar o Notebook, os arquivos Python e outros artefatos ao pacote, certifique-se de que a definição pipeline os referencie corretamente. Por exemplo, para um Notebook chamado hello.ipynb
que está no diretório src/
do pacote:
resources:
pipelines:
hello-pipeline:
name: hello-pipeline
libraries:
- notebook:
path: ../src/hello.ipynb
Vincular um recurso à sua contraparte remota
Normalmente, depois de adicionar um recurso ao seu pacote, o senhor deseja garantir que o recurso no seu pacote e o recurso existente no site workspace permaneçam sincronizados. O comando bundle deployment bind
permite que o senhor os vincule. Se o senhor vincular um recurso, o recurso vinculado Databricks no workspace será atualizado com base na configuração definida no pacote no próximo bundle deploy
. Para obter uma lista de recursos que suportam bundle deployment bind
, consulte Bind a bundle recurso.
Por exemplo, o comando a seguir vincula o recurso hello_job
à sua contraparte remota no workspace. Ele solicita uma confirmação para garantir que as atualizações da configuração do trabalho no pacote sejam aplicadas ao trabalho remoto correspondente quando o pacote for implantado novamente.
databricks bundle deployment bind hello_job 6565621249
Para remover o vínculo entre um recurso de pacote e sua contraparte no site workspace, use bundle deployment unbind
. Consulte Desvincular um recurso de pacote.
databricks bundle deployment unbind 6565621249