Migrar o recurso existente para um pacote
Ao criar seu pacote, talvez o senhor queira incluir Databricks recurso que já exista e esteja totalmente configurado no site remoto workspace. O senhor pode usar o comando Databricks CLI bundle generate
para gerar automaticamente e com rapidez a configuração do seu pacote para aplicativos, painéis, trabalhos e pipelines existentes. Consulte Gerar um arquivo de configuração de pacote. A configuração que o senhor pode copiar e colar manualmente nos arquivos de configuração do recurso de pacote está disponível na interface do usuário Databricks para alguns recursos, como Job e pipeline.
Depois que o senhor tiver gerado a configuração para um recurso em seu pacote e implantado o pacote, use o comando bundle deployment bind
para vincular um recurso em seu pacote ao recurso correspondente no workspace. Consulte Vincular um recurso de pacote.
Esta página fornece exemplos simples que usam o site Databricks CLI ou a UI para gerar ou recuperar a configuração do recurso de pacote.
Para obter detalhes sobre definições de recurso em pacotes, consulte Databricks ativo Bundles recurso.
Gerar uma configuração de trabalho existente ou pipeline usando o Databricks CLI
Para gerar programaticamente a configuração do pacote para um trabalho existente ou pipeline:
-
Recupere o ID do Job ou pipeline existente nos detalhes doJob ou no painel lateral de detalhes do pipeline para o Job ou pipeline na interface do usuário. Como alternativa, use o comando Databricks CLI
databricks jobs list
oudatabricks pipelines list-pipelines
. -
Execute
bundle generate job
bundle generate pipeline
o Databricks CLI comando ou, definindo o pipeline ID do Job ou:Bashdatabricks bundle generate job --existing-job-id 6565621249
Bashdatabricks bundle generate pipeline --existing-pipeline-id 6565621249
Esse comando cria um arquivo de configuração de pacote para o recurso na pasta
resources
do pacote e downloads todos os artefatos referenciados na pastasrc
.
Você também pode gerar configurações para um painel existente. Consulte Gerar configuração do painel.
Recuperar uma definição de trabalho existente usando a interface do usuário
Para recuperar a representação YAML de uma definição de trabalho existente na interface do usuário Databricks workspace :
-
Na barra lateral do site Databricks workspace , clique em fluxo de trabalho .
-
No site Jobs tab, clique no link Job's Name (Nome do trabalho).
-
Ao lado do botão Executar agora , clique no botão e, em seguida, clique em Editar como YAML .
-
Copie o YAML e adicione-o ao arquivo
databricks.yml
do seu pacote ou crie um arquivo de configuração para o Job no diretórioresources
do projeto do pacote e faça referência a ele no arquivodatabricks.yml
. Ver recurso. -
Faça o download e adicione todos os arquivos Python e o Notebook referenciados no trabalho existente à fonte do projeto do pacote. Normalmente, os artefatos do pacote estão localizados no diretório
src
em um pacote.
O senhor pode exportar um Notebook existente de um Databricks workspace para o formato .ipynb
clicando em File > Export > IPython Notebook na interface do usuário do Databricks Notebook.
Depois de adicionar o Notebook, os arquivos Python e outros artefatos ao pacote, certifique-se de que a definição do trabalho os referencie adequadamente. Por exemplo, para um Notebook chamado hello.ipynb
que está no diretório src
do pacote:
resources:
jobs:
hello-job:
name: hello-job
tasks:
- task_key: hello-task
notebook_task:
notebook_path: ../src/hello.ipynb
Para obter mais informações sobre a visualização do trabalho como código na interface do usuário, consulte Visualizar trabalho como código.
Recuperar uma definição de pipeline existente usando a interface do usuário
Para recuperar a representação YAML de uma definição existente de pipeline na interface do usuário Databricks workspace :
-
Na barra lateral do site Databricks workspace , clique em fluxo de trabalho .
-
Na seção DLT tab clique no link pipeline's Name .
-
Ao lado do botão Desenvolvimento , clique no botão e, em seguida, clique em visualizar configurações YAML .
-
Copie o YAML da definição do pipeline na caixa de diálogo YAML das configurações do pipeline para a área de transferência local clicando no ícone de cópia.
-
Adicione o YAML que você copiou ao arquivo
databricks.yml
do seu pacote ou crie um arquivo de configuração para o pipeline na pastaresources
do projeto do pacote e faça referência a ele no arquivodatabricks.yml
. Ver recurso. -
Faça o download e adicione todos os arquivos Python e o Notebook que são referenciados à fonte do projeto do pacote. Normalmente, os artefatos do pacote estão localizados no diretório
src
em um pacote.
O senhor pode exportar um Notebook existente de um Databricks workspace para o formato .ipynb
clicando em File > Export > IPython Notebook na interface do usuário do Databricks Notebook.
Depois de adicionar o Notebook, os arquivos Python e outros artefatos ao pacote, certifique-se de que a definição pipeline os referencie corretamente. Por exemplo, para um Notebook chamado hello.ipynb
que está no diretório src/
do pacote:
resources:
pipelines:
hello-pipeline:
name: hello-pipeline
libraries:
- notebook:
path: ../src/hello.ipynb
Vincular um recurso à sua contraparte remota
Normalmente, depois de adicionar um recurso ao seu pacote, o senhor deseja garantir que o recurso no seu pacote e o recurso existente no site workspace permaneçam sincronizados. O comando bundle deployment bind
permite que o senhor os vincule. Se o senhor vincular um recurso, o recurso vinculado Databricks no workspace será atualizado com base na configuração definida no pacote no próximo bundle deploy
. Para obter uma lista de recursos que suportam bundle deployment bind
, consulte Bind a bundle recurso.
Por exemplo, o comando a seguir vincula o recurso hello_job
à sua contraparte remota no workspace. Ele solicita uma confirmação para garantir que as atualizações da configuração do trabalho no pacote sejam aplicadas ao trabalho remoto correspondente quando o pacote for implantado novamente.
databricks bundle deployment bind hello_job 6565621249
Para remover o vínculo entre um recurso de pacote e sua contraparte no site workspace, use bundle deployment unbind
. Consulte Desvincular um recurso de pacote.
databricks bundle deployment unbind 6565621249