Pular para o conteúdo principal

Pacotes de autores no workspace

Databricks Os pacotes ativos podem ser criados e modificados diretamente no site workspace.

Para saber os requisitos para o uso de pacotes no site workspace, consulte Databricks ativo Bundles in the workspace requirements.

Para obter mais informações sobre pacotes, consulte What are Databricks ativo Bundles?

Crie um pacote

Para criar um pacote no site Databricks workspace:

  1. Navegue até a pasta Git onde deseja criar o pacote.

  2. Clique no botão Create e, em seguida, clique em ativo bundle . Como alternativa, clique com o botão direito do mouse na pasta Git ou em seu kebab associado na árvore workspace e clique em Create > ativo bundle :

    Criar um pacote ativo

  3. Na caixa de diálogo Create an ativo bundle (Criar um pacote ativo ), dê um nome ao pacote ativo, como totally-awesome-bundle (pacote totalmente incrível) . O nome do pacote só pode conter letras, números, traços e sublinhado.

  4. No padrão , escolha se o senhor deseja criar um pacote vazio, um pacote que executa uma amostra do Python Notebook ou um pacote que executa o SQL. Se o EditorLakeFlow Pipelines estiver ativado, o senhor também verá uma opção para criar um projeto ETL pipeline .

    Criar nova caixa de diálogo do pacote ativo

  5. Alguns padrões exigem configuração adicional. Clique em Avançar para finalizar a configuração do projeto.

Template

Opções de configuração

Pipelines Declarativos do LakeFlow

  • catálogo padrão a ser usado para os dados pipeline
  • Use um esquema pessoal (recomendado) para cada usuário que colabora neste pacote
  • Idioma inicial para os arquivos de código no pipeline

padrão Python

  • Incluir um exemplo de Notebook
  • Incluir um pipeline de amostra
  • Incluir um pacote Python de amostra
  • Use serverless compute

padrão SQL

  • SQL warehouse caminho
  • Catálogo inicial
  • Use um esquema pessoal
  • Esquema inicial durante o desenvolvimento
  1. Clique em Create and implantado .

Isso cria um pacote inicial na pasta Git, que inclui os arquivos do projeto padrão que o senhor selecionou, um arquivo de configuração .gitignore Git e o arquivo Databricks ativo Bundles databricks.yml necessário. O arquivo databricks.yml contém a configuração principal do pacote. Para obter detalhes, consulte Databricks ativo Bundle configuration.

🆕

Todas as alterações feitas nos arquivos do pacote podem ser sincronizadas com o repositório remoto associado à pasta Git. Uma pasta Git pode conter muitos pacotes.

Adicionar novos arquivos a um pacote

Um pacote contém o arquivo databricks.yml que define as configurações de implantação e workspace, arquivos de origem, como Notebook, arquivos Python e arquivos de teste, e definições e configurações para Databricks recurso, como LakeFlow Jobs e LakeFlow Declarative pipeline. Como em qualquer pasta workspace, o senhor pode adicionar novos arquivos ao seu pacote.

dica

Para abrir um novo tab no pacote view que permite modificar os arquivos do pacote, navegue até a pasta do pacote em workspace e clique em Open in editor (Abrir no editor ) à direita do nome do pacote.

Adicionar arquivos de código-fonte

Para adicionar um novo Notebook ou outros arquivos a um pacote na interface do usuário do workspace, navegue até a pasta do pacote e, em seguida, clique em

  • Clique em Create (Criar ) no canto superior direito e escolha um dos seguintes tipos de arquivo para adicionar ao seu pacote: Notebook, File (Arquivo), Query (Consulta), Dashboard (Painel).
  • Como alternativa, clique no kebab à esquerda de Compartilhar e importe um arquivo.
nota

Para que o arquivo faça parte da implementação do pacote, depois de adicionar um arquivo à pasta do pacote, o senhor deve adicioná-lo à configuração do pacote databricks.yml ou criar um arquivo de definição de trabalho ou pipeline que o inclua. Consulte Adicionar um recurso existente a um pacote.

Adicionar uma definição de trabalho

Os pacotes contêm definições de recursos, como Job e pipeline, a serem incluídos em uma implementação. Essas definições são especificadas em YAML ou Python, e o senhor pode criar e editar essas configurações diretamente na interface do usuário.

Para criar um arquivo de configuração de pacote que define um trabalho:

  1. Navegue até a pasta do pacote no site workspace onde o senhor deseja definir um novo trabalho.
dica

Se o senhor já tiver aberto o pacote no editor em workspace, poderá usar a lista de contextos de criação do navegador workspace para navegar até a pasta do pacote. Consulte Contextos de criação.

  1. À direita do nome do pacote, clique em Open in editor (Abrir no editor ) para navegar até o editor de pacotes view.

  2. Clique no ícone de implantação do pacote para alternar para o painel Implantações.

    Ícone do painel de implantações

  3. Na seção Bundle recurso , clique em Adicionar e depois em Nova definição de trabalho .

    Criar definição de trabalho

  4. Digite um nome para o trabalho no campo Job name da caixa de diálogo Create Job definition (Criar definição de trabalho ). Clique em Criar .

  5. Adicione YAML ao arquivo de definição de trabalho que foi criado. O exemplo YAML a seguir define um Job para executar um Notebook:

    YAML
    resources:
    jobs:
    run_notebook:
    name: run-notebook
    queue:
    enabled: true
    tasks:
    - task_key: my-notebook-task
    notebook_task:
    notebook_path: ../helloworld.ipynb

Para obter detalhes sobre a definição de um trabalho em YAML, consulte Trabalho. Para obter a sintaxe YAML de outros tipos de tarefa de trabalho compatíveis, consulte Adicionar tarefa ao trabalho em Databricks ativo Bundles.

Adicionar um pipeline

Para adicionar um pipeline ao seu pacote:

  1. Navegue até a pasta do pacote no site workspace onde o senhor deseja definir um novo pipeline.
dica

Se o senhor tiver aberto anteriormente o pacote no editor em workspace, poderá usar o menu de contextos de criação do navegador workspace para navegar até a pasta do pacote. Consulte Contextos de criação.

  1. À direita do nome do pacote, clique em Open in editor (Abrir no editor ) para navegar até o editor de pacotes view.

  2. Clique no ícone de implantação do pacote para alternar para o painel Implantações.

    Ícone do painel de implantações

  3. Na seção Bundle recurso , clique em Adicionar e , em seguida, em Nova definição pipeline ou Novo pipeline ETL se você tiver habilitado o LakeFlow Pipelines Editor no seu workspace. A experiência de criação de pipeline é diferente para essas duas opções.

Criar definição de pipeline

Se você selecionou Nova definição pipeline no menu de criação de recursos do pacote:

  1. Digite um nome para o pipeline no campo de nome do pipeline da caixa de diálogo Adicionar pipeline ao pacote existente .
  2. Clique em Adicionar e instalado .

Para um pipeline com o nome test_pipeline que executa um Notebook, o YAML a seguir é criado em um arquivo test_pipeline.pipeline.yml:

YAML
resources:
pipelines:
test_pipeline:
name: test_pipeline
libraries:
- notebook:
path: ../test_pipeline.ipynb
serverless: true
catalog: main
target: test_pipeline_${bundle.environment}

Você pode modificar a configuração para executar um Notebook existente. Para obter detalhes sobre como definir um pipeline em YAML, consulte pipeline.

Criar pipeline de ETL

Se você selecionou Novo pipeline ETL no menu de criação de recursos do pacote:

  1. Digite um nome para o pipeline no campo Nome da caixa de diálogo Adicionar pipeline ao pacote existente . O nome deve ser único dentro do workspace.

  2. No campo Usar esquema pessoal , selecione Sim para cenários de desenvolvimento e Não para cenários de produção.

  3. Selecione um catálogo padrão e um esquema padrão para o site pipeline.

  4. Escolha um idioma para o código-fonte do pipeline.

  5. Clique em Adicionar e instalado .

    Criar uma caixa de diálogo de pipeline de ETL

  6. Revise os detalhes na caixa de diálogo de confirmação de instalado para desenvolvimento e clique em instalado .

Um site ETL pipeline é criado com exemplos de tabelas de exploração e transformações.

ETL pipeline em um pacote no workspace

Para um pipeline com o nome rad_pipeline, o seguinte YAML é criado em um arquivo rad_pipeline.pipeline.yml. Este pipeline está configurado para ser executado em serverless compute.

YAML
resources:
pipelines:
rad_pipeline:
name: rad_pipeline
libraries:
- glob:
include: transformations/**
serverless: true
catalog: main
schema: ${workspace.current_user.short_name}
root_path: .

Adicionar um recurso existente a um pacote

O senhor pode adicionar recursos existentes, como o pipeline, e também ativos, como o Notebook e outros arquivos de origem, ao seu pacote. No entanto, você deve defini-las na configuração do pacote para incluí-las na implantação do pacote. O exemplo a seguir adiciona um pipeline existente a um pacote.

Supondo que o senhor tenha um pipeline chamado taxifilter que executa o taxifilter.ipynb Notebook em seu workspace compartilhado:

  1. Na barra lateral do site Databricks workspace, clique em Jobs & pipeline .

  2. Opcionalmente, selecione os filtros pipeline e Owned by me .

  3. Selecione o pipeline taxifilter existente.

  4. Na página do pipeline, clique no botão à esquerda do botão Modo de implantação de desenvolvimento . Em seguida, clique em view settings YAML .

  5. Clique no ícone de cópia para copiar a configuração do pacote para o pipeline.

  6. Navegue até seu pacote no espaço de trabalho .

  7. Clique no ícone de implantação do pacote para alternar para o painel Implantações.

  8. Na seção Bundle recurso , clique em Adicionar e depois em Nova definição pipeline .

nota

Se, em vez disso, você vir um item de menu Novo pipeline ETL , então o EditorLakeFlow Pipelines está habilitado. Para adicionar um pipeline ETL a um pacote, consulte Criar um pipeline controlado por origem.

  1. Digite taxifilter no campo de nome do pipeline da caixa de diálogo Adicionar pipeline ao pacote existente . Clique em Criar .

  2. Cole a configuração do pipeline existente no arquivo. Este exemplo pipeline é definido para executar o taxifilter Notebook:

    YAML
    resources:
    pipelines:
    taxifilter:
    name: taxifilter
    catalog: main
    libraries:
    - notebook:
    path: /Workspace/Shared/taxifilter.ipynb
    target: taxifilter_${bundle.environment}

Agora, o senhor pode implantar o pacote e, em seguida, executar o recurso pipeline por meio da UI.