Pular para o conteúdo principal

Configure as versões de ambiente para o pipeline.

info

Beta

As versões de ambiente para SDP estão em versão Beta.

Uma versão de ambiente define a versão da linguagem Python e o conjunto de bibliotecas Python pré-instaladas disponíveis para o código Python do seu pipeline. Quaisquer dependências externas que você adicionar ao pipeline serão sobrepostas a essa base.

As versões de ambiente desacoplam o ambiente de execução Python do seu pipeline da versão do Databricks Runtime em que o pipeline é executado. Embora uma versão de ambiente esteja definida, as atualizações Databricks Runtime não alteram a versão da linguagem Python nem as versões das bibliotecas pré-instaladas. O ambiente de execução Python também é consistente com Jobs e Notebooks serverless que usam a mesma versão de ambiente. Para encontrar a versão atual Databricks Runtime para o pipeline LakeFlow Spark Declarative, consulte Notas sobre a versão e o processo de atualização de versão do pipelineLakeFlow Spark Declarative.

importante

pipeline com execução de versão de ambiente de código Python através do Spark Connect. O Spark Connect altera o comportamento do código do pipeline. Antes de ativar uma versão de ambiente em um pipeline existente, consulte Compatibilidade de versões de ambiente para obter informações sobre limitações, alterações de comportamento, verificação de compatibilidade e fluxo de trabalho de migração.

Requisitos

As versões de ambiente têm os seguintes requisitos:

  • O pipeline deve usar o Unity Catalog. Pipelines Hive metastore não são suportados.

Versões de ambiente suportadas

O SDP é compatível com as versões de ambiente 3 e 4 , tanto em computação serverless quanto em compute clássica. Para obter informações sobre a versão da linguagem Python e a lista completa das bibliotecas Python pré-instaladas disponíveis em cada versão, consulte a referência de versão do ambiente.

Habilite uma versão de ambiente em um pipeline.

Você pode configurar uma versão de ambiente por meio da interface do editor pipeline , da API REST do pipeline ou dos Pacotes de Automação Declarativa.

Lembre-se de verificar a compatibilidade com o Spark Connect antes de ativar uma versão de ambiente em um pipeline.

Habilitar através da interface do usuário

  1. No editor de pipeline, clique em Configurações .
  2. Em Ambiente de pipeline , selecione Ícone de lápis. Editar ambiente .
  3. Selecione uma versão de ambiente na lista dropdown .
  4. Salve as configurações do pipeline.

As dependências externas adicionadas na seção Ambiente do pipeline são sobrepostas à biblioteca incluída na versão do ambiente selecionada. Consulte a documentação sobre gerenciamento de dependências Python para o pipeline.

Habilitar através da API

A API REST do pipeline aceita um bloco environment na criação e atualização pipeline . A autenticação por token de acesso pessoal deve estar habilitada para o workspace.

Para criar um pipeline com uma versão de ambiente:

Shell
curl --request POST \
--url 'https://<workspace-host>/api/2.0/pipelines' \
--header 'Authorization: Bearer <personal-access-token>' \
--header 'Content-Type: application/json' \
--data-raw '{
"name": "<pipeline-name>",
"catalog": "<catalog>",
"schema": "<schema>",
"channel": "CURRENT",
"environment": {
"environment_version": "4",
"dependencies": [
"simplejson==3.19.*"
]
}
}'

Para definir a versão do ambiente em um pipeline existente, envie o mesmo bloco environment com PUT /api/2.0/pipelines/<pipeline-id>.

Habilite através de pacotes de automação declarativa.

Ao criar um pipeline usando Declarative Automation Bundles, você pode definir uma versão de ambiente na definição YAML do pipeline.

  1. Certifique-se de que sua CLI do Databricks esteja na versão v0.294.0 ou posterior. Caso contrário, atualize seguindo o guia de instalação.
  2. Configure um pacote seguindo o tutorialde pacote de pipeline.
  3. Localize o YAML do pipeline no seu pacote, normalmente <bundle-folder>/resources/<pipeline_name>_pipeline.yml.
  4. Defina os campos environment_version e dependencies no YAML do pipeline:
YAML
resources:
pipelines:
my_pipeline:
name: my_pipeline
catalog: ${var.catalog}
schema: ${var.schema}
root_path: '../src/my_pipeline'
libraries:
- glob:
include: ../src/my_pipeline/transformations/**
environment:
environment_version: 4
dependencies:
- --editable ${workspace.file_path}

Verifique a versão do ambiente em um pipeline.

Para verificar se uma versão de ambiente está configurada em um pipeline:

  • IU : Abra as configurações pipeline e verifique a seção Ambiente do pipeline ou inspecione o painel JSON para o campo environment.environment_version .
  • API : Chame GET /api/2.0/pipelines/<pipeline-id> e procure por environment.environment_version na resposta.
  • logde eventos : Inspecione o evento create_update para o campo environment_version .

Desative a versão do ambiente em um pipeline.

Remova a versão do ambiente através da seção Ambiente do pipeline nas configurações pipeline ou remova o campo environment_version do bloco environment na definição da API ou do pacote.

Quando a versão do ambiente é removida, o pipeline retorna à sua configuração de tempo de execução Python anterior.

Veja também