Pular para o conteúdo principal

gerenciar dependências Python para pipeline declarativo LakeFlow

O pipeline declarativo LakeFlow oferece suporte a dependências externas no seu pipeline. Databricks recomenda usar um dos dois padrões para instalar o pacote Python :

  1. Use as configurações de ambiente para adicionar pacotes ao ambiente pipeline para todos os arquivos de origem em um pipeline.
  2. Importe módulos ou bibliotecas do código-fonte armazenado em arquivos workspace . Consulte Importar módulos Python de pastas Git ou arquivos workspace.

O pipeline declarativo LakeFlow também oferece suporte ao uso de scripts de inicialização globais e com escopo de cluster . No entanto, essas dependências externas, particularmente o script init, aumentam o risco de problemas com atualizações de tempo de execução. Para mitigar esses riscos, minimize o uso do script init no seu pipeline. Se o seu processamento exigir um script de inicialização, automatize os testes do seu pipeline para detectar problemas antecipadamente. Se você usar o script init, Databricks recomenda aumentar a frequência dos testes.

important

Como as bibliotecasJVM não são suportadas no pipeline declarativo LakeFlow , não use um init script para instalar as bibliotecas JVM . No entanto, você pode instalar outros tipos de biblioteca, como a biblioteca Python , com um init script.

BibliotecaPython

Para especificar uma biblioteca Python externa, edite o ambiente do seu pipeline.

  1. No editor de pipeline, clique em Configurações .
  2. Em Ambiente de pipeline , selecione Ícone de lápis. Editar ambiente .
  3. Clique Ícone de mais. Adicionar dependência .
  4. Digite o nome da dependência. O Databricks recomenda fixar a versão da biblioteca. Por exemplo, para adicionar uma dependência na versão 3.19 simplejson , digite simplejson==3.19.*.

Você também pode instalar um pacote Python wheel de um volume do Unity Catalog, especificando seu caminho, como /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.

Posso usar bibliotecas Scala ou Java no pipeline declarativo LakeFlow ?

Não, o pipeline declarativo LakeFlow suporta apenas SQL e Python. Você não pode usar biblioteca JVM em um pipeline. A instalação da biblioteca JVM causará um comportamento imprevisível e poderá interromper versões futuras do pipeline declarativo LakeFlow . Se o seu pipeline usar um init script, você também deverá garantir que as bibliotecas JVM não sejam instaladas pelo script.