gerenciar dependências Python para pipeline declarativo LakeFlow
O pipeline declarativo LakeFlow oferece suporte a dependências externas no seu pipeline. Databricks recomenda usar um dos dois padrões para instalar o pacote Python :
- Use as configurações de ambiente para adicionar pacotes ao ambiente pipeline para todos os arquivos de origem em um pipeline.
- Importe módulos ou bibliotecas do código-fonte armazenado em arquivos workspace . Consulte Importar módulos Python de pastas Git ou arquivos workspace.
O pipeline declarativo LakeFlow também oferece suporte ao uso de scripts de inicialização globais e com escopo de cluster . No entanto, essas dependências externas, particularmente o script init, aumentam o risco de problemas com atualizações de tempo de execução. Para mitigar esses riscos, minimize o uso do script init no seu pipeline. Se o seu processamento exigir um script de inicialização, automatize os testes do seu pipeline para detectar problemas antecipadamente. Se você usar o script init, Databricks recomenda aumentar a frequência dos testes.
Como as bibliotecasJVM não são suportadas no pipeline declarativo LakeFlow , não use um init script para instalar as bibliotecas JVM . No entanto, você pode instalar outros tipos de biblioteca, como a biblioteca Python , com um init script.
BibliotecaPython
Para especificar uma biblioteca Python externa, edite o ambiente do seu pipeline.
- No editor de pipeline, clique em Configurações .
- Em Ambiente de pipeline , selecione
Editar ambiente .
- Clique
Adicionar dependência .
- Digite o nome da dependência. O Databricks recomenda fixar a versão da biblioteca. Por exemplo, para adicionar uma dependência na versão 3.19
simplejson
, digitesimplejson==3.19.*
.
Você também pode instalar um pacote Python wheel de um volume do Unity Catalog, especificando seu caminho, como /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl
.
Posso usar bibliotecas Scala ou Java no pipeline declarativo LakeFlow ?
Não, o pipeline declarativo LakeFlow suporta apenas SQL e Python. Você não pode usar biblioteca JVM em um pipeline. A instalação da biblioteca JVM causará um comportamento imprevisível e poderá interromper versões futuras do pipeline declarativo LakeFlow . Se o seu pipeline usar um init script, você também deverá garantir que as bibliotecas JVM não sejam instaladas pelo script.