Gerenciou as dependências Python para o pipeline.
O pipeline declarativo LakeFlow Spark oferece suporte a dependências externas em seu pipeline. Databricks recomenda o uso de um dos dois padrões a seguir para instalar o pacote Python :
- Use as configurações de ambiente para adicionar pacotes ao ambiente pipeline para todos os arquivos de origem em um pipeline.
- Importe módulos ou bibliotecas do código-fonte armazenado em arquivos workspace . Consulte Importar módulos Python de pastas Git ou arquivos workspace.
O pipeline também suporta o uso de scripts de inicialização com escopo global e cluster . No entanto, essas dependências externas, particularmente o script de inicialização, aumentam o risco de problemas com atualizações em tempo de execução. Para mitigar esses riscos, minimize o uso de scripts de inicialização em seu pipeline. Se o seu processamento exigir um script de inicialização, automatize os testes do seu pipeline para detectar problemas precocemente. Se você utiliza um script de inicialização, Databricks recomenda aumentar a frequência de testes.
Como as bibliotecasJVM não são suportadas no pipeline, não use um init script para instalar a biblioteca JVM . No entanto, você pode instalar outros tipos de biblioteca, como a biblioteca Python , com um init script.
BibliotecaPython
Para especificar uma biblioteca Python externa, edite o ambiente do seu pipeline.
- No editor de pipeline, clique em Configurações .
- Em Ambiente de pipeline , selecione
Editar ambiente .
- Clique
Adicionar dependência .
- Digite o nome da dependência. O Databricks recomenda fixar a versão da biblioteca. Por exemplo, para adicionar uma dependência na versão 3.19
simplejson, digitesimplejson==3.19.*.
Você também pode instalar um pacote Python wheel de um volume do Unity Catalog, especificando seu caminho, como /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.
Posso usar bibliotecas Scala ou Java em um pipeline?
Não, o pipeline suporta apenas SQL e Python. Não é possível usar a biblioteca JVM em um pipeline. A instalação da biblioteca JVM causará comportamentos imprevisíveis e poderá causar incompatibilidade com futuras versões do pipeline declarativo LakeFlow Spark . Se o seu pipeline utiliza um init script, você também deve garantir que as bibliotecas JVM não sejam instaladas pelo script.