Gerenciou as dependências Python para o pipeline.

O pipeline declarativo LakeFlow Spark oferece suporte a dependências externas em seu pipeline. Databricks recomenda o uso de um dos dois padrões a seguir para instalar o pacote Python :

Use as configurações de ambiente para adicionar pacotes ao ambiente pipeline para todos os arquivos de origem em um pipeline.
Importe módulos ou bibliotecas do código-fonte armazenado em arquivos workspace . Consulte Importar módulos Python de pastas Git ou arquivos workspace.

O pipeline também suporta o uso de scripts de inicialização com escopo global e cluster . No entanto, essas dependências externas, particularmente o script de inicialização, aumentam o risco de problemas com atualizações em tempo de execução. Para mitigar esses riscos, minimize o uso de scripts de inicialização em seu pipeline. Se o seu processamento exigir um script de inicialização, automatize os testes do seu pipeline para detectar problemas precocemente. Se você utiliza um script de inicialização, Databricks recomenda aumentar a frequência de testes.

importante

Como as bibliotecasJVM não são suportadas no pipeline, não use um init script para instalar a biblioteca JVM . No entanto, você pode instalar outros tipos de biblioteca, como a biblioteca Python , com um init script.

BibliotecaPython

Para especificar uma biblioteca Python externa, edite o ambiente do seu pipeline.

No editor de pipeline, clique em Configurações .
Em Ambiente de pipeline , selecione Editar ambiente .
Clique Adicionar dependência .
Digite o nome da dependência. O Databricks recomenda fixar a versão da biblioteca. Por exemplo, para adicionar uma dependência na versão 3.19 simplejson , digite simplejson==3.19.*.

Você também pode instalar um pacote Python wheel de um volume do Unity Catalog, especificando seu caminho, como /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.

Posso usar bibliotecas Scala ou Java em um pipeline?

Não, o pipeline suporta apenas SQL e Python. Não é possível usar a biblioteca JVM em um pipeline. A instalação da biblioteca JVM causará comportamentos imprevisíveis e poderá causar incompatibilidade com futuras versões do pipeline declarativo LakeFlow Spark . Se o seu pipeline utiliza um init script, você também deve garantir que as bibliotecas JVM não sejam instaladas pelo script.

BibliotecaPython​

Posso usar bibliotecas Scala ou Java em um pipeline?​

BibliotecaPython

Posso usar bibliotecas Scala ou Java em um pipeline?