Gerenciou as dependências Python para o pipeline.
O pipeline declarativo LakeFlow Spark oferece suporte a dependências externas em seu pipeline. Databricks recomenda o uso de um dos dois padrões a seguir para instalar o pacote Python :
- Use as configurações de ambiente para adicionar pacotes ao ambiente pipeline para todos os arquivos de origem em um pipeline.
- Importe módulos ou bibliotecas do código-fonte armazenado em arquivos workspace . Consulte Importar módulos Python de pastas Git ou arquivos workspace.
Pipelines que usam compute clássico também oferecem suporte a init scripts com escopo de cluster. serverless LakeFlow Spark Declarative Pipelines não oferece suporte a init scripts. Em todos os casos, a Databricks recomenda usar as configurações de **Environment** em vez de init scripts, porque as dependências externas, particularmente os init scripts, aumentam o risco de problemas com atualizações de tempo de execução. Se o processamento exigir init scripts, automatize o teste do seu pipeline para detectar problemas precocemente, e a Databricks recomenda aumentar a frequência dos seus testes.
Porque as bibliotecas JVM não são suportadas em pipelines, não utilize um init script para instalar bibliotecas JVM. No entanto, você pode instalar outros tipos de biblioteca, como bibliotecas Python, com um init script.
BibliotecaPython
Para especificar uma biblioteca Python externa, edite o ambiente do seu pipeline.
- No editor de pipeline, clique em Configurações .
- Em Ambiente de pipeline , selecione
Editar ambiente .
- Clique
Adicionar dependência .
- Digite o nome da dependência. O Databricks recomenda fixar a versão da biblioteca. Por exemplo, para adicionar uma dependência na versão 3.19
simplejson, digitesimplejson==3.19.*.
Você também pode instalar um pacote Python wheel de um volume do Unity Catalog, especificando seu caminho, como /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.
Pipelines não oferecem suporte à reinicialização manual do processo do Python com dbutils.library.restartPython(). Declare todas as dependências do Python nas configurações de **Ambiente**, em vez de instalá-las ou recarregá-las em tempo de execução. Usar as configurações do Ambiente também permite que os pipelines reutilizem bibliotecas em cache entre execuções, em vez de reinstalá-las em cada execução.
Versão do ambiente
Por default, a versão da linguagem Python e o conjunto de bibliotecas pré-instaladas disponíveis para seu pipeline vêm da versão atual Databricks Runtime Canal. Consulte as notas sobre a versão e o processo de atualização de versão do pipeline declarativo doLakeFlow Spark para obter as versões atuais e as listas de pacotes por tempo de execução.
Beta
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.
Para pin a versão da linguagem Python e o conjunto de bibliotecas pré-instaladas independentemente das atualizações Databricks Runtime , configure uma versão de ambiente no pipeline. Embora uma versão de ambiente esteja definida, as atualizações Databricks Runtime não alteram a versão da linguagem Python nem as versões das bibliotecas pré-instaladas, e quaisquer dependências externas adicionadas por meio das configurações de ambiente são aplicadas sobre essa base. Consulte Configurar versões de ambiente para o pipeline.
Suporte para bibliotecas Scala e Java
Não, o pipeline suporta apenas SQL e Python. Não é possível usar a biblioteca JVM em um pipeline. A instalação da biblioteca JVM causa comportamentos imprevisíveis e pode causar problemas com futuras versões do pipeline declarativo LakeFlow Spark . Se o seu pipeline utiliza um init script, você também deve garantir que as bibliotecas JVM não sejam instaladas pelo script.