gerenciar Python dependências para o pipeline DLT
A DLT oferece suporte a dependências externas em seu pipeline. Databricks recomenda o uso de um dos dois padrões para instalar o Python pacote:
- Use o comando
%pip install
para instalar o pacote para todos os arquivos de origem em um pipeline. - Importar módulos ou biblioteca do código-fonte armazenado em arquivos workspace. Consulte Importar módulos Python de pastas Git ou arquivos workspace.
O DLT também suporta o uso de script de inicialização global e com escopo de cluster. No entanto, essas dependências externas, especialmente o script de inicialização, aumentam o risco de problemas com atualizações de tempo de execução. Para reduzir esses riscos, minimize o uso de script de inicialização em seu pipeline. Se o seu processamento exigir um script de inicialização, automatize o teste do seu pipeline para detectar problemas antecipadamente. Se o senhor usar o script de inicialização, o site Databricks recomenda aumentar a frequência dos testes.
Como aJVM biblioteca não é compatível com o pipeline DLT, não use uma init script para instalar a JVM biblioteca. No entanto, o senhor pode instalar outros tipos de biblioteca, como a Python biblioteca, com uma init script.
Python biblioteca
Para especificar a Python biblioteca externa, use o comando mágico %pip install
. Quando uma atualização começa, a DLT executa todas as células que contêm um comando %pip install
antes de executar qualquer definição de tabela. Cada notebook Python incluído no pipeline compartilha um ambiente de biblioteca e tem acesso a todas as bibliotecas instaladas.
%pip install
O comando deve estar em uma célula separada na parte superior do seu DLT pipeline Notebook. Não inclua nenhum outro código nas células que contêm o comando%pip install
.- Como todos os Notebooks em um pipeline compartilham um ambiente de biblioteca, o senhor não pode definir diferentes versões de biblioteca em um único pipeline. Se o seu processamento exigir versões diferentes da biblioteca, o senhor deverá defini-las em pipelines diferentes.
O exemplo a seguir instala a biblioteca numpy
e a torna globalmente disponível para qualquer notebook Python no site pipeline:
%pip install simplejson
Para instalar um pacote Python wheel, adicione o caminho do Python wheel ao comando %pip install
. O pacote Python wheel instalado está disponível para todas as tabelas no pipeline. O exemplo a seguir instala um arquivo Python wheel chamado dltfns-1.0-py3-none-any.whl
a partir de um volume Unity Catalog:
%pip install /Volumes/my_catalog/my_schema/my_dlt_volume/dltfns-1.0-py3-none-any.whl
Consulte Instalar um pacote Python wheel com %pip
.
Posso usar Scala ou Java biblioteca em um DLT pipeline?
Não, a DLT suporta apenas SQL e Python. O senhor não pode usar JVM biblioteca em um pipeline. A instalação do site JVM biblioteca causará um comportamento imprevisível e poderá não funcionar com futuras versões do DLT. Se o seu pipeline usa um init script, o senhor também deve garantir que o JVM biblioteca não seja instalado pelo script.