Instalar o biblioteca a partir de um repositório pacote
Databricks fornece ferramentas para instalar a biblioteca dos repositórios de pacotes PyPI, Maven e CRAN. Consulte biblioteca com escopo de computação para obter detalhes completos sobre a compatibilidade da biblioteca.
A biblioteca pode ser instalada a partir de DBFS ao usar Databricks Runtime 14.3 LTS e abaixo. No entanto, qualquer usuário do site workspace pode modificar os arquivos de biblioteca armazenados no site DBFS. Para aumentar a segurança da biblioteca em um Databricks workspace, o armazenamento de arquivos da biblioteca no DBFS root está obsoleto e desativado pelo default em Databricks Runtime 15.1 e acima. Consulte O armazenamento de biblioteca em DBFS root está obsoleto e desativado por default.
Em vez disso, o site Databricks recomenda o upload de todas as bibliotecas, incluindo Python biblioteca, JAR arquivos e Spark conectores, para workspace arquivos ou Unity Catalog volumes, ou usando repositórios de pacotes de biblioteca. Se sua carga de trabalho não for compatível com esses padrões, o senhor também poderá usar a biblioteca armazenada no armazenamento de objetos na nuvem.
PyPI pacote
-
Na lista do botão Library Source (Fonte da biblioteca ), selecione PyPI .
-
Digite um nome de pacote PyPI. Para instalar uma versão específica de uma biblioteca, use este formato para a biblioteca:
<library>==<version>
. Por exemplo,scikit-learn==0.19.1
.
Para o Job, o site Databricks recomenda que o senhor especifique uma versão da biblioteca para garantir um ambiente reproduzível. Se a versão da biblioteca não for totalmente especificada, o Databricks usará a versão mais recente correspondente. Isso significa que diferentes execuções do mesmo trabalho podem usar diferentes versões da biblioteca à medida que novas versões são publicadas. A especificação da versão do biblioteca evita que novas alterações no biblioteca interrompam seu trabalho.
-
(Opcional) No campo Index URL (URL de índice), digite um URL de índice do PyPI.
-
Clique em Instalar .
Maven ou pacote Spark
Para instalar a Maven biblioteca em compute configurada com o modo de acesso padrão (anteriormente modo de acesso compartilhado), o senhor deve adicionar as coordenadas à lista de permissões. Consulte Allowlist biblioteca e script de inicialização em compute com o modo de acesso padrão (anteriormente, modo de acesso compartilhado).
Para o DBR 14.3 LTS e abaixo, Databricks usa Apache Ivy 2.4.0 para resolver Maven pacote. Para o DBR 15.0 e superiores, o site Databricks usa o Ivy 2.5.1 ou superior e a versão específica do Ivy está listada em Databricks Runtime notas sobre versões e compatibilidade.
A ordem de instalação do Maven pacote pode afetar a árvore de dependência final, o que pode afetar a ordem em que o biblioteca é carregado.
-
Na lista do botão Biblioteca Source , selecione Maven .
-
Especifique uma coordenada Maven. Siga um destes procedimentos:
- No campo Coordinate (Coordenada), digite a coordenada Maven da biblioteca a ser instalada. As coordenadas do Maven estão no formato
groupId:artifactId:version
; por exemplo,com.databricks:spark-avro_2.10:1.0.0
. - Se o senhor não souber a coordenada exata, digite o nome da biblioteca e clique em Search pacote . Uma lista de pacotes correspondentes é exibida. Para exibir detalhes sobre um pacote, clique em seu nome. O senhor pode classificar o pacote por nome, organização e classificação. Você também pode filtrar os resultados escrevendo uma consulta na barra de pesquisa. Os resultados refresh automaticamente.
- Selecione Maven Central ou Spark pacote na lista suspensa no canto superior esquerdo.
- Opcionalmente, selecione a versão do pacote na coluna Releases.
- Clique em + Select ao lado de um pacote. O campo Coordinate (Coordenada) é preenchido com o pacote e a versão selecionados.
- No campo Coordinate (Coordenada), digite a coordenada Maven da biblioteca a ser instalada. As coordenadas do Maven estão no formato
-
(Opcional) No campo Repositório, o senhor pode inserir um URL do repositório Maven.
Os repositórios internos do Maven não são compatíveis.
- No campo Exclusões , forneça opcionalmente o
groupId
e oartifactId
das dependências que você deseja excluir (por exemplo,log4j:log4j
).
Maven usa a versão mais próxima da raiz e, no caso de dois pacotes disputando versões com dependências diferentes, a ordem é importante, portanto, pode falhar quando o pacote com uma dependência mais antiga for carregado primeiro.
Para contornar esse problema, use o campo Exclusions (Exclusões ) para excluir a biblioteca conflitante.
- Clique em Instalar .
CRAN pacote
- Na lista de botões Library Source (Fonte da biblioteca ), selecione CRAN .
- No campo pacote, digite o nome do pacote.
- (Opcional) No campo Repositório, o senhor pode inserir o URL do repositório CRAN.
- Clique em Instalar .
Os espelhos do CRAN fornecem a versão mais recente de uma biblioteca. Como resultado, o senhor pode acabar com versões diferentes de um pacote R se anexar a biblioteca a diferentes clusters em momentos diferentes. Para saber como gerenciar e corrigir versões de pacotes do R em Databricks, consulte a Base de Conhecimento.