Instalar bibliotecas de um repositório de pacotes

October 07, 2024

A Databricks fornece ferramentas para instalar o biblioteca a partir dos repositórios PyPI, Maven e CRAN pacote. Consulte biblioteca com escopo de clusters para obter detalhes completos sobre a compatibilidade da biblioteca.

Importante

A biblioteca pode ser instalada a partir de DBFS ao usar Databricks Runtime 14.3 LTS e abaixo. No entanto, qualquer usuário do site workspace pode modificar os arquivos de biblioteca armazenados no site DBFS. Para aumentar a segurança da biblioteca em um Databricks workspace, o armazenamento de arquivos da biblioteca no DBFS root está obsoleto e desativado pelo default em Databricks Runtime 15.1 e acima. Consulte O armazenamento de biblioteca em DBFS root está obsoleto e desativado por default.

Em vez disso, o site Databricks recomenda fazer o upload de todas as bibliotecas, incluindo Python biblioteca, JAR arquivos e Spark conectores, para workspace arquivos ou Unity Catalog volumes, ou usar biblioteca pacote repositórios. Se a sua carga de trabalho não for compatível com esses padrões, o senhor também poderá usar a biblioteca armazenada no armazenamento de objetos cloud.

pacote PyPI

  1. Na lista de botões Source da biblioteca , selecione PyPI.

  2. Insira um nome de pacote PyPI. Para instalar uma versão específica de uma biblioteca, use este formato para a biblioteca: <library>==<version>. Por exemplo, scikit-learn==0.19.1.

    Observação

    Para o Job, o site Databricks recomenda que o senhor especifique uma versão da biblioteca para garantir um ambiente reproduzível. Se a versão da biblioteca não for totalmente especificada, o Databricks usará a versão mais recente correspondente. Isso significa que diferentes execuções do mesmo trabalho podem usar diferentes versões da biblioteca à medida que novas versões são publicadas. A especificação da versão do biblioteca evita que novas alterações no biblioteca quebrem seu trabalho.

  3. (Opcional) No campo URL do índice, insira um URL de índice PyPI.

  4. Clique em Instalar.

Pacote Maven ou Spark

Importante

Para instalar bibliotecas Maven em compute configurada com modo de acesso compartilhado, você deve adicionar as coordenadas à lista de permissões. Consulte Lista de permissões de bibliotecas e init script em computecompartilhada.

Importante

Para o DBR 14.3 LTS e abaixo, a Databricks usa o Apache Ivy 2.4.0 para resolver o pacote Maven. Para o DBR 15.0 e superior, a Databricks usa o Ivy 2.5.1 ou superior e a versão específica do Ivy está listada nas notas do Databricks Runtime sobre versões e compatibilidade.

A ordem de instalação do pacote Maven pode afetar a árvore de dependência final, o que pode afetar a ordem em que o biblioteca é carregado.

  1. Na lista de botões Source da biblioteca , selecione Maven.

  2. Especifique uma coordenada Maven. Faça um dos seguintes:

    • No campo Coordenada, insira a coordenada Maven da biblioteca a ser instalada. As coordenadas do Maven estão no formato groupId:artifactId:version; por exemplo, com.databricks:spark-avro_2.10:1.0.0.

    • Se você não souber a coordenada exata, insira o nome da biblioteca e clique em Pesquisar pacotes. Uma lista de pacotes correspondentes é exibida. Para exibir detalhes sobre um pacote, clique em seu nome. Você pode classificar pacotes por nome, organização e classificação. Você também pode filtrar os resultados escrevendo uma query na barra de pesquisa. Os resultados refresh automaticamente.

      1. Selecione Maven Central ou Spark pacote na lista suspensa no canto superior esquerdo.

      2. Opcionalmente, selecione a versão do pacote na coluna Releases.

      3. Clique em + Selecionar ao lado de um pacote. O campo Coordenar é preenchido com o pacote e versão selecionados.

  3. (Opcional) No campo Repositório, você pode inserir uma URL de repositório Maven.

    Observação

    O repositório Maven interno não é compatível.

  4. No campo Exclusões , opcionalmente, forneça o groupId e o artifactId das dependências que deseja excluir (por exemplo, log4j:log4j).

    Observação

    Maven usa a versão mais próxima da raiz e, no caso de dois pacotes disputando versões com dependências diferentes, a ordem é importante, portanto, pode falhar quando o pacote com uma dependência mais antiga for carregado primeiro.

    Para contornar esse problema, use o campo Exclusions (Exclusões ) para excluir a biblioteca conflitante.

  5. Clique em Instalar.

pacote CRAN

  1. Na lista de botões Source da biblioteca , selecione CRAN.

  2. No campo Pacote, insira o nome do pacote.

  3. (Opcional) No campo Repositório, você pode inserir a URL do repositório CRAN.

  4. Clique em Instalar.

Observação

Os espelhos CRAN atendem à versão mais recente de uma biblioteca. Como resultado, você pode acabar com versões diferentes de um pacote R se anexar a biblioteca a clusters diferentes em momentos diferentes. Para saber como gerenciar e corrigir as versões do pacote R no Databricks, consulte a Base de conhecimento.