Pular para o conteúdo principal

Instalar o biblioteca a partir de um repositório pacote

Databricks fornece ferramentas para instalar a biblioteca dos repositórios de pacotes PyPI, Maven e CRAN. Consulte biblioteca com escopo de computação para obter detalhes completos sobre a compatibilidade da biblioteca.

important

A biblioteca pode ser instalada a partir de DBFS ao usar Databricks Runtime 14.3 LTS e abaixo. No entanto, qualquer usuário do site workspace pode modificar os arquivos de biblioteca armazenados no site DBFS. Para aumentar a segurança da biblioteca em um Databricks workspace, o armazenamento de arquivos da biblioteca no DBFS root está obsoleto e desativado pelo default em Databricks Runtime 15.1 e acima. Consulte O armazenamento de biblioteca em DBFS root está obsoleto e desativado por default.

Em vez disso, o site Databricks recomenda o upload de todas as bibliotecas, incluindo Python biblioteca, JAR arquivos e Spark conectores, para workspace arquivos ou Unity Catalog volumes, ou usando repositórios de pacotes de biblioteca. Se sua carga de trabalho não for compatível com esses padrões, o senhor também poderá usar a biblioteca armazenada no armazenamento de objetos na nuvem.

PyPI pacote

  1. Na lista do botão Library Source (Fonte da biblioteca ), selecione PyPI .

  2. Digite um nome de pacote PyPI. Para instalar uma versão específica de uma biblioteca, use este formato para a biblioteca: <library>==<version>. Por exemplo, scikit-learn==0.19.1.

nota

Para o Job, o site Databricks recomenda que o senhor especifique uma versão da biblioteca para garantir um ambiente reproduzível. Se a versão da biblioteca não for totalmente especificada, o Databricks usará a versão mais recente correspondente. Isso significa que diferentes execuções do mesmo trabalho podem usar diferentes versões da biblioteca à medida que novas versões são publicadas. A especificação da versão do biblioteca evita que novas alterações no biblioteca interrompam seu trabalho.

  1. (Opcional) No campo Index URL (URL de índice), digite um URL de índice do PyPI.

  2. Clique em Instalar .

Maven ou pacote Spark

important

Para instalar a Maven biblioteca em compute configurada com o modo de acesso padrão (anteriormente modo de acesso compartilhado), o senhor deve adicionar as coordenadas à lista de permissões. Consulte Allowlist biblioteca e script de inicialização em compute com o modo de acesso padrão (anteriormente, modo de acesso compartilhado).

important

Para o DBR 14.3 LTS e abaixo, Databricks usa Apache Ivy 2.4.0 para resolver Maven pacote. Para o DBR 15.0 e superiores, o site Databricks usa o Ivy 2.5.1 ou superior e a versão específica do Ivy está listada em Databricks Runtime notas sobre versões e compatibilidade.

A ordem de instalação do Maven pacote pode afetar a árvore de dependência final, o que pode afetar a ordem em que o biblioteca é carregado.

  1. Na lista do botão Biblioteca Source , selecione Maven .

  2. Especifique uma coordenada Maven. Siga um destes procedimentos:

    • No campo Coordinate (Coordenada), digite a coordenada Maven da biblioteca a ser instalada. As coordenadas do Maven estão no formato groupId:artifactId:version; por exemplo, com.databricks:spark-avro_2.10:1.0.0.
    • Se o senhor não souber a coordenada exata, digite o nome da biblioteca e clique em Search pacote . Uma lista de pacotes correspondentes é exibida. Para exibir detalhes sobre um pacote, clique em seu nome. O senhor pode classificar o pacote por nome, organização e classificação. Você também pode filtrar os resultados escrevendo uma consulta na barra de pesquisa. Os resultados refresh automaticamente.
      1. Selecione Maven Central ou Spark pacote na lista suspensa no canto superior esquerdo.
      2. Opcionalmente, selecione a versão do pacote na coluna Releases.
      3. Clique em + Select ao lado de um pacote. O campo Coordinate (Coordenada) é preenchido com o pacote e a versão selecionados.
  3. (Opcional) No campo Repositório, o senhor pode inserir um URL do repositório Maven.

nota

Os repositórios internos do Maven não são compatíveis.

  1. No campo Exclusões , forneça opcionalmente o groupId e o artifactId das dependências que você deseja excluir (por exemplo, log4j:log4j).
nota

Maven usa a versão mais próxima da raiz e, no caso de dois pacotes disputando versões com dependências diferentes, a ordem é importante, portanto, pode falhar quando o pacote com uma dependência mais antiga for carregado primeiro.

Para contornar esse problema, use o campo Exclusions (Exclusões ) para excluir a biblioteca conflitante.

  1. Clique em Instalar .

CRAN pacote

  1. Na lista de botões Library Source (Fonte da biblioteca ), selecione CRAN .
  2. No campo pacote, digite o nome do pacote.
  3. (Opcional) No campo Repositório, o senhor pode inserir o URL do repositório CRAN.
  4. Clique em Instalar .
nota

Os espelhos do CRAN fornecem a versão mais recente de uma biblioteca. Como resultado, o senhor pode acabar com versões diferentes de um pacote R se anexar a biblioteca a diferentes clusters em momentos diferentes. Para saber como gerenciar e corrigir versões de pacotes do R em Databricks, consulte a Base de Conhecimento.