biblioteca
Para disponibilizar códigos de terceiros ou personalizados para o Notebook e o Job em execução no seu recurso compute, o senhor pode instalar uma biblioteca. biblioteca pode ser escrito em Python, Java, Scala, e R. O senhor pode acessar upload Python, Java e Scala biblioteca e apontar para pacotes externos nos repositórios PyPI, Maven e CRAN.
Databricks inclui muitas bibliotecas comuns em Databricks Runtime. Para ver quais bibliotecas estão incluídas no Databricks Runtime, consulte a subseção System Environment (Ambiente do sistema) do Databricks Runtime notas sobre a versão da sua versão do Databricks Runtime.
biblioteca com escopo de computador
O senhor pode instalar a biblioteca em um compute recurso para que ela possa ser usada por todos os notebooks e trabalhos em execução no compute. Databricks suporta Python, JAR e R biblioteca. Ver biblioteca de agrupamento.
O senhor pode instalar uma biblioteca com escopo computediretamente das seguintes fontes:
- Um repositório pacote, como PyPI, Maven, ou CRAN
- arquivos do espaço de trabalho
- Unity Catalog volumes
- Um local de armazenamento de objetos na nuvem
- Um caminho em sua máquina local
Nem todos os locais são compatíveis com todos os tipos de biblioteca ou com todas as configurações do site compute. Consulte Recomendações para upload de biblioteca para obter recomendações de configuração.
A biblioteca pode ser instalada a partir de DBFS ao usar Databricks Runtime 14.3 LTS e abaixo. No entanto, qualquer usuário do site workspace pode modificar os arquivos de biblioteca armazenados no site DBFS. Para aumentar a segurança da biblioteca em um Databricks workspace, o armazenamento de arquivos da biblioteca no DBFS root está obsoleto e desativado pelo default em Databricks Runtime 15.1 e acima. Consulte O armazenamento de biblioteca em DBFS root está obsoleto e desativado por default.
Em vez disso, o site Databricks recomenda o upload de todas as bibliotecas, incluindo Python biblioteca, JAR arquivos e Spark conectores, para workspace arquivos ou Unity Catalog volumes, ou usando repositórios de pacotes de biblioteca. Se sua carga de trabalho não for compatível com esses padrões, o senhor também poderá usar a biblioteca armazenada no armazenamento de objetos na nuvem.
Para obter informações completas sobre o suporte à biblioteca, consulte Python biblioteca support, Java e Scala biblioteca support, e R biblioteca support.
Recomendações para upload biblioteca
Databricks é compatível com a maioria das instalações de configuração de Python, JAR e R biblioteca, mas há alguns cenários sem suporte. Recomenda-se que o senhor upload biblioteca em locais de origem que ofereçam suporte à instalação em compute com o modo de acesso padrão (antigo modo de acesso compartilhado), pois esse é o modo recomendado para todas as cargas de trabalho. Consulte Modos de acesso. Ao programar o trabalho com o modo de acesso padrão, o senhor executa o trabalho com uma entidade de serviço.
Use o site compute com o modo de acesso dedicado (antigo modo de acesso de usuário único) somente se a funcionalidade necessária não for compatível com o modo de acesso padrão. O modo de acesso compartilhado sem isolamento é uma configuração herdada em Databricks que não é recomendada.
A tabela a seguir fornece recomendações organizadas por versão do Databricks Runtime e habilitação do Unity Catalog.
Configuração | Recomendação |
---|---|
Databricks Runtime 13.3 LTS e acima com Unity Catalog | Instale a biblioteca compute em com o modo de acesso padrão dos Unity Catalog volumes de com GRANT READ para os usuários necessários. Se aplicável, as coordenadas do Maven e os caminhos da biblioteca JAR precisam ser adicionados à lista de permissões. |
Databricks Runtime 11.3 LTS e acima sem Unity Catalog | Instale a biblioteca a partir dos arquivosworkspace. (O limite de tamanho do arquivo é de 500 MB.) |
Databricks Runtime 10.4 LTS e abaixo | Instalar a biblioteca a partir do armazenamento de objetos na nuvem. |
Suporte à biblioteca Python
A tabela a seguir indica a compatibilidade da versão Databricks Runtime para arquivos Python wheel para diferentes modos de acesso compute com base no local de origem da biblioteca. Databricks Runtime Consulte notas sobre as versões e modos de compatibilidade e acesso.
Em Databricks Runtime 15.0 e acima, o senhor pode usar os arquivos requirements.txt para gerenciar as dependências de Python. Esses arquivos podem ser carregados em qualquer local de origem compatível.
A instalação de arquivos Python egg só é suportada no Databricks Runtime 13.3 LTS e abaixo, e somente para modos de acesso compartilhado dedicados ou sem isolamento. Além disso, o senhor não pode instalar arquivos Python egg em volumes ou arquivos workspace. Em vez disso, use os arquivos de Python wheel ou instale o pacote de PyPI.
Modo de acesso padrão | Modo de acesso dedicado | Modo de acesso compartilhado sem isolamento (Legacy) | |
---|---|---|---|
PyPI | 13.3 LTS e acima | Todas as versões suportadas do Databricks Runtime | Todas as versões suportadas do Databricks Runtime |
arquivos do espaço de trabalho | 13.3 LTS e acima | 13.3 LTS e acima | 14.1 e acima |
Volumes | 13.3 LTS e acima | 13.3 LTS e acima | Não suportado |
Armazenamento em nuvem | 13.3 LTS e acima | Todas as versões suportadas do Databricks Runtime | Todas as versões suportadas do Databricks Runtime |
DBFS (não recomendado) | Não suportado | 14.3 e abaixo | 14.3 e abaixo |
Java e biblioteca support Scala
A tabela a seguir indica a compatibilidade da versão Databricks Runtime para arquivos JAR para diferentes modos de acesso compute com base no local de origem da biblioteca. Databricks Runtime Consulte notas sobre as versões e modos de compatibilidade e acesso.
O modo de acesso padrão requer que um administrador adicione as coordenadas e os caminhos de Maven para JAR biblioteca a um allowlist
. Consulte Allowlist biblioteca e script de inicialização em compute com o modo de acesso padrão (anteriormente, modo de acesso compartilhado).
Modo de acesso padrão | Modo de acesso dedicado | Modo de acesso compartilhado sem isolamento (Legacy) | |
---|---|---|---|
Maven | 13.3 LTS e acima | Todas as versões suportadas do Databricks Runtime | Todas as versões suportadas do Databricks Runtime |
arquivos do espaço de trabalho | Não suportado | Não suportado | 14.1 e acima |
Volumes | 13.3 LTS e acima | 13.3 LTS e acima | Não suportado |
Armazenamento em nuvem | 13.3 LTS e acima | Todas as versões suportadas do Databricks Runtime | Todas as versões suportadas do Databricks Runtime |
DBFS (não recomendado) | Não suportado | 14.3 e abaixo | 14.3 e abaixo |
Suporte à biblioteca R
A tabela a seguir indica a compatibilidade da versão Databricks Runtime com o pacote CRAN para diferentes modos de acesso compute. Databricks Runtime Consulte notas sobre as versões e modos de compatibilidade e acesso.
Modo de acesso padrão | Modo de acesso dedicado | Modo de acesso compartilhado sem isolamento (Legacy) | |
---|---|---|---|
CRAN | Não suportado | Todas as versões suportadas do Databricks Runtime | Todas as versões suportadas do Databricks Runtime |
Identidade do instalador
Quando o senhor instala uma biblioteca a partir de arquivos do espaço de trabalho ou de volumes do site Unity Catalog, uma identidade pode ser associada à instalação, dependendo do modo de acesso ao site compute. A identidade deve ter acesso de leitura ao arquivo da biblioteca.
Modo de acesso padrão | Modo de acesso dedicado | Modo de acesso compartilhado sem isolamento (Legacy) |
---|---|---|
A identidade do usuário que instala a biblioteca | A identidade do diretor dedicado | Sem identidade |
Notebook-biblioteca com escopo
Notebook-scoped biblioteca, disponível para Python e R, permite que o senhor instale o biblioteca e crie um ambiente com escopo para uma sessão do Notebook. Essas bibliotecas não afetam outros notebooks em execução no mesmo site compute. Notebook-scoped biblioteca não persistem e devem ser reinstalados para cada sessão. Use a biblioteca com escopo de Notebook quando o senhor precisar de um ambiente personalizado para um Notebook específico.
Os JARs não podem ser instalados no nível do Notebook.
workspace biblioteca foram descontinuados e não devem ser usados. Ver espaço de trabalho biblioteca (legado). No entanto, o armazenamento de biblioteca como arquivos workspace é diferente de workspace biblioteca e ainda é totalmente compatível. O senhor pode instalar a biblioteca armazenada como arquivos workspace diretamente em compute ou no Job tarefa.
Gerenciamento do ambiente Python
A tabela a seguir fornece uma visão geral das opções que você pode usar para instalar bibliotecas Python no Databricks.
Fonte do pacote Python | Notebook-Biblioteca com escopo com arquivo YAML de ambiente básico | |||
---|---|---|---|---|
PyPI | Use | Adicionar um nome de pacote PyPI a um arquivo YAML de ambiente básico. Veja o exemplo. | Selecione PyPI como a fonte. | Adicione um novo objeto |
Espelho do PyPI privado, como Nexus ou Artifactory | Use | Adicione o | Não compatível. | Não compatível. |
VCS, como GitHub, com fonte bruta | Use | Adicione um URL de repositório como um nome de pacote a um arquivo YAML de ambiente básico. Veja o exemplo. | Selecione PyPI como a fonte e especifique a URL do repositório como o nome do pacote. | Adicione um novo objeto |
VCS privado com fonte bruta | Use | Adicione um repositório com autenticação básica como o nome do pacote a um arquivo YAML de ambiente básico. Veja o exemplo. | Não compatível. | Não compatível. |
Caminho do arquivo | Use | Adicione um caminho de arquivo como um nome de pacote a um arquivo YAML de ambiente básico. Veja o exemplo. | Selecione File path/S3 como a fonte. | Adicione um novo objeto |
S3 | Utilize o | Adicione um URL pré-assinado como um nome de pacote a um arquivo YAML de ambiente básico. Não há suporte para caminhos com o protocolo S3 | Selecione File path/S3 como a fonte. | Adicione um novo objeto |
Precedência da biblioteca Python
O senhor pode se deparar com uma situação em que precise substituir a versão de uma biblioteca integrada ou ter uma biblioteca personalizada que entre em conflito no nome com outra biblioteca instalada no site compute recurso. Quando o senhor executa import <library>
, a biblioteca com a precedência mais alta é importada.
As bibliotecas armazenadas nos arquivos workspace têm precedência diferente, dependendo de como são adicionadas ao Python sys.path
. Uma pasta Databricks Git adiciona o diretório de trabalho atual ao caminho antes de todas as outras bibliotecas, enquanto as pastas Notebook fora de Git adicionam o diretório de trabalho atual após a instalação de outras bibliotecas. Se o senhor anexar manualmente os diretórios workspace ao seu caminho, eles sempre terão a precedência mais baixa.
A lista a seguir ordena a prioridade da mais alta para a mais baixa. Nesta lista, um número menor significa maior prioridade.
-
biblioteca no diretório de trabalho atual (somente nas pastasGit ).
-
biblioteca no diretório raiz da pasta Git (somente nas pastasGit ).
-
Bibliotecas com escopo de notebooks (em cadernos)
%pip install
. -
biblioteca com escopo de computação (usando a UI, CLI ou API).
-
Bibliotecas incluídas no Databricks Runtime.
- As bibliotecas instaladas com init script podem ser resolvidas antes ou depois das bibliotecas internas, dependendo de como foram instaladas. O Databricks não recomenda a instalação de bibliotecas com init scripts.
-
biblioteca no diretório de trabalho atual (não nas pastas Git ).
-
Arquivos do workspace adicionados ao
sys.path
.