Instalar bibliotecas do armazenamento de objetos

Este artigo orienta você pelas passos necessárias para instalar bibliotecas do armazenamento de objetos cloud no Databricks.

Observação

Este artigo refere-se ao armazenamento de objetos clouds como um conceito geral e pressupõe que você está interagindo diretamente com dados armazenados no armazenamento de objetos usando URIs. A Databricks recomenda o uso de volumes Unity Catalog para configurar o acesso a arquivos no armazenamento de objetos clouds . Consulte Criar e trabalhar com volumes.

O senhor pode armazenar JARs personalizados e Python Whl biblioteca no armazenamento de objetos em nuvens, em vez de armazená-los no site DBFS root. Consulte biblioteca com escopo de clusters para obter detalhes completos sobre a compatibilidade da biblioteca.

Importante

A biblioteca pode ser instalada a partir do DBFS ao usar o Databricks Runtime 14.3 LTS e o abaixo. No entanto, qualquer usuário do site workspace pode modificar os arquivos de biblioteca armazenados no DBFS. Para melhorar a segurança das bibliotecas em um Databricks workspace, o armazenamento de arquivos de biblioteca no DBFS root está obsoleto e desativado pelo default no Databricks Runtime 15.0 e acima. Consulte O armazenamento de biblioteca em DBFS root está obsoleto e desativado por default.

Em vez disso, a Databricks recomenda fazer o upload da biblioteca para arquivos workspace ou volumes do Unity Catalog, ou usar repositórios de pacotes de biblioteca. Se sua carga de trabalho não for compatível com esses padrões, o senhor também poderá usar a biblioteca armazenada no armazenamento de objetos em nuvens.

Carregar bibliotecas para armazenamento de objetos

Você pode carregar bibliotecas para o armazenamento de objetos da mesma forma que carrega outros arquivos. Você deve ter permissões adequadas em seu provedor cloud para criar novos contêineres de armazenamento de objetos ou carregar arquivos no armazenamento de objetos cloud .

Conceder permissões somente leitura para armazenamento de objetos

Databricks recomenda configurar todos os privilégios relacionados à instalação da biblioteca com permissões somente leitura.

O Databricks permite atribuir permissões de segurança a clusters individuais que controlam o acesso aos dados no armazenamento de objetos cloud . Essas políticas podem ser expandidas para adicionar acesso somente leitura ao armazenamento de objetos cloud que contém bibliotecas.

Observação

No Databricks Runtime 13.2 e abaixo, não é possível carregar bibliotecas JAR ao usar clusters com modos de acesso compartilhado. No Databricks Runtime 13.3 e acima, você deve adicionar bibliotecas JAR à lista de permissões do Unity Catalog . Consulte Lista de permissões de bibliotecas e init script em computecompartilhada.

Databricks recomenda usar instance profile para gerenciar o acesso às bibliotecas armazenadas no S3. Use a seguinte documentação no link de referência cruzada para concluir esta configuração:

  1. Crie uma IAM role com permissões de leitura e lista nos buckets desejados. Consulte Tutorial: Configurar o acesso ao S3 com um instance profile.

  2. Inicie clusters com o instance profile. Consulte instance profile.

Instalar bibliotecas em clusters

Para instalar uma biblioteca armazenada no armazenamento de objetos cloud em clusters, conclua as passos a seguir:

  1. Selecione um cluster na lista na IU de clusters.

  2. Selecione a tab biblioteca .

  3. Selecione a opção Caminho do arquivo/S3 .

  4. Forneça o caminho completo do URI para o objeto da biblioteca (por exemplo, s3://bucket-name/path/to/library.whl).

  5. Clique em Instalar.

Você também pode instalar a biblioteca usando a API REST ou CLI.

Instalar bibliotecas no Notebook

O senhor pode usar %pip para instalar arquivos Python wheel personalizados armazenados no armazenamento de objetos com escopo para um Notebook-isolado SparkSession. Para usar esse método, o senhor deve armazenar o biblioteca em um armazenamento de objeto legível publicamente ou usar um URL pré-assinado.

Consulte Biblioteca Python com escopoNotebook.

Observação

O JAR biblioteca não pode ser instalado no site Notebook. O senhor deve instalar o JAR biblioteca no nível do cluster.