Pular para o conteúdo principal

Instalar a biblioteca a partir do armazenamento de objetos

Este artigo orienta você pelas passos necessárias para instalar bibliotecas do armazenamento de objetos cloud no Databricks.

nota

Este artigo refere-se ao armazenamento de objetos na nuvem como um conceito geral e pressupõe que o senhor esteja interagindo diretamente com os dados armazenados no armazenamento de objetos usando URIs. A Databricks recomenda o uso de volumes do Unity Catalog para configurar o acesso a arquivos no armazenamento de objetos na nuvem. Consulte O que são volumes do Unity Catalog?

O senhor pode armazenar JAR e Python Whl biblioteca personalizados no armazenamento de objetos na nuvem, em vez de armazená-los no DBFS root. Consulte biblioteca com escopo de computação para obter detalhes completos sobre a compatibilidade da biblioteca.

important

A biblioteca pode ser instalada a partir de DBFS ao usar Databricks Runtime 14.3 LTS e abaixo. No entanto, qualquer usuário do site workspace pode modificar os arquivos de biblioteca armazenados no site DBFS. Para aumentar a segurança da biblioteca em um Databricks workspace, o armazenamento de arquivos da biblioteca no DBFS root está obsoleto e desativado pelo default em Databricks Runtime 15.1 e acima. Consulte O armazenamento de biblioteca em DBFS root está obsoleto e desativado por default.

Em vez disso, o site Databricks recomenda o upload de todas as bibliotecas, incluindo Python biblioteca, JAR arquivos e Spark conectores, para workspace arquivos ou Unity Catalog volumes, ou usando repositórios de pacotes de biblioteca. Se sua carga de trabalho não for compatível com esses padrões, o senhor também poderá usar a biblioteca armazenada no armazenamento de objetos na nuvem.

Carregar a biblioteca para o armazenamento de objetos

O senhor pode carregar o biblioteca no armazenamento de objetos da mesma forma que carrega outros arquivos. Você precisa ter as permissões adequadas em seu provedor de nuvem para criar novos contêineres de armazenamento de objetos ou carregar arquivos no armazenamento de objetos na nuvem.

Conceder permissões somente de leitura ao armazenamento de objetos

A Databricks recomenda a configuração de todos os privilégios relacionados à instalação da biblioteca com permissões somente leitura.

Databricks permite que o senhor atribua permissões de segurança a clusters individuais que governam o acesso aos dados no armazenamento de objetos na nuvem. Essas políticas podem ser expandidas para adicionar acesso somente leitura ao armazenamento de objetos na nuvem que contém biblioteca.

nota

Em Databricks Runtime 12.2 LTS e abaixo, o senhor não pode carregar JAR biblioteca ao usar o clustering com modos de acesso padrão (anteriormente, modo de acesso compartilhado). Em Databricks Runtime 13.3 LTS e acima, o senhor deve adicionar JAR biblioteca à lista de permissões Unity Catalog. Consulte Allowlist biblioteca e script de inicialização em compute com o modo de acesso padrão (anteriormente, modo de acesso compartilhado).

Databricks recomenda o uso do perfil de instância para gerenciar o acesso à biblioteca armazenada em S3. Use a documentação a seguir no link de referência cruzada para concluir essa configuração:

  1. Crie um IAM role com permissões de leitura e lista em seus buckets desejados. Veja o tutorial: Configurar o acesso S3 com um instance profile.
  2. Inicie um clustering com o endereço instance profile. Veja o perfil da instância.

Instalar a biblioteca no clustering

Para instalar uma biblioteca armazenada no armazenamento de objetos cloud em clusters, conclua as passos a seguir:

  1. Selecione um clustering na lista da interface do usuário de clustering.
  2. Selecione a biblioteca tab.
  3. Selecione a opção File path/S3 (Caminho do arquivo/S3 ).
  4. Forneça o caminho completo do URI para o objeto da biblioteca (por exemplo, s3://bucket-name/path/to/library.whl).
  5. Clique em Instalar .

O senhor também pode instalar o biblioteca usando os comandos REST API ou CLI.

Instalar a biblioteca no Notebook

O senhor pode usar %pip para instalar arquivos Python wheel personalizados armazenados no armazenamento de objetos com escopo para um Notebook isolado SparkSession. Para usar esse método, o senhor deve armazenar o biblioteca em um armazenamento de objeto legível publicamente ou usar um URL pré-assinado.

NotebookConsulte -scoped Pythonbiblioteca.

nota

JAR biblioteca não pode ser instalado no Notebook. O senhor deve instalar o JAR biblioteca no nível de clustering.