Configurar o acesso aos dados para ingestão

Este artigo descreve como os usuários administradores podem configurar o acesso aos dados em um bucket em Amazon S3 (S3) para que os usuários de Databricks possam carregar dados de S3 em uma tabela em Databricks.

Este artigo descreve as seguintes maneiras de configurar o acesso seguro aos dados de origem:

(Recomendado) Crie um volume do Unity Catalog.
Crie um local externo do Unity Catalog com uma credencial de armazenamento.
Inicie um recurso compute que use um AWS instance profile.
Gerar credenciais temporárias (um acesso AWS key ID, um segredo de chave e tokens de sessão).

Antes de começar

Antes de configurar o acesso aos dados no S3, verifique se o senhor tem o seguinte:

Dados em um bucket S3 em seu AWS account. Para criar um bucket, consulte Criação de um bucket na documentação do AWS.
Para acessar o uso de dados a Unity Catalog volume (recomendado), o privilégio READ VOLUME no volume. Para obter mais informações, consulte O que são volumes Unity Catalog? e Unity Catalog privileges and securable objects.
Para acessar o uso de dados em um local externo Unity Catalog, o privilégio READ FILES no local externo. Para obter mais informações, consulte Conceder permissões em um local externo.
Para acessar o uso de dados a compute recurso com uma permissão de administrador AWS instance profile, Databricks workspace .
Um Databricks SQL armazém. Para criar um SQL warehouse, consulte Criar um SQL warehouse.
Familiaridade com a interface de usuário Databricks SQL.

Configurar o acesso ao armazenamento em nuvem

Use um dos métodos a seguir para configurar o acesso ao S3:

(Recomendado) Crie um volume do Unity Catalog. Para obter mais informações, consulte O que são volumes Unity Catalog?
Configure um local externo do Unity Catalog com uma credencial de armazenamento. Para obter mais informações sobre locais externos, consulte Visão geral dos locais externos.
Configure um recurso compute para usar um instance profile AWS . Para obter mais informações, consulte Configurar SQL Warehouse e serverless compute para usar um instance profile.
Gerar credenciais temporárias (um ID de acesso AWS key , um segredo de chave e tokens de sessão) para compartilhar com outros usuários do Databricks. Para obter mais informações, consulte Gerar credenciais temporárias para ingestão.

Limpe

O senhor pode limpar o recurso associado em sua nuvem account e Databricks se não quiser mais mantê-los.

Excluir o perfil nomeado do AWS CLI

Em seu arquivo ~/.aws/credentials para Unix, Linux e macOS, ou em seu arquivo %USERPROFILE%\.aws\credentials para Windows, remova a seguinte parte do arquivo e salve-o:

[<named-profile>]
aws_access_key_id = <access-key-id>
aws_secret_access_key = <secret-access-key>

Excluir o usuário do IAM

Abra o console IAM em seu AWS account, normalmente em https://console.aws.amazon.com/iam.
Na barra lateral, clique em Usuários .
Selecione a caixa ao lado do usuário e clique em Excluir .
Insira o nome do usuário e clique em Excluir .

Excluir a política de IAM

Abra o console IAM em seu AWS account, se ainda não estiver aberto, normalmente em https://console.aws.amazon.com/iam.
Na barra lateral, clique em Políticas .
Selecione a opção ao lado da política e clique em Ações > Excluir .
Insira o nome da política e clique em Excluir .

Excluir o bucket S3

Abra o console Amazon S3 no seu AWS account, normalmente em https://console.aws.amazon.com/s3.
Selecione a opção ao lado do bucket e clique em Esvaziar .
Digite permanently delete e clique em Esvaziar .
Na barra lateral, clique em Buckets .
Selecione a opção ao lado do bucket e clique em Excluir .
Insira o nome do bucket e clique em Excluir bucket .

Parar o SQL warehouse

Se o senhor não estiver usando o SQL warehouse para nenhuma outra tarefa, deverá interromper o SQL warehouse para evitar custos adicionais.

Na seção SQL persona, na barra lateral, clique em SQL warehouse .
Ao lado do nome do site SQL warehouse, clique em Stop (Parar ).
Quando solicitado, clique em Parar novamente.

Próximas etapas

Depois de concluir as passos neste artigo, os usuários podem executar o comando COPY INTO para carregar os dados do balde S3 em seu workspace do Databricks.

Para carregar o uso de dados em um volume Unity Catalog ou em um local externo, consulte Carregar uso de dados COPY INTO com volumes Unity Catalog ou locais externos.
Para carregar o uso de dados a SQL warehouse com um AWS instance profile, consulte Carregar o uso de dados COPY INTO com um instance profile.
Para carregar credenciais temporárias de uso de dados (um ID de acesso AWS key , uma chave secreta e tokens de sessão), consulte Carregar uso de dados COPY INTO com credenciais temporárias.

Antes de começar​

Configurar o acesso ao armazenamento em nuvem​

Limpe​

Excluir o perfil nomeado do AWS CLI​

Excluir o usuário do IAM​

Excluir a política de IAM​

Excluir o bucket S3​

Parar o SQL warehouse​

Próximas etapas​