Configurar acesso a dados para ingestão

Este artigo descreve como os usuários administradores podem configurar o acesso aos dados em um bucket no Amazon S3 (S3) para que os usuários do Databricks possam carregar dados do S3 em uma tabela no Databricks.

Este artigo descreve as seguintes maneiras de configurar o acesso seguro aos dados de origem:

  • (Recomendado) Crie um volume do Unity Catalog.

  • Crie um local externo do Unity Catalog com uma credencial de armazenamento.

  • Inicie um recurso compute que usa um instance profile da AWS.

  • Gere credenciais temporárias (um ID key de acesso da AWS, uma key secreta e tokens de sessão).

Antes de começar

Antes de configurar o acesso aos dados no S3, certifique-se de ter o seguinte:

  • Dados em um bucket S3 na sua account AWS. Para criar um bucket, consulte Criando um bucket na documentação da AWS.

  • Para acessar o uso de dados de um recurso compute com um instance profile da AWS, permissões de administrador workspace do Databricks.

  • Um Databricks SQL armazém. Para criar um SQL warehouse, consulte Criar um SQL warehouse.

  • Familiaridade com a interface de usuário Databricks SQL .

Configurar o acesso ao armazenamento clouds

Use um dos seguintes métodos para configurar o acesso ao S3:

Limpar

Você pode limpar os recursos associados em sua account cloud e Databricks se não quiser mais mantê-los.

Exclua o perfil nomeado da AWS CLI

Em seu arquivo ~/.aws/credentials para Unix, Linux e macOS, ou em seu arquivo %USERPROFILE%\.aws\credentials para Windows, remova a seguinte parte do arquivo e salve o arquivo:

[<named-profile>]
aws_access_key_id = <access-key-id>
aws_secret_access_key = <secret-access-key>

Excluir o usuário IAM

  1. Abra o console do IAM em sua account da AWS, normalmente em https://console.aws.amazon.com/iam.

  2. Na barra lateral, clique em Usuários.

  3. Marque a caixa ao lado do usuário e clique em Excluir.

  4. Insira o nome do usuário e clique em Excluir.

Excluir a política IAM

  1. Abra o console do IAM em sua account da AWS, caso ainda não esteja aberto, geralmente em https://console.aws.amazon.com/iam.

  2. Na barra lateral, clique em Políticas.

  3. Selecione a opção ao lado da política e clique em Ações > Excluir.

  4. Insira o nome da política e clique em Excluir.

Excluir o balde S3

  1. Abra o console do Amazon S3 em sua account da AWS, geralmente em https://console.aws.amazon.com/s3.

  2. Selecione a opção ao lado do depósito e clique em Esvaziar.

  3. Digite permanently delete e clique em Vazio.

  4. Na barra lateral, clique em Baldes.

  5. Selecione a opção ao lado do bucket e clique em Excluir.

  6. Digite o nome do bucket e clique em Delete bucket.

Parar o SQL warehouse

Se você não estiver usando o SQL warehouse para nenhuma outra tarefa, interrompa o SQL warehouse para evitar custos adicionais.

  1. Na persona SQL , na barra lateral, clique em SQL warehouse.

  2. Ao lado do nome do SQL warehouse, clique em Parar.

  3. Quando solicitado, clique em Parar novamente.

Próximos passos

Depois de concluir as passos neste artigo, os usuários podem executar o comando COPY INTO para carregar os dados do balde S3 em seu workspace do Databricks.