Configurar o acesso aos dados para ingestão

Este artigo descreve como os usuários administradores podem configurar o acesso aos dados em um bucket em Amazon S3 (S3) para que os usuários de Databricks possam carregar dados de S3 em uma tabela em Databricks.

Este artigo descreve as seguintes maneiras de configurar o acesso seguro aos dados de origem:

  • (Recomendado) Crie um volume do Unity Catalog.

  • Crie um local externo do Unity Catalog com uma credencial de armazenamento.

  • Inicie um recurso compute que use um AWS instance profile.

  • Gerar credenciais temporárias (um acesso AWS key ID, um segredo de chave e tokens de sessão).

Antes de começar

Antes de configurar o acesso aos dados no S3, verifique se o senhor tem o seguinte:

  • Dados em um bucket S3 em seu AWS account. Para criar um bucket, consulte Criação de um bucket na documentação do AWS.

  • Para acessar o uso de dados a compute recurso com uma permissão de administrador AWS instance profile, Databricks workspace .

  • Um Databricks SQL armazém. Para criar um SQL warehouse, consulte Criar um SQL warehouse.

  • Familiaridade com a interface de usuário do site Databricks SQL.

Configurar o acesso ao armazenamento em nuvem

Use um dos métodos a seguir para configurar o acesso ao S3:

Limpe

O senhor pode limpar o recurso associado nos sites cloud account e Databricks se não quiser mais mantê-los.

Excluir o perfil nomeado do AWS CLI

Em seu arquivo ~/.aws/credentials para Unix, Linux e macOS, ou em seu arquivo %USERPROFILE%\.aws\credentials para Windows, remova a seguinte parte do arquivo e salve-o:

[<named-profile>]
aws_access_key_id = <access-key-id>
aws_secret_access_key = <secret-access-key>

Excluir o usuário do IAM

  1. Abra o console IAM em seu AWS account, normalmente em https://console.aws.amazon.com/iam.

  2. Na barra lateral, clique em Usuários.

  3. Selecione a caixa ao lado do usuário e clique em Excluir.

  4. Insira o nome do usuário e clique em Excluir.

Excluir a política de IAM

  1. Abra o console IAM em seu AWS account, se ainda não estiver aberto, normalmente em https://console.aws.amazon.com/iam.

  2. Na barra lateral, clique em Políticas.

  3. Selecione a opção ao lado da política e clique em Ações > Excluir.

  4. Insira o nome da política e clique em Excluir.

Excluir o bucket S3

  1. Abra o console Amazon S3 no seu AWS account, normalmente em https://console.aws.amazon.com/s3.

  2. Selecione a opção ao lado do bucket e clique em Esvaziar.

  3. Digite permanently delete e clique em Esvaziar.

  4. Na barra lateral, clique em Buckets.

  5. Selecione a opção ao lado do bucket e clique em Excluir.

  6. Insira o nome do bucket e clique em Excluir bucket.

Parar o SQL warehouse

Se o senhor não estiver usando o SQL warehouse para nenhuma outra tarefa, deverá interromper o SQL warehouse para evitar custos adicionais.

  1. Na seção SQL persona, na barra lateral, clique em SQL warehouse.

  2. Ao lado do nome do site SQL warehouse, clique em Stop (Parar).

  3. Quando solicitado, clique em Parar novamente.

Próximas etapas

Depois de concluir as passos neste artigo, os usuários podem executar o comando COPY INTO para carregar os dados do balde S3 em seu workspace do Databricks.