Configurar o acesso aos dados para ingestão
Este artigo descreve como os usuários administradores podem configurar o acesso aos dados em um bucket em Amazon S3 (S3) para que os usuários de Databricks possam carregar dados de S3 em uma tabela em Databricks.
Este artigo descreve as seguintes maneiras de configurar o acesso seguro aos dados de origem:
(Recomendado) Crie um volume do Unity Catalog.
Crie um local externo do Unity Catalog com uma credencial de armazenamento.
Inicie um recurso compute que use um AWS instance profile.
Gerar credenciais temporárias (um acesso AWS key ID, um segredo de chave e tokens de sessão).
Antes de começar
Antes de configurar o acesso aos dados no S3, verifique se o senhor tem o seguinte:
Dados em um bucket S3 em seu AWS account. Para criar um bucket, consulte Criação de um bucket na documentação do AWS.
Para acessar o uso de dados a Unity Catalog volume (recomendado), o privilégio
READ VOLUME
no volume. Para obter mais informações, consulte O que são volumes Unity Catalog? e Unity Catalog privileges and securable objects.Para acessar o uso de dados em Unity Catalog local externo, o privilégio
READ FILES
no local externo. Para obter mais informações, consulte Criar um local externo para conectar o armazenamento cloud a Databricks.
Para acessar o uso de dados a compute recurso com uma permissão de administrador AWS instance profile, Databricks workspace .
Um Databricks SQL armazém. Para criar um SQL warehouse, consulte Criar um SQL warehouse.
Familiaridade com a interface de usuário do site Databricks SQL.
Configurar o acesso ao armazenamento em nuvem
Use um dos métodos a seguir para configurar o acesso ao S3:
(Recomendado) Crie um volume do Unity Catalog. Para obter mais informações, consulte O que são volumes Unity Catalog?
Configure um local externo do Unity Catalog com uma credencial de armazenamento. Para obter mais informações sobre locais externos, consulte Criar um local externo para conectar o armazenamento cloud a Databricks.
Configure um recurso compute para usar um AWS instance profile. Para obter mais informações, consulte Configurar um SQL warehouse para usar um instance profile.
Gerar credenciais temporárias (um ID de acesso AWS key , um segredo de chave e tokens de sessão) para compartilhar com outros usuários do Databricks. Para obter mais informações, consulte Gerar credenciais temporárias para ingestão.
Limpe
O senhor pode limpar o recurso associado nos sites cloud account e Databricks se não quiser mais mantê-los.
Excluir o perfil nomeado do AWS CLI
Em seu arquivo ~/.aws/credentials
para Unix, Linux e macOS, ou em seu arquivo %USERPROFILE%\.aws\credentials
para Windows, remova a seguinte parte do arquivo e salve-o:
[<named-profile>]
aws_access_key_id = <access-key-id>
aws_secret_access_key = <secret-access-key>
Excluir o usuário do IAM
Abra o console IAM em seu AWS account, normalmente em https://console.aws.amazon.com/iam.
Na barra lateral, clique em Usuários.
Selecione a caixa ao lado do usuário e clique em Excluir.
Insira o nome do usuário e clique em Excluir.
Excluir a política de IAM
Abra o console IAM em seu AWS account, se ainda não estiver aberto, normalmente em https://console.aws.amazon.com/iam.
Na barra lateral, clique em Políticas.
Selecione a opção ao lado da política e clique em Ações > Excluir.
Insira o nome da política e clique em Excluir.
Excluir o bucket S3
Abra o console Amazon S3 no seu AWS account, normalmente em https://console.aws.amazon.com/s3.
Selecione a opção ao lado do bucket e clique em Esvaziar.
Digite
permanently delete
e clique em Esvaziar.Na barra lateral, clique em Buckets.
Selecione a opção ao lado do bucket e clique em Excluir.
Insira o nome do bucket e clique em Excluir bucket.
Parar o SQL warehouse
Se o senhor não estiver usando o SQL warehouse para nenhuma outra tarefa, deverá interromper o SQL warehouse para evitar custos adicionais.
Na seção SQL persona, na barra lateral, clique em SQL warehouse.
Ao lado do nome do site SQL warehouse, clique em Stop (Parar).
Quando solicitado, clique em Parar novamente.
Próximas etapas
Depois de concluir as passos neste artigo, os usuários podem executar o comando COPY INTO
para carregar os dados do balde S3 em seu workspace do Databricks.
Para carregar o uso de dados em um volume Unity Catalog ou em um local externo, consulte Carregar uso de dados COPY INTO com volumes Unity Catalog ou locais externos.
Para carregar o uso de dados a SQL warehouse com um AWS instance profile, consulte Carregar o uso de dados COPY INTO com um instance profile.
Para carregar credenciais temporárias de uso de dados (um ID de acesso AWS key , uma chave secreta e tokens de sessão), consulte Carregar uso de dados COPY INTO com credenciais temporárias.