Configurar acesso a dados para ingestão
Este artigo descreve como os usuários administradores podem configurar o acesso aos dados em um bucket no Amazon S3 (S3) para que os usuários do Databricks possam carregar dados do S3 em uma tabela no Databricks.
Este artigo descreve as seguintes maneiras de configurar o acesso seguro aos dados de origem:
(Recomendado) Crie um volume do Unity Catalog.
Crie um local externo do Unity Catalog com uma credencial de armazenamento.
Inicie um recurso compute que usa um instance profile da AWS.
Gere credenciais temporárias (um ID key de acesso da AWS, uma key secreta e tokens de sessão).
Antes de começar
Antes de configurar o acesso aos dados no S3, certifique-se de ter o seguinte:
Dados em um bucket S3 na sua account AWS. Para criar um bucket, consulte Criando um bucket na documentação da AWS.
Para acessar o uso de dados em um volume do Unity Catalog (recomendado), o privilégio
READ VOLUME
no volume. Para obter mais informações, consulte Criar e trabalhar com volumes e privilégios e objetos protegíveis do Catálogo do Unity.Para acessar o uso de dados em um local externo do Unity Catalog, o privilégio
READ FILES
no local externo. Para obter mais informações, consulte Criar um local externo para conectar o armazenamento em nuvem à Databricks.
Para acessar o uso de dados de um recurso compute com um instance profile da AWS, permissões de administrador workspace do Databricks.
Um Databricks SQL armazém. Para criar um SQL warehouse, consulte Criar um SQL warehouse.
Familiaridade com a interface de usuário Databricks SQL .
Configurar o acesso ao armazenamento clouds
Use um dos seguintes métodos para configurar o acesso ao S3:
(Recomendado) Crie um volume Unity Catalog . Para obter mais informações, consulte Criar e trabalhar com volumes.
Configure um local externo do Unity Catalog com uma credencial de armazenamento. Para obter mais informações sobre locais externos, consulte Criar um local externo para conectar o armazenamento em nuvem à Databricks.
Configure um recurso compute para usar um AWS instance profile. Para obter mais informações, consulte Configurar um SQL warehouse para usar um instance profile.
Gere credenciais temporárias (um ID key de acesso da AWS, uma key secreta e tokens de sessão) para compartilhar com outros usuários do Databricks. Para obter mais informações, consulte Gerar credenciais temporárias para ingestão.
Limpar
Você pode limpar os recursos associados em sua account cloud e Databricks se não quiser mais mantê-los.
Exclua o perfil nomeado da AWS CLI
Em seu arquivo ~/.aws/credentials
para Unix, Linux e macOS, ou em seu arquivo %USERPROFILE%\.aws\credentials
para Windows, remova a seguinte parte do arquivo e salve o arquivo:
[<named-profile>]
aws_access_key_id = <access-key-id>
aws_secret_access_key = <secret-access-key>
Excluir o usuário IAM
Abra o console do IAM em sua account da AWS, normalmente em https://console.aws.amazon.com/iam.
Na barra lateral, clique em Usuários.
Marque a caixa ao lado do usuário e clique em Excluir.
Insira o nome do usuário e clique em Excluir.
Excluir a política IAM
Abra o console do IAM em sua account da AWS, caso ainda não esteja aberto, geralmente em https://console.aws.amazon.com/iam.
Na barra lateral, clique em Políticas.
Selecione a opção ao lado da política e clique em Ações > Excluir.
Insira o nome da política e clique em Excluir.
Excluir o balde S3
Abra o console do Amazon S3 em sua account da AWS, geralmente em https://console.aws.amazon.com/s3.
Selecione a opção ao lado do depósito e clique em Esvaziar.
Digite
permanently delete
e clique em Vazio.Na barra lateral, clique em Baldes.
Selecione a opção ao lado do bucket e clique em Excluir.
Digite o nome do bucket e clique em Delete bucket.
Parar o SQL warehouse
Se você não estiver usando o SQL warehouse para nenhuma outra tarefa, interrompa o SQL warehouse para evitar custos adicionais.
Na persona SQL , na barra lateral, clique em SQL warehouse.
Ao lado do nome do SQL warehouse, clique em Parar.
Quando solicitado, clique em Parar novamente.
Próximos passos
Depois de concluir as passos neste artigo, os usuários podem executar o comando COPY INTO
para carregar os dados do balde S3 em seu workspace do Databricks.
Para carregar o uso de dados em um volume ou local externo do Catálogo do Unity, consulte Carregar uso de dados COPY INTO com volumes ou locais externos do Catálogo do Unity.
Para carregar o uso de dados em um armazém SQL com um instance profile da AWS, consulte Carregar uso de dados COPY INTO com um instance profile.
Para carregar credenciais temporárias de uso de dados (um ID key de acesso da AWS, uma key secreta e tokens de sessão), consulte Carregar uso de dados COPY INTO com credenciais temporárias.