Criar um bucket S3 para implementação de workspace

Observação

Estas instruções se aplicam a account criadas antes de 8 de novembro de 2023. Se a sua account Databricks foi criada após 8 de novembro de 2023, consulte Criar manualmente um espaço de trabalho (nova account Databricks).

Este artigo descreve como criar e configurar o armazenamento raiz para uma implementação do workspace do Databricks personalizado. Você também pode automatizar essa etapa e toda a criação do workspace usando o modelo AWS Quick Start ou o provedor Databricks Terraform para implementar o workspace.

Requisitos

Práticas recomendadas para a criação de armazenamento raiz

O bucket usado para a implementação do workspace é chamado de armazenamento raiz do workspace. Não use seu armazenamento raiz para armazenar dados de produção do cliente. Em vez disso, crie buckets S3 adicionais ou outras fontes de dados para dados de produção e, opcionalmente, crie pontos de montagem DBFS para eles.

Além disso, antes de criar seu bucket S3, revise as seguintes práticas recomendadas:

  • O bucket S3 deve estar na mesma região da AWS que a implementação do workspace do Databricks.

  • O Databricks recomenda que você use um bucket S3 que seja dedicado ao Databricks, não compartilhado com outros recursos ou serviços.

  • Não reutilize um bucket de workspaces legacy do Databricks. Por exemplo, se você estiver migrando para o E2, crie um novo bucket da AWS para sua configuração do E2.

Etapa 1: criar uma configuração de armazenamento e gerar uma política de bucket

  1. No console da conta, clique em Recursos da nuvem.

  2. Clique em Configuração de armazenamento.

  3. Clique em Adicionar configuração de armazenamento.

  4. No campo Nome da configuração de armazenamento, insira um nome legível por humanos para a nova configuração de armazenamento .

  5. No campo Nome do Bucket, digite o nome do bucket S3 que você criará.

    Importante

    O nome do bucket não pode incluir a notação de ponto (.). Ele deve ser globalmente exclusivo e não pode incluir espaços ou letras maiúsculas. Para obter mais orientações sobre nomenclatura de buckets, consulte as regras de nomenclatura de buckets da AWS.

  6. Clique em Gerar política e copie a política gerada. Você adiciona essa política à configuração do bucket do S3 na AWS na próxima etapa.

  7. Clique em Adicionar.

Etapa 2: Criar o bucket S3

  1. Faça login no console AWS como usuário com privilégios de administrador e acesse o serviço S3 .

  2. Clique no botão Criar bucket .

  3. Em Nome do bucket, insira o nome do bucket que você criou na Etapa 1.

  4. Selecione a mesma região AWS que você usará para a implementação do workspace do Databricks.

  5. Clique em Criar bucket.

  6. Clique na guia Permissões .

  7. Na seção Política de bucket , clique em Editar.

  8. Cole a política de bucket que você gerou e copiou dos Databricks.

  9. Salve o bucket.

Resolver falhas de validação

As permissões da política de bucket podem levar alguns minutos para se propagar. Tente esse procedimento novamente se a validação falhar devido às permissões.

Verificar permissões corretas

Ao criar uma configuração de armazenamento para seu balde, o Databricks verifica se seu balde foi configurado com as permissões corretas. Uma dessas verificações grava um arquivo em seu bucket e o exclui imediatamente. No entanto, se as operações de exclusão falharem, o objeto temporário permanecerá na raiz do seu depósito. O nome do objeto começa com databricks-verification-<uuid>.

Se você vir esse objeto, é provável que seja devido a uma configuração incorreta na política de bucket. O Databricks tem permissões de PUT, mas não de DELETE. Revise a política de bucket e verifique se as permissões estão configuradas corretamente.

Excluir uma configuração de armazenamento

As configurações de armazenamento não podem ser editadas após a criação. Se a configuração tiver dados incorretos ou se você não precisar mais deles, exclua a configuração de armazenamento:

  1. No console da conta, clique em Recursos da nuvem.

  2. Clique em Configuração de armazenamento.

  3. Na linha de configuração do armazenamento, clique no ícone do menu Ações e selecione Excluir.

    Você também pode clicar no nome da configuração de armazenamento e clicar em Excluir na caixa de diálogo pop-up.

  4. Na caixa de diálogo de confirmação, clique em Confirmar exclusão.

Criptografar seu bucket S3 raiz usando chaves gerenciadas pelo cliente (opcional)

Você pode criptografar seu bucket raiz do S3 usando key gerenciada pelo cliente, o que requer o uso da API da conta.

O senhor pode adicionar uma criptografia key ao criar um novo workspace usando a API account ou adicionar o key posteriormente. Para obter mais informações, consulte o passo 5: Configure customer-gerenciar key (opcional) e Customer-gerenciar key for encryption.