Pular para o conteúdo principal

Criar um bucket S3 para a implantação do workspace

Este artigo descreve como criar e configurar o armazenamento raiz para uma implementação personalizada do Databricks workspace . O senhor também pode automatizar essa etapa e toda a criação do workspace usando o AWS Quick começar padrão ou o provedor Databricks Terraform para implantar seu workspace.

Requisitos

Práticas recomendadas para criação de armazenamento raiz

O bucket que o senhor usa para a implantação do workspace é chamado de armazenamento raiz do workspace. Não use seu armazenamento raiz para armazenar dados de produção do cliente. Em vez disso, crie buckets S3 adicionais ou outra fonte de dados para os dados de produção e, opcionalmente, crie pontos de montagem DBFS para eles.

Além disso, antes de criar seu bucket S3, revise as seguintes práticas recomendadas:

  • O bucket S3 deve estar na mesma região da AWS que a implementação do workspace do Databricks.
  • O Databricks recomenda que você use um bucket S3 que seja dedicado ao Databricks, não compartilhado com outros recursos ou serviços.
  • Não reutilize um bucket de workspaces legacy do Databricks. Por exemplo, se você estiver migrando para o E2, crie um novo bucket da AWS para sua configuração do E2.

Etapa 1: criar uma configuração de armazenamento e gerar uma política de bucket

  1. No console da conta, clique em Recursos da nuvem .

  2. Clique em Configuração de armazenamento .

  3. Clique em Adicionar configuração de armazenamento .

  4. No campo Nome da configuração de armazenament o, insira um nome legível por humanos para a nova configuração de armazenamento .

  5. No campo Nome do Bucket , digite o nome do bucket S3 que você criará.

important

O nome do bucket não pode incluir a notação de ponto (.). Ele deve ser globalmente exclusivo e não pode incluir espaços ou letras maiúsculas. Para obter mais orientações sobre a nomenclatura de buckets, consulte as regras de nomenclatura de buckets da AWS.

  1. Clique em Gerar política e copie a política gerada. Você adiciona essa política à configuração do bucket do S3 na AWS na próxima etapa.

  2. Clique em Adicionar .

Etapa 2: Criar o bucket S3

  1. Faça login no console AWS como usuário com privilégios de administrador e acesse o serviço S3 .
  2. Clique no botão Criar bucket .
  3. Em Nome do bucket , insira o nome do bucket que você criou na Etapa 1.
  4. Selecione a mesma região AWS que você usará para a implementação do workspace do Databricks.
  5. Clique em Criar bucket .
  6. Clique na guia Permissões .
  7. Na seção Política de bucket , clique em Editar .
  8. Cole a política de bucket que você gerou e copiou dos Databricks.
  9. Salve o bucket.

Habilitar o registro de eventos em nível de objeto (recomendado)

O Databricks recomenda enfaticamente que você habilite o log em nível de objeto do S3 para seu bucket de armazenamento raiz. Isso permite uma investigação mais rápida de quaisquer problemas que possam surgir. Esteja ciente de que o registro em log em nível de objeto do S3 pode aumentar os custos de uso do AWS.

Para obter instruções, consulte a documentação da AWS sobre o log de eventos do CloudTrail para buckets e objetos S3.

Resolver falhas de validação

As permissões da política de bucket podem levar alguns minutos para se propagar. Tente esse procedimento novamente se a validação falhar devido às permissões.

Verifique as permissões corretas

Ao criar uma configuração de armazenamento para seu bucket, o Databricks verifica se o bucket foi configurado com as permissões corretas. Uma dessas verificações grava um arquivo em seu bucket e o exclui imediatamente. No entanto, se as operações de exclusão falharem, o objeto temporário permanecerá na raiz do seu bucket. O nome do objeto começa com databricks-verification-<uuid>.

Se você vir esse objeto, é provável que seja devido a uma configuração incorreta na política de bucket. O Databricks tem permissões de PUT, mas não de DELETE. Revise a política de bucket e verifique se as permissões estão configuradas corretamente.

Excluir uma configuração de armazenamento

As configurações de armazenamento não podem ser editadas após a criação. Se a configuração tiver dados incorretos ou se você não precisar mais deles, exclua a configuração de armazenamento:

  1. No console da conta, clique em Recursos da nuvem .

  2. Clique em Configuração de armazenamento .

  3. Na linha de configuração do armazenamento, clique no ícone do menu Ações e selecione Excluir .

    Você também pode clicar no nome da configuração de armazenamento e clicar em Excluir na caixa de diálogo pop-up.

  4. Na caixa de diálogo de confirmação, clique em Confirmar exclusão .

Criptografe seu bucket raiz S3 usando a chave gerenciadora de clientes (opcional)

O senhor pode criptografar seu bucket raiz S3 usando a chave gerenciadora de clientes, o que requer o uso da conta API.

O senhor pode adicionar uma criptografia key ao criar um novo workspace usando a conta API ou adicionar o key posteriormente. Para obter mais informações, consulte Etapa 5: Configurar a chave de gerenciar o cliente (opcional) e Chave de gerenciar o cliente para criptografia.