Pular para o conteúdo principal

Crie um workspace usando o console account

Este artigo descreve como criar e gerenciar o espaço de trabalho usando o console account. Como alternativa, o senhor pode criar um workspace usando a conta API ou Terraform.

Antes de começar

  • Certifique-se de que o senhor entendeu todas as definições de configuração antes de criar um novo workspace. As configurações do espaço de trabalho não podem ser modificadas depois que o senhor criar o workspace.
  • O senhor deve ter algumas permissões necessárias do Google em seu account, que pode ser uma conta do Google ou um serviço account. Consulte Permissões necessárias.
  • Certifique-se de que o workspace senhor tenha cotas suficientes de recursos do Google Cloud necessárias para o. Solicite um aumento de cota se precisar.

Escolha um tipo de rede

Antes de criar seu workspace, o senhor deve escolher onde deseja que o workspace seja implantado:

Criar um workspace

Para criar um workspace:

  1. Databricks account Comolog in account administrador do , acesse o console e clique no ícone do espaço de trabalho.

  2. Clique em Create workspace .

  3. No campo Nome do workspace , insira um nome legível por humanos para este workspace. Somente caracteres alfanuméricos, sublinhados e hifens são permitidos; e o nome deve ter de 3 a 30 caracteres.

  4. No campo Region (Região ), selecione uma região para a rede e o clustering do site workspace. Para obter a lista de regiões compatíveis, consulte Nuvens e regiões do Databricks.

  5. No campo ID do projeto do Google Cloud , insira seu ID do projeto do Google Cloud. Se o senhor estiver implantado em um gerenciador de clientes VPC, o ID dependerá se o senhor estiver usando um site autônomo ou compartilhado VPC:

    • Para uma VPC autônoma, defina isso como o ID do projeto para sua VPC.
    • Para um VPC compartilhado, defina isso como o ID do projeto para esse recurso do workspace.
  6. Configuração de rede. Essa etapa varia de acordo com o tipo de rede do site workspace. Para gerenciar o cliente VPC, clique no link Gerenciar o cliente VPC tab.

    tab :::tab-item[Databricks-gerenciar VPC] Opcionalmente, clique em Advanced configurations (Configurações avançadas ) para especificar intervalos de IP personalizados para a sub-rede GCE. Se o senhor deixar esses campos em branco, o site Databricks usará o padrão. Para obter orientação sobre o dimensionamento, consulte Dimensionamento de sub-rede para uma nova workspace

    Os tamanhos devem usar o formato CIDR. Os endereços IP devem estar totalmente dentro dos seguintes intervalos: 10.0.0.0/8, 100.64.0.0/10, 172.16.0.0/12, 192.168.0.0/16 e 240.0.0.0/4. :::

    tab-item[customer-gerenciar VPC]

    • Especifique uma configuração de rede que represente sua VPC e suas sub-redes:
      • Rede Mode : Defina essa opção como Rede gerenciada pelo cliente .
      • Configuração de rede : selecione o nome da sua configuração de rede. ::: ::::
  7. (Opcional) Ative o Google Private Service Connect (PSC) no site workspace para proteger o workspace com conectividade privada e reduzir os riscos de exfiltração de dados. Para configurar isso, clique em Configurações avançadas e escolha um objeto de configurações de acesso privado. Antes de adicionar a configuração do PSC, o site Databricks recomenda a leitura de Enable Private Service Connect for your workspace para conhecer os requisitos e o contexto.

  8. (Opcional) Adicione configurações de chave de gerenciar clientes para serviço gerenciado, armazenamento workspace ou ambos. O senhor pode selecionar a mesma configuração para o serviço gerenciado e para o armazenamento em workspace se ela for compatível com os dois casos de uso.

  9. Clique em Salvar .

  10. Se esta for a primeira vez que o senhor cria um workspace, uma janela pop-up do Google solicita que o senhor selecione seu Google account e consinta com a solicitação de escopos adicionais. Se a janela pop-up não aparecer e a página não mudar, você pode ter um bloqueador de pop-ups no seu navegador.

  11. Confirme que o site workspace foi criado com sucesso. Ao lado de seu workspace na lista de espaços de trabalho, clique em Open .

  12. Prenda as caçambas do workspace's GCS. Consulte Proteger os workspace's GCS buckets em seu projeto.

Habilitando o Google APIs em um projeto workspace

Durante a criação do workspace, o Databricks ativa automaticamente os seguintes itens obrigatórios do Google APIs no projeto do Google Cloud, caso ainda não estejam ativados:

Esses APIs não são desativados automaticamente durante a exclusão do workspace.

limites de criação de espaço de trabalho

O senhor pode criar no máximo 200 espaços de trabalho por semana no mesmo projeto do Google Cloud. Se o senhor exceder esse limite, a criação de um workspace falhará com a mensagem de erro: "Criação de nuvem personalizada IAM role <your-role> no projeto <your-project> rejeitada".

Ver o status do site workspace

Depois de criar um workspace, você pode visualizar seu status na página Workspaces .

  • Provisionamento : em andamento. Aguarde alguns minutos e atualize a página.
  • Em execução : implantação bem-sucedida do workspace.
  • Falha : falha na implantação.
  • Banido : Entre em contato com a equipe Databricks account .
  • Cancelamento : em processo de cancelamento.

Se o status do seu novo workspace for Failed (Falha ), clique em workspace para view uma mensagem de erro detalhada. Se o senhor não entender o erro, entre em contato com a equipe Databricks account .

O senhor não pode atualizar a configuração de um site com falha workspace. O senhor deve excluí-lo e criar um novo workspace.

fazer login em um workspace

  1. Vá para o consoleaccount e clique no ícone do espaço de trabalho .
  2. Na linha com seu workspace, clique em Abrir .

Proteja os workspace's GCS buckets em seu projeto

Quando o senhor cria um workspace, Databricks on Google Cloud cria dois buckets Google Cloud Storage GCS no seu projeto GCP:

  • Um bucket GCS armazena dados do sistema, como revisões de notebooks, detalhes de execução de trabalhos, resultados de comandos e Spark logs.
  • Um bucket GCS é o armazenamento raiz do seu workspacepara o sistema de arquivosDatabricks (DBFS). Seu bucket DBFS root não se destina ao armazenamento de dados de produção do cliente. Criar outra fonte de dados e armazenamento para dados de produção do cliente em GCS buckets adicionais. Opcionalmente, o senhor pode montar os buckets adicionais do GCS como montagens do Databricks File System (DBFS). Consulte Conectar-se ao Google Cloud Storage.

Databricks Recomenda-se enfaticamente que o senhor proteja esses GCS baldes de modo que não possam ser acessados de fora Databricks on Google Cloud.

Para proteger esses buckets do GCS:

  1. Em um navegador, acesse o GCP Cloud Console.

  2. Selecione o projeto do Google Cloud que hospeda seu Databricks workspace.

  3. Acesse a página do serviço de armazenamento desse projeto.

  4. Procure os baldes para seu novo workspace. Seus nomes são:

    • databricks-<workspace id>
    • databricks-<workspace id>-system
  5. Para cada balde:

    1. Clique no balde para acessar view detalhes.

    2. Clique na guia Permissões .

    3. Analise todas as entradas da lista de membros e determine se o acesso é esperado para cada membro.

    4. Verifique a coluna Condição do IAM . Algumas permissões, como as denominadas "Databricks serviço account para workspace", têm IAM Condições que as restringem a determinados buckets. A interface do usuário do console do Google Cloud não avalia a condição, portanto, ela pode mostrar funções que na verdade não conseguiriam acessar o bucket.

      Para funções sem nenhuma condição de IAM, considere adicionar restrições a elas:

      • Ao adicionar permissões de armazenamento no nível do projeto ou acima, use as condições do IAM para excluir os buckets do Databricks ou para permitir apenas buckets específicos.

      • Escolha o conjunto mínimo de permissões necessárias. Por exemplo, se somente o acesso de leitura for necessário, especifique Storage Viewer em vez de Storage Admin.

atenção

Não use funções básicas porque elas são muito amplas.

  1. Ative o registro de auditoria de acesso a dados do Google Cloud. A Databricks recomenda enfaticamente que o senhor ative o registro de auditoria do Data Access para os buckets do GCS que a Databricks cria. Isso permite uma investigação mais rápida de quaisquer problemas que possam surgir. Esteja ciente de que o registro de auditoria do Data Access pode aumentar os custos de uso do GCP. Para obter instruções, consulte Configuração dos logs de auditoria do Data Access.

Se o senhor tiver dúvidas sobre como proteger esses GCS buckets, entre em contato com a equipe Databricks account .

Próximas etapas

Agora que o senhor implantou o site workspace, pode começar a desenvolver sua estratégia de dados. A Databricks recomenda os seguintes artigos: