Pular para o conteúdo principal

Crie um workspace usando o console account

Este artigo descreve como criar e gerenciar o espaço de trabalho usando o console account. Como alternativa, o senhor pode criar um workspace usando a conta API ou Terraform.

Antes de começar

  • Certifique-se de que o senhor entendeu todas as definições de configuração antes de criar um novo workspace. O senhor não pode modificar uma configuração do workspace depois de criar o workspace.
  • O senhor deve ter algumas permissões necessárias do Google em seu account, que pode ser uma conta do Google ou um serviço account. Consulte Permissões necessárias.
  • Certifique-se de que o workspace senhor tenha cotas suficientes de recursos do Google Cloud necessárias para o. Solicite um aumento de cota se precisar.
  • Não modifique nem personalize o clustering do Google Kubernetes Engine (GKE) que é iniciado por Databricks para o seu workspace. Se o senhor precisar personalizar o clustering, entre em contato com a equipe do Databricks account para verificar a segurança e a capacidade de manutenção de longo prazo dessa alteração.

Criar um workspace

Para criar um workspace:

  1. Escolha um tipo de rede para seu novo workspace:

  2. Databricks account Comolog in account administrador do , acesse o console e clique no ícone do espaço de trabalho.

  3. Clique em Create workspace .

  4. No campo Nome do workspace , insira um nome legível por humanos para este workspace. Somente caracteres alfanuméricos, sublinhados e hifens são permitidos; e o nome deve ter de 3 a 30 caracteres.

  5. No campo Region (Região ), selecione uma região para a rede e o clustering do site workspace. Para obter a lista de regiões compatíveis, consulte Nuvens e regiões do Databricks.

  6. No campo ID do projeto do Google Cloud , insira seu ID do projeto do Google Cloud.

    Se o senhor planeja usar um gerenciador de clientes VPC para este workspace:

    • Se for uma VPC autônoma, defina isso como o ID do projeto para sua VPC.
    • Se for um Shared VPC, defina isso como o ID do projeto para esse recurso do workspace.
  7. Configuração de rede. Essa etapa varia de acordo com o tipo de rede do site workspace. Para gerenciar o cliente VPC, clique no link Gerenciar o cliente VPC tab.

  • Optionally specify custom subnet sizes. If you leave these fields blank, Databricks uses defaults.
important

Configure the GKE subnets used by your Databricks workspace accurately. You cannot change them after your workspace is deployed. If the address ranges for your Databricks subnets are too small, then the workspace exhausts its IP space, which in turn causes your Databricks jobs to fail. To determine the address range sizes that you need, Databricks provides a subnet calculator as a Microsoft Excel spreadsheet.

Click Advanced configurations to specify custom IP ranges in CIDR format. The IP ranges for these fields must not overlap. All IP addresses must be entirely within the following ranges: 10.0.0.0/8, 100.64.0.0/10, 172.16.0.0/12, 192.168.0.0/16, and 240.0.0.0/4.

The sizes of these IP ranges affect the maximum number of nodes for the workspace.

  • In the Subnet CIDR field, type the IP range in CIDR format to use for the subnet. Nodes of the GKE cluster come from this IP range. This is also the IP range of the subnet where the GKE cluster lives. Range must be no bigger than /9 and no smaller than /29.

  • In the Pod address range field, type the IP range in CIDR format to use as the secondary IP range for GKE pods. Range must be no bigger than /9 and no smaller than /21.

  • In the Service address range field, type the IP range in CIDR format to use as the secondary IP range for GKE services. Range must be no bigger than /16 and no smaller than /27.

  1. (Opcional) Configure os detalhes sobre o clustering do GKE privado.

    • Em default, Databricks cria um clustering GKE privado em vez de um clustering GKE público. Os nós GKE de um cluster privado não têm IP público que possa ser roteado na Internet pública. Essa opção exige que a Databricks crie um NAT adicional na nuvem do Google Cloud. Para um cluster privado, o senhor pode definir opcionalmente um valor personalizado para o intervalo de IPs do recurso mestre GKE. Clique em Advanced configurations e defina o campo IP range for GKE master recurso . Todos os endereços IP devem estar totalmente dentro dos seguintes intervalos: 10.0.0.0/8, 100.64.0.0/10, 172.16.0.0/12, 192.168.0.0/16 e 240.0.0.0/4. O intervalo deve ter o tamanho /28.
    • Para usar um clustering GKE público, clique em Advanced configurations (Configurações avançadas) e desmarque Enable private clustering (Ativar clustering privado ).
  2. (Opcional) O senhor pode proteger o site workspace com conectividade privada e reduzir os riscos de exfiltração de dados ativando o Google Private Service Connect (PSC) no site workspace. Para configurar isso, clique em Configurações avançadas e escolha um objeto de configurações de acesso privado. Antes de adicionar a configuração do PSC, o site Databricks recomenda enfaticamente a leitura dos artigos Enable Private serviço Connect for your workspace para conhecer os requisitos e o contexto.

  3. (Opcional) O senhor pode adicionar a chave do gerenciador de clientes para dois casos de uso diferentes:

    • dados do serviço gerenciado no plano de controle doDatabricks (Notebook, segredos e dados de consulta do Databricks SQL ).
    • armazenamento do espaço de trabalho (os dois buckets workspace GCS , bem como os volumes GCE Persistent Disk de um clustering ou SQL warehouse).

    Para configurar isso durante a criação do site workspace, o senhor pode usar os dois seletores para selecionar uma configuração de criptografia key já criada para cada caso de uso. Você pode escolher a mesma configuração se ela suportar os dois casos de uso. Para obter instruções detalhadas usando o console account, consulte Configurar a chave gerenciadora de clientes para criptografia.

    Como alternativa, o senhor também pode criar uma configuração key neste fluxo de criação workspace clicando em um seletor para um caso de uso e clica ndo em Add new encryption key configuration (Adicionar nova configuração de criptografia ).

  4. Clique em Salvar .

  5. Se esta for a primeira vez que o senhor cria um workspace, uma janela pop-up do Google solicitará que o senhor selecione seu Google account. Complete as instruções a seguir.

important

Se o senhor não vir a janela pop-up do Google account:

  • Se a página não mudar, você pode ter um bloqueador de pop-ups em seu navegador. Procure uma notificação sobre o bloqueio de uma janela pop-up. Configure seu bloqueador de pop-ups para permitir janelas pop-up do domínio accounts.gcp.databricks.com.

  • Se o senhor não vir a caixa de diálogo do Google, mas o navegador mostrar uma lista de espaços de trabalho, passe para a próxima etapa.

  1. Na caixa de diálogo Google, selecione o Google account com o qual o senhor fez login no console account.

  2. Na próxima tela, responda à solicitação de consentimento que solicita escopos adicionais. Clique em Permitir .

A tela de consentimento é exibida na primeira vez que o senhor tenta criar um workspace. Para novos espaços de trabalho sucessivos, o Google não mostra a tela de consentimento. Se o senhor usar as ferramentas do Google account para revogar o consentimento concedido a Databricks, o Google exibirá a tela de consentimento novamente.

  1. Confirme que o site workspace foi criado com sucesso. Ao lado do site workspace na lista de espaços de trabalho, clique em Open . Para view workspace status e testar o workspace, consulte view workspace status.

  2. Prenda as caçambas do workspace's GCS. Consulte Proteger os workspace's GCS buckets em seu projeto.

    Quando o senhor cria um workspace, Databricks on Google Cloud cria dois buckets Google Cloud Storage (GCS) no seu projeto do Google Cloud. Databricks Recomenda-se enfaticamente que o senhor proteja esses GCS baldes de modo que não possam ser acessados de fora Databricks on Google Cloud.

Durante a criação do workspace, o Databricks habilita alguns itens necessários do Google APIs no projeto, caso ainda não estejam habilitados. Consulte Ativação do Google APIs em um projeto workspace.

Habilitando o Google APIs em um projeto workspace

Durante a criação do workspace, o Databricks ativa automaticamente os seguintes itens obrigatórios do Google APIs no projeto do Google Cloud, caso ainda não estejam ativados:

Esses APIs não são desativados automaticamente durante a exclusão do workspace.

limites de criação de espaço de trabalho

O senhor pode criar no máximo 200 espaços de trabalho por semana no mesmo projeto do Google Cloud. Se o senhor exceder esse limite, a criação de um workspace falhará com a mensagem de erro: "Criação de nuvem personalizada IAM role <your-role> no projeto <your-project> rejeitada".

Ver o status do site workspace

Depois de criar um workspace, você pode visualizar seu status na página Workspaces .

  • Provisionamento : em andamento. Aguarde alguns minutos e atualize a página.
  • Em execução : implantação bem-sucedida do workspace.
  • Falha : falha na implantação.
  • Banido : Entre em contato com a equipe Databricks account .
  • Cancelamento : em processo de cancelamento.

Se o status do seu novo workspace for Failed (Falha ), clique em workspace para view uma mensagem de erro detalhada. Se o senhor não entender o erro, entre em contato com a equipe Databricks account .

O senhor não pode atualizar a configuração de um site com falha workspace. O senhor deve excluí-lo e criar um novo workspace.

fazer login em um workspace

  1. Vá para o consoleaccount e clique no ícone do espaço de trabalho .
  2. Na linha com seu workspace, clique em Abrir .
  3. Para log in como administrador workspace, log in com seu endereço de account proprietário ou account administrador email.

Proteja os workspace's GCS buckets em seu projeto

Quando o senhor cria um workspace, Databricks on Google Cloud cria dois buckets Google Cloud Storage GCS no seu projeto GCP:

  • Um bucket do site GCS armazena dados do sistema que são gerados à medida que o senhor usa vários recursos do site Databricks, como a criação do Notebook. Esse bucket inclui revisões do Notebook, detalhes da execução do trabalho, resultados do comando e Spark logs.
  • Outro armazenamento do bucket GCS é o armazenamento raiz do workspacepara o sistema de arquivosDatabricks (DBFS). Seu bucket DBFS root não se destina ao armazenamento de dados de produção do cliente. Criar outra fonte de dados e armazenamento para dados de produção do cliente em GCS buckets adicionais. Opcionalmente, o senhor pode montar os buckets adicionais do GCS como montagens do Databricks File System (DBFS). Consulte Conectar-se ao Google Cloud Storage.

Databricks Recomenda-se enfaticamente que o senhor proteja esses GCS baldes de modo que não possam ser acessados de fora Databricks on Google Cloud.

Para proteger esses buckets do GCS:

  1. Em um navegador, acesse o GCP Cloud Console.

  2. Selecione o projeto do Google Cloud que hospeda seu Databricks workspace.

  3. Acesse a página do serviço de armazenamento desse projeto.

  4. Procure os baldes para seu novo workspace. Seus nomes são:

    • databricks-<workspace id>
    • databricks-<workspace id>-system
  5. Para cada balde:

    1. Clique no balde para acessar view detalhes.

    2. Clique na guia Permissões .

    3. Analise todas as entradas da lista de membros e determine se o acesso é esperado para cada membro.

    4. Verifique a coluna Condição do IAM . Algumas permissões, como as denominadas "Databricks serviço account para workspace", têm IAM Condições que as restringem a determinados buckets. A interface do usuário do console do Google Cloud não avalia a condição, portanto, ela pode mostrar funções que na verdade não conseguiriam acessar o bucket.

      Preste atenção especial às funções sem nenhuma condição de IAM. Considere adicionar restrições a estes itens:

      • Ao adicionar permissões de armazenamento no nível do projeto ou acima, use as condições do IAM para excluir os buckets do Databricks ou para permitir apenas buckets específicos.

      • Escolha o conjunto mínimo de permissões necessárias. Por exemplo, se somente o acesso de leitura for necessário, especifique Storage Viewer em vez de Storage Admin.

atenção

Não use funções básicas porque elas são muito amplas.

  1. Ative o registro de auditoria de acesso a dados do Google Cloud. A Databricks recomenda enfaticamente que o senhor ative o registro de auditoria do Data Access para os buckets do GCS que a Databricks cria. Isso permite uma investigação mais rápida de quaisquer problemas que possam surgir. Esteja ciente de que o registro de auditoria do Data Access pode aumentar os custos de uso do GCP. Para obter instruções, consulte Configuração dos logs de auditoria do Data Access.

Se o senhor tiver dúvidas sobre como proteger esses GCS buckets, entre em contato com a equipe Databricks account .

Próximas etapas

Agora que o senhor implantou o site workspace, pode começar a desenvolver sua estratégia de dados. A Databricks recomenda os seguintes artigos: