Crie um workspace usando o console account
Este artigo descreve como criar e gerenciar o espaço de trabalho usando o console account. Como alternativa, o senhor pode criar um workspace usando a conta API ou Terraform.
Antes de começar
- Certifique-se de que o senhor entendeu todas as definições de configuração antes de criar um novo workspace. As configurações do espaço de trabalho não podem ser modificadas depois que o senhor criar o workspace.
- O senhor deve ter algumas permissões necessárias do Google em seu account, que pode ser uma conta do Google ou um serviço account. Consulte Permissões necessárias.
- Certifique-se de que o workspace senhor tenha cotas suficientes de recursos do Google Cloud necessárias para o. Solicite um aumento de cota se precisar.
Escolha um tipo de rede
Antes de criar seu workspace, o senhor deve escolher onde deseja que o workspace seja implantado:
- Databricks-gerenciar VPC (default ): Databricks cria e gerencia o ciclo de vida do VPC. Se você escolher esse tipo de rede, não há etapas adicionais a serem executadas agora.
- Customer-gerenciar VPC : Crie e especifique seu próprio customer-gerenciar VPC para seu novo Databricks workspace usar. Se você escolher esse tipo de rede, execute as seguintes etapas agora:
- Analise todos os requisitos para gerenciar o cliente VPC.
- Crie sua VPC.
- registra sua configuração de rede, que representa seu VPC e suas sub-redes.
Criar um workspace
Para criar um workspace:
-
Databricks account Comolog in account administrador do , acesse o console e clique no ícone do espaço de trabalho.
-
Clique em Create workspace .
-
No campo Nome do workspace , insira um nome legível por humanos para este workspace. Somente caracteres alfanuméricos, sublinhados e hifens são permitidos; e o nome deve ter de 3 a 30 caracteres.
-
No campo Region (Região ), selecione uma região para a rede e o clustering do site workspace. Para obter a lista de regiões compatíveis, consulte Nuvens e regiões do Databricks.
-
No campo ID do projeto do Google Cloud , insira seu ID do projeto do Google Cloud. Se o senhor estiver implantado em um gerenciador de clientes VPC, o ID dependerá se o senhor estiver usando um site autônomo ou compartilhado VPC:
- Para uma VPC autônoma, defina isso como o ID do projeto para sua VPC.
- Para um VPC compartilhado, defina isso como o ID do projeto para esse recurso do workspace.
-
Configuração de rede. Essa etapa varia de acordo com o tipo de rede do site workspace. Para gerenciar o cliente VPC, clique no link Gerenciar o cliente VPC tab.
tab :::tab-item[Databricks-gerenciar VPC] Opcionalmente, clique em Advanced configurations (Configurações avançadas ) para especificar intervalos de IP personalizados para a sub-rede GCE. Se o senhor deixar esses campos em branco, o site Databricks usará o padrão. Para obter orientação sobre o dimensionamento, consulte Dimensionamento de sub-rede para uma nova workspace
Os tamanhos devem usar o formato CIDR. Os endereços IP devem estar totalmente dentro dos seguintes intervalos:
10.0.0.0/8
,100.64.0.0/10
,172.16.0.0/12
,192.168.0.0/16
e240.0.0.0/4
. :::tab-item[customer-gerenciar VPC]
- Especifique uma configuração de rede que represente sua VPC e suas sub-redes:
- Rede Mode : Defina essa opção como Rede gerenciada pelo cliente .
- Configuração de rede : selecione o nome da sua configuração de rede. ::: ::::
- Especifique uma configuração de rede que represente sua VPC e suas sub-redes:
-
(Opcional) Ative o Google Private Service Connect (PSC) no site workspace para proteger o workspace com conectividade privada e reduzir os riscos de exfiltração de dados. Para configurar isso, clique em Configurações avançadas e escolha um objeto de configurações de acesso privado. Antes de adicionar a configuração do PSC, o site Databricks recomenda a leitura de Enable Private Service Connect for your workspace para conhecer os requisitos e o contexto.
-
(Opcional) Adicione configurações de chave de gerenciar clientes para serviço gerenciado, armazenamento workspace ou ambos. O senhor pode selecionar a mesma configuração para o serviço gerenciado e para o armazenamento em workspace se ela for compatível com os dois casos de uso.
-
Clique em Salvar .
-
Se esta for a primeira vez que o senhor cria um workspace, uma janela pop-up do Google solicita que o senhor selecione seu Google account e consinta com a solicitação de escopos adicionais. Se a janela pop-up não aparecer e a página não mudar, você pode ter um bloqueador de pop-ups no seu navegador.
-
Confirme que o site workspace foi criado com sucesso. Ao lado de seu workspace na lista de espaços de trabalho, clique em Open .
-
Prenda as caçambas do workspace's GCS. Consulte Proteger os workspace's GCS buckets em seu projeto.
Habilitando o Google APIs em um projeto workspace
Durante a criação do workspace, o Databricks ativa automaticamente os seguintes itens obrigatórios do Google APIs no projeto do Google Cloud, caso ainda não estejam ativados:
Esses APIs não são desativados automaticamente durante a exclusão do workspace.
limites de criação de espaço de trabalho
O senhor pode criar no máximo 200 espaços de trabalho por semana no mesmo projeto do Google Cloud. Se o senhor exceder esse limite, a criação de um workspace falhará com a mensagem de erro: "Criação de nuvem personalizada IAM role <your-role> no projeto <your-project> rejeitada".
Ver o status do site workspace
Depois de criar um workspace, você pode visualizar seu status na página Workspaces .
- Provisionamento : em andamento. Aguarde alguns minutos e atualize a página.
- Em execução : implantação bem-sucedida do workspace.
- Falha : falha na implantação.
- Banido : Entre em contato com a equipe Databricks account .
- Cancelamento : em processo de cancelamento.
Se o status do seu novo workspace for Failed (Falha ), clique em workspace para view uma mensagem de erro detalhada. Se o senhor não entender o erro, entre em contato com a equipe Databricks account .
O senhor não pode atualizar a configuração de um site com falha workspace. O senhor deve excluí-lo e criar um novo workspace.
fazer login em um workspace
- Vá para o consoleaccount e clique no ícone do espaço de trabalho .
- Na linha com seu workspace, clique em Abrir .
Proteja os workspace's GCS buckets em seu projeto
Quando o senhor cria um workspace, Databricks on Google Cloud cria dois buckets Google Cloud Storage GCS no seu projeto GCP:
- Um bucket GCS armazena dados do sistema, como revisões de notebooks, detalhes de execução de trabalhos, resultados de comandos e Spark logs.
- Um bucket GCS é o armazenamento raiz do seu workspacepara o sistema de arquivosDatabricks (DBFS). Seu bucket DBFS root não se destina ao armazenamento de dados de produção do cliente. Criar outra fonte de dados e armazenamento para dados de produção do cliente em GCS buckets adicionais. Opcionalmente, o senhor pode montar os buckets adicionais do GCS como montagens do Databricks File System (DBFS). Consulte Conectar-se ao Google Cloud Storage.
Databricks Recomenda-se enfaticamente que o senhor proteja esses GCS baldes de modo que não possam ser acessados de fora Databricks on Google Cloud.
Para proteger esses buckets do GCS:
-
Em um navegador, acesse o GCP Cloud Console.
-
Selecione o projeto do Google Cloud que hospeda seu Databricks workspace.
-
Acesse a página do serviço de armazenamento desse projeto.
-
Procure os baldes para seu novo workspace. Seus nomes são:
databricks-<workspace id>
databricks-<workspace id>-system
-
Para cada balde:
-
Clique no balde para acessar view detalhes.
-
Clique na guia Permissões .
-
Analise todas as entradas da lista de membros e determine se o acesso é esperado para cada membro.
-
Verifique a coluna Condição do IAM . Algumas permissões, como as denominadas "Databricks serviço account para workspace", têm IAM Condições que as restringem a determinados buckets. A interface do usuário do console do Google Cloud não avalia a condição, portanto, ela pode mostrar funções que na verdade não conseguiriam acessar o bucket.
Para funções sem nenhuma condição de IAM, considere adicionar restrições a elas:
-
Ao adicionar permissões de armazenamento no nível do projeto ou acima, use as condições do IAM para excluir os buckets do Databricks ou para permitir apenas buckets específicos.
-
Escolha o conjunto mínimo de permissões necessárias. Por exemplo, se somente o acesso de leitura for necessário, especifique Storage Viewer em vez de Storage Admin.
-
-
Não use funções básicas porque elas são muito amplas.
- Ative o registro de auditoria de acesso a dados do Google Cloud. A Databricks recomenda enfaticamente que o senhor ative o registro de auditoria do Data Access para os buckets do GCS que a Databricks cria. Isso permite uma investigação mais rápida de quaisquer problemas que possam surgir. Esteja ciente de que o registro de auditoria do Data Access pode aumentar os custos de uso do GCP. Para obter instruções, consulte Configuração dos logs de auditoria do Data Access.
Se o senhor tiver dúvidas sobre como proteger esses GCS buckets, entre em contato com a equipe Databricks account .
Próximas etapas
Agora que o senhor implantou o site workspace, pode começar a desenvolver sua estratégia de dados. A Databricks recomenda os seguintes artigos:
- Adicione usuários, grupos e entidades de serviço ao seu workspace. gerenciar usuários, entidades de serviço e grupos.
- Saiba mais sobre governança de dados e privilégios no Databricks. Consulte O que é o Unity Catalog?
- Conecte seu Databricks workspace à fonte de dados externa. Consulte Conectar à fonte de dados e ao serviço externo.
- Faça a ingestão de seus dados no site workspace. Consulte Conectores padrão em LakeFlow Connect.
- Aprenda a gerenciar o acesso a objetos do site workspace, como Notebook, compute, dashboards e consultas. Consulte Listas de controle de acesso.