Crie um workspace usando o console account
Este artigo descreve como criar e gerenciar o espaço de trabalho usando o console account. Como alternativa, o senhor pode criar um workspace usando a conta API ou Terraform.
Antes de começar
- Certifique-se de que o senhor entendeu todas as definições de configuração antes de criar um novo workspace. O senhor não pode modificar uma configuração do workspace depois de criar o workspace.
- O senhor deve ter algumas permissões necessárias do Google em seu account, que pode ser uma conta do Google ou um serviço account. Consulte Permissões necessárias.
- Certifique-se de que o workspace senhor tenha cotas suficientes de recursos do Google Cloud necessárias para o. Solicite um aumento de cota se precisar.
Criar um workspace
Para criar um workspace:
-
Escolha um tipo de rede para seu novo workspace:
- Databricks-gerenciar VPC (default ): Databricks cria e gerencia o ciclo de vida do VPC. Se você escolher esse tipo de rede, não há etapas adicionais a serem executadas agora.
- Customer-gerenciar VPC : Crie e especifique seu próprio customer-gerenciar VPC para seu novo Databricks workspace usar. Se você escolher esse tipo de rede, execute as seguintes etapas agora:
- Analise todos os requisitos para gerenciar o cliente VPC.
- Crie sua VPC.
- registra sua configuração de rede, que representa seu VPC e suas sub-redes.
-
Databricks account Comolog in account administrador do , acesse o console e clique no ícone do espaço de trabalho.
-
Clique em Create workspace .
-
No campo Nome do workspace , insira um nome legível por humanos para este workspace. Somente caracteres alfanuméricos, sublinhados e hifens são permitidos; e o nome deve ter de 3 a 30 caracteres.
-
No campo Region (Região ), selecione uma região para a rede e o clustering do site workspace. Para obter a lista de regiões compatíveis, consulte Nuvens e regiões do Databricks.
-
No campo ID do projeto do Google Cloud , insira seu ID do projeto do Google Cloud.
Se o senhor planeja usar um gerenciador de clientes VPC para este workspace:
- Se for uma VPC autônoma, defina isso como o ID do projeto para sua VPC.
- Se for um Shared VPC, defina isso como o ID do projeto para esse recurso do workspace.
-
Configuração de rede. Essa etapa varia de acordo com o tipo de rede do site workspace. Para gerenciar o cliente VPC, clique no link Gerenciar o cliente VPC tab.
tab :::tab-item[Databricks-gerenciar VPC]
- Opcionalmente, especifique tamanhos de sub-rede personalizados. Se o senhor deixar esses campos em branco, o site Databricks usará o padrão.
Configure com precisão as sub-redes GKE usadas pelo site Databricks workspace . O senhor não pode alterá-los depois que o workspace for implantado. Se os intervalos de endereços das sub-redes do Databricks forem muito pequenos, o workspace esgotará seu espaço IP, o que, por sua vez, causará falha no trabalho do Databricks. Para determinar os tamanhos de intervalo de endereços de que o senhor precisa, a Databricks fornece uma calculadora de sub-rede como uma planilha do Microsoft Excel.
Clique em Advanced configurations (Configurações avançadas ) para especificar intervalos de IP personalizados no formato CIDR. Os intervalos de IP desses campos não devem se sobrepor. Todos os endereços IP devem estar totalmente dentro dos seguintes intervalos: 10.0.0.0/8
, 100.64.0.0/10
, 172.16.0.0/12
, 192.168.0.0/16
e 240.0.0.0/4
.
Os tamanhos desses intervalos de IP afetam o número máximo de nós do site workspace.
- No campo Subnet CIDR , digite o intervalo de IPs no formato CIDR a ser usado para a sub-rede. Os nós do clustering GKE são provenientes desse intervalo de IP. Esse também é o intervalo de IP da sub-rede em que o clustering do GKE reside. O intervalo não deve ser maior que
/9
nem menor que/29
. - No campo Intervalo de endereços do pod , digite o intervalo de IP no formato CIDR a ser usado como o intervalo de IP secundário para pods GKE. O intervalo não deve ser maior que
/9
nem menor que/21
. - No campo de intervalo de endereços do serviço , digite o intervalo de IP no formato CIDR para usar como intervalo de IP secundário para o serviço GKE. O intervalo não deve ser maior que
/16
nem menor que/27
. :::
tab-item[customer-gerenciar VPC]
- Especifique uma configuração de rede que represente sua VPC e suas sub-redes:
- Rede Mode : Defina essa opção como Rede gerenciada pelo cliente .
- Configuração de rede : selecione o nome da sua configuração de rede. ::: ::::
-
(Opcional) Configure os detalhes sobre o clustering do GKE privado.
- Em default, Databricks cria um clustering GKE privado em vez de um clustering GKE público. Os nós GKE de um cluster privado não têm IP público que possa ser roteado na Internet pública. Essa opção exige que a Databricks crie um NAT adicional na nuvem do Google Cloud. Para um cluster privado, o senhor pode definir opcionalmente um valor personalizado para o intervalo de IPs do recurso mestre GKE. Clique em Advanced configurations e defina o campo IP range for GKE master recurso . Todos os endereços IP devem estar totalmente dentro dos seguintes intervalos:
10.0.0.0/8
,100.64.0.0/10
,172.16.0.0/12
,192.168.0.0/16
e240.0.0.0/4
. O intervalo deve ter o tamanho/28
. - Para usar um clustering GKE público, clique em Advanced configurations (Configurações avançadas) e desmarque Enable private clustering (Ativar clustering privado ).
- Em default, Databricks cria um clustering GKE privado em vez de um clustering GKE público. Os nós GKE de um cluster privado não têm IP público que possa ser roteado na Internet pública. Essa opção exige que a Databricks crie um NAT adicional na nuvem do Google Cloud. Para um cluster privado, o senhor pode definir opcionalmente um valor personalizado para o intervalo de IPs do recurso mestre GKE. Clique em Advanced configurations e defina o campo IP range for GKE master recurso . Todos os endereços IP devem estar totalmente dentro dos seguintes intervalos:
-
(Opcional) O senhor pode proteger o site workspace com conectividade privada e reduzir os riscos de exfiltração de dados ativando o Google Private Service Connect (PSC) no site workspace. Para configurar isso, clique em Configurações avançadas e escolha um objeto de configurações de acesso privado. Antes de adicionar a configuração do PSC, o site Databricks recomenda enfaticamente a leitura dos artigos Enable Private serviço Connect for your workspace para conhecer os requisitos e o contexto.
-
(Opcional) O senhor pode adicionar a chave do gerenciador de clientes para dois casos de uso diferentes:
- dados do serviço gerenciado no plano de controle doDatabricks (Notebook, segredos e dados de consulta do Databricks SQL ).
- armazenamento do espaço de trabalho (os dois buckets workspace GCS , bem como os volumes GCE Persistent Disk de um clustering ou SQL warehouse).
Para configurar isso durante a criação do site workspace, o senhor pode usar os dois seletores para selecionar uma configuração de criptografia key já criada para cada caso de uso. Você pode escolher a mesma configuração se ela suportar os dois casos de uso. Para obter instruções detalhadas usando o console account, consulte Configurar a chave gerenciadora de clientes para criptografia.
Como alternativa, o senhor também pode criar uma configuração key neste fluxo de criação workspace clicando em um seletor para um caso de uso e clica ndo em Add new encryption key configuration (Adicionar nova configuração de criptografia ).
-
Clique em Salvar .
-
Se esta for a primeira vez que o senhor cria um workspace, uma janela pop-up do Google solicitará que o senhor selecione seu Google account. Complete as instruções a seguir.
Se o senhor não vir a janela pop-up do Google account:
-
Se a página não mudar, você pode ter um bloqueador de pop-ups em seu navegador. Procure uma notificação sobre o bloqueio de uma janela pop-up. Configure seu bloqueador de pop-ups para permitir janelas pop-up do domínio
accounts.gcp.databricks.com
. -
Se o senhor não vir a caixa de diálogo do Google, mas o navegador mostrar uma lista de espaços de trabalho, passe para a próxima etapa.
-
Na caixa de diálogo Google, selecione o Google account com o qual o senhor fez login no console account.
-
Na próxima tela, responda à solicitação de consentimento que solicita escopos adicionais. Clique em Permitir .
A tela de consentimento é exibida na primeira vez que o senhor tenta criar um workspace. Para novos espaços de trabalho sucessivos, o Google não mostra a tela de consentimento. Se o senhor usar as ferramentas do Google account para revogar o consentimento concedido a Databricks, o Google exibirá a tela de consentimento novamente.
-
Confirme que o site workspace foi criado com sucesso. Ao lado do site workspace na lista de espaços de trabalho, clique em Open . Para view workspace status e testar o workspace, consulte view workspace status.
-
Prenda as caçambas do workspace's GCS. Consulte Proteger os workspace's GCS buckets em seu projeto.
Quando o senhor cria um workspace, Databricks on Google Cloud cria dois buckets Google Cloud Storage (GCS) no seu projeto do Google Cloud. Databricks Recomenda-se enfaticamente que o senhor proteja esses GCS baldes de modo que não possam ser acessados de fora Databricks on Google Cloud.
Durante a criação do workspace, o Databricks habilita alguns itens necessários do Google APIs no projeto, caso ainda não estejam habilitados. Consulte Ativação do Google APIs em um projeto workspace.
Habilitando o Google APIs em um projeto workspace
Durante a criação do workspace, o Databricks ativa automaticamente os seguintes itens obrigatórios do Google APIs no projeto do Google Cloud, caso ainda não estejam ativados:
Esses APIs não são desativados automaticamente durante a exclusão do workspace.
limites de criação de espaço de trabalho
O senhor pode criar no máximo 200 espaços de trabalho por semana no mesmo projeto do Google Cloud. Se o senhor exceder esse limite, a criação de um workspace falhará com a mensagem de erro: "Criação de nuvem personalizada IAM role <your-role> no projeto <your-project> rejeitada".
Ver o status do site workspace
Depois de criar um workspace, você pode visualizar seu status na página Workspaces .
- Provisionamento : em andamento. Aguarde alguns minutos e atualize a página.
- Em execução : implantação bem-sucedida do workspace.
- Falha : falha na implantação.
- Banido : Entre em contato com a equipe Databricks account .
- Cancelamento : em processo de cancelamento.
Se o status do seu novo workspace for Failed (Falha ), clique em workspace para view uma mensagem de erro detalhada. Se o senhor não entender o erro, entre em contato com a equipe Databricks account .
O senhor não pode atualizar a configuração de um site com falha workspace. O senhor deve excluí-lo e criar um novo workspace.
fazer login em um workspace
- Vá para o consoleaccount e clique no ícone do espaço de trabalho .
- Na linha com seu workspace, clique em Abrir .
- Para log in como administrador workspace, log in com seu endereço de account proprietário ou account administrador email.
Proteja os workspace's GCS buckets em seu projeto
Quando o senhor cria um workspace, Databricks on Google Cloud cria dois buckets Google Cloud Storage GCS no seu projeto GCP:
- Um bucket do site GCS armazena dados do sistema que são gerados à medida que o senhor usa vários recursos do site Databricks, como a criação do Notebook. Esse bucket inclui revisões do Notebook, detalhes da execução do trabalho, resultados do comando e Spark logs.
- Outro bucket store do GCS é o armazenamento raiz do workspace para o sistema de arquivosDatabricks (DBFS). Seu bucket DBFS root não se destina ao armazenamento de dados de produção do cliente. Criar outra fonte de dados e armazenamento para dados de produção do cliente em GCS buckets adicionais. Opcionalmente, o senhor pode montar os buckets adicionais do GCS como montagens do Databricks File System (DBFS). Consulte Conectar-se ao Google Cloud Storage.
Databricks Recomenda-se enfaticamente que o senhor proteja esses GCS baldes de modo que não possam ser acessados de fora Databricks on Google Cloud.
Para proteger esses buckets do GCS:
-
Em um navegador, acesse o GCP Cloud Console.
-
Selecione o projeto do Google Cloud que hospeda seu Databricks workspace.
-
Acesse a página do serviço de armazenamento desse projeto.
-
Procure os baldes para seu novo workspace. Seus nomes são:
databricks-<workspace id>
databricks-<workspace id>-system
-
Para cada balde:
-
Clique no balde para acessar view detalhes.
-
Clique na guia Permissões .
-
Analise todas as entradas da lista de membros e determine se o acesso é esperado para cada membro.
-
Verifique a coluna Condição do IAM . Algumas permissões, como as denominadas "Databricks serviço account para workspace", têm IAM Condições que as restringem a determinados buckets. A interface do usuário do console do Google Cloud não avalia a condição, portanto, ela pode mostrar funções que na verdade não conseguiriam acessar o bucket.
Preste atenção especial às funções sem nenhuma condição de IAM. Considere adicionar restrições a estes itens:
-
Ao adicionar permissões de armazenamento no nível do projeto ou acima, use as condições do IAM para excluir os buckets do Databricks ou para permitir apenas buckets específicos.
-
Escolha o conjunto mínimo de permissões necessárias. Por exemplo, se somente o acesso de leitura for necessário, especifique Storage Viewer em vez de Storage Admin.
-
-
Não use funções básicas porque elas são muito amplas.
- Ative o registro de auditoria de acesso a dados do Google Cloud. A Databricks recomenda enfaticamente que o senhor ative o registro de auditoria do Data Access para os buckets do GCS que a Databricks cria. Isso permite uma investigação mais rápida de quaisquer problemas que possam surgir. Esteja ciente de que o registro de auditoria do Data Access pode aumentar os custos de uso do GCP. Para obter instruções, consulte Configuração dos logs de auditoria do Data Access.
Se o senhor tiver dúvidas sobre como proteger esses GCS buckets, entre em contato com a equipe Databricks account .
Próximas etapas
Agora que o senhor implantou o site workspace, pode começar a desenvolver sua estratégia de dados. A Databricks recomenda os seguintes artigos:
- Adicione usuários, grupos e entidades de serviço ao seu workspace. gerenciar usuários, entidades de serviço e grupos.
- Saiba mais sobre governança de dados e privilégios no Databricks. Consulte O que é o Unity Catalog?
- Conecte seu Databricks workspace à fonte de dados externa. Consulte Conectar-se à fonte de dados.
- Faça a ingestão de seus dados no site workspace. Consulte Conectores padrão em LakeFlow Connect.
- Aprenda a gerenciar o acesso a objetos do site workspace, como Notebook, compute, dashboards e consultas. Consulte Listas de controle de acesso.