Solução de problemas ao criar workspaces

Visão geral

As seções a seguir descrevem os erros de configuração durante a criação de workspaces e como corrigir os erros.A maioria dos problemas se aplica à criação de workspaces usando o account console ou a account API, com exceções conforme indicado.

Erros gerais

Número máximo de VPCs

Se você receber uma mensagem de erro que mencione o número máximo de VPCs, envie uma solicitação de aumento de limite de serviço para o número de VPCs permitidas na região. Esse erro normalmente acontece apenas se você estiver usando uma VPC gerenciada pelo Databricks, não uma VPC gerenciada pelo cliente.

Número máximo de endpoints da VPC

Se você receber uma mensagem de erro que mencione um número máximo de endpoints da VPC, envie uma solicitação de aumento de limite de serviço para o número de endpoints da VPC de gateway permitidos na região.Esse erro normalmente acontece apenas se você estiver usando uma VPC gerenciada pelo Databricks, não uma VPC gerenciada pelo cliente.

Número máximo de endereços

Se você receber uma mensagem de erro que mencione um número máximo de endereços, envie uma solicitação de aumento de limite de serviço para endereços IP elásticos da VPC permitidos na região. Esse erro normalmente acontece apenas se você estiver usando uma VPC gerenciada pelo Databricks, não uma VPC gerenciada pelo cliente.

Não autorizado a realizar esta operação

Se você receber um erro informando que você não está autorizado a executar essa operação, verifique se sua IAM role tem todas as políticas necessárias, conforme definido no artigo da IAM role.

Mensagens de erro de configuração de armazenamento

Solicitação malformada: falha nas verificações de validação da configuração de armazenamento

Se você receber uma mensagem de erro mencionando falha nas verificações de validação da configuração de armazenamento, suas permissões de bucket do S3 não estão configuradas corretamente. Siga as etapas do artigo Criar um bucket do S3 para implantação de workspaces para garantir que as permissões do bucket do S3 estejam corretas.

Mensagens de erro de configuração de credenciais

Solicitação malformada: falha nas verificações de validação da configuração de credenciais

A lista de verificações de permissões na mensagem de erro indica a causa provável de seus problemas.

  • Se a validação da configuração de credenciais falhar em menos de dez verificações de permissão, é provável que sua política do IAM não tenha essas permissões específicas. Copie a política correta do artigo Criar uma IAM role para implantação de workspaces.

  • Se a validação da configuração da credenciais falhar em dez ou mais verificações, é mais provável que a relação de confiança da IAM role esteja configurada incorretamente. Verifique se a relação de confiança da função de cliente está configurada corretamente de acordo com as instruções no artigo Criar uma IAM role para implantação de workspaces.

Se tanto a sua política quanto a relação de confiança parecerem estar corretas, verifique também o seguinte:

  • Confirme se você inclui o ARN de função correto no objeto de credenciais.

  • Confirme se você tem políticas de controle de serviço (SCPs) no nível da organização que negam a ação AssumeRole ou negam o acesso ao EC2/VPC. Se não tiver certeza, pergunte ao administrador da AWS sobre SCPs.

Configuração de rede

A sub-rede já está em uso por outra rede

Um erro de sub-rede em uso geralmente se parece com o seguinte:

MALFORMED_REQUEST: Malformed parameters: subnet_id subnet-xxxxxxxx1 is already used by another Network, subnet_id subnet-xxxxxxxx2 is already used by another Network.

Isso significa que você tem uma configuração de rede do Databricks que utiliza estas mesmas sub-redes. Para resolver isso, siga um destes procedimentos:

  • Excluir a configuração anterior. Se o senhor estiver usando a API Account, use a API Delete network configuration. O senhor também pode usar o console da conta para excluir a configuração.

  • Se essa configuração anterior não estiver em uso, você poderá usá-la para seu novo workspace.

  • Se essa configuração de rede já estiver em uso por um workspace em execução, crie novas sub-redes e uma nova configuração de rede para seu novo workspace.

Observe que, se uma tentativa anterior de criação de um workspace falhar, os componentes de configuração relacionados não serão excluídos automaticamente.

Não há erros de configuração de rede durante a instalação, mas aparecem erros durante a criação do workspace

Uma configuração de rede pode mostrar erros após tentar implantar um workspace, mas não mostrou nenhum erro quando você a configurou. Isso ocorre porque o Databricks realiza somente validações básicas ao criar o objeto de rede. Por exemplo, ele verifica sub-redes exclusivas, grupos de segurança exclusivos e campos ausentes.

A validação mais significativa da configuração de rede ocorre somente depois que você tenta criar um novo workspace com a nova configuração de rede. Se houve erros durante a implantação do workspace, consulte atentamente a mensagem de erro de validação da rede para obter detalhes.

Um workspace parece funcionar, mas sua configuração de rede tem status WARNED

Certifique-se de que o senhor pode começar a cluster, executar a data Job, e de que não há DBFS_DOWN ou METASTORE_DOWN aparecendo em seu eventocompute logs . Se não houver erros desse tipo no log de eventos do cluster, o status WARNED não é necessariamente um problema.

Para um novo workspace, há uma série de coisas que o Databricks tenta verificar. Se você não fizer um roteamento simples, como sub-redes do workspace → Gateway NAT → Gateway da Internet, o Databricks não poderá verificar se sua rede está correta. Nesses casos, o Databricks exibe um aviso sobre a configuração de rede.

Verifique se há erros na tabela de rotas da sub-rede

No log de eventos do cluster, você poderá ver erros como:

subnet: Route Table with ID rtb-xxxxxxxx used for subnet with ID subnet-yyyyyyyyy is missing default route to direct all traffic to the NAT gateway nat-zzzzzzzzzzz.

Esse erro pode, na verdade, indicar um problema se você estiver tentando implantar uma configuração simples do Databricks workspace.

Se você fizer sua própria configuração de saída, como roteamento por meio de um firewall (opcionalmente por meio de um Transit Gateway de forma hub-spoke), esse erro não será necessariamente significativo.

Outro motivo potencial para esse erro é registrar uma sub-rede NAT como uma sub-rede do Databricks para clusters. Remova a sub-rede NAT da lista de sub-redes do Databricks workspace e recrie-a.

Não adicione sua sub-rede NAT à lista de sub-redes em uma configuração de rede

Não adicione sua sub-rede NAT à lista de sub-redes do Databricks workspace. A sub-rede NAT é para o gateway NAT e não se destina a uma sub-rede para implantação de nós de cluster do Databricks. Ao criar uma configuração de rede, liste somente as duas sub-redes a serem usadas para nós do Databricks.

Não foi possível atualizar o grupo de segurança com as regras mais recentes

Você pode ver um erro de log do cluster como:

Security Group with ID sg-xxxx could not be updated with latest Security Group Rules

Atualize a IAM role para estar em conformidade com o que temos no artigo sobre a IAM role. Em alguns casos, o recurso para AuthorizeSecurityGroupEgress e ações semelhantes podem ter valores separados por vírgula. Atualize-os para separar recursos em vez de um recurso:

Correto

"Action": [
    "ec2:AuthorizeSecurityGroupEgress",
    "ec2:AuthorizeSecurityGroupIngress",
    "ec2:RevokeSecurityGroupEgress",
    "ec2:RevokeSecurityGroupIngress"
],
"Resource": [
    "arn:aws:ec2:us-east-1:444:security-group/sg-xxxx",
    "arn:aws:ec2:us-east-1:444:security-group/sg-yyyy",
    "arn:aws:ec2:us-east-1:444:security-group/sg-zzzz"
],

Incorreto

"Resource": ["arn:aws:ec2:us-east-1:444:security-group/sg-xxxx,sg-yyyy,sg-zzzz"],

Se você tiver problemas de configuração de rede, considere usar uma VPC gerenciada pelo Databricks

Se você tiver problemas de configuração de rede, poderá optar por criar o workspace com uma VPC gerenciada pelo Databricks em vez de uma VPC gerenciada pelo cliente.

Importante

Você deve escolher se deseja fornecer uma VPC gerenciada pelo cliente ao criar seu workspace.Você não pode alterar essa configuração depois de criar o workspace com êxito.

Para alternar um workspace com falha para usar uma VPC gerenciada pelo Databricks, você também deve usar uma IAM role diferente entre accounts:

  1. Acesse o artigo sobre a IAM role entre accounts.

  2. Selecione e copie a política rotulada VPC do Databricks.

  3. Use essa política para a criação do workspace usando o account console ou a criação do workspace usando a account API

    • No consoleaccount , no seletor de configuração de rede, selecione Databricks-gerenciar.

    • Para a account API, tenha cuidado para não incluir o elemento network_id, por exemplo:

      {
        "workspace_name": "<workspace-name>",
        "deployment_name": "<deployment-name>",
        "aws_region": "<aws-region>",
        "credentials_id": "<credentials-id>",
        "storage_configuration_id": "<storage-configuration-id>"
      }
      

Diagnosticar problemas de rede VPC com o AWS Reachability Analyzer

O Reachability Analyzer da AWS é uma ferramenta de análise de configuração que você pode usar para testar um recurso de origem e um recurso de destino em sua VPC.Você pode encontrá-lo em seu console da AWS como VPC Reachability Analyzer.

Com o Reachability Analyzer, você pode girar uma máquina de teste na sub-rede privada do Databricks sem fazer login. Você precisa adicionar a origem como sua instância do EC2 e o destino como o endereço IP e a porta do plano de controle do Databricks. Em seguida, você pode testar a conectividade para encontrar o componente de bloqueio. Para obter mais informações, consulte O que é o Reachability Analyzer.

Mensagens de erro específicas da account API

Os seguintes erros são potencialmente retornados de uma solicitação da account API para criar o workspace.

Solicitação malformada: <config> inválido no corpo da solicitação HTTP

O JSON do corpo de sua solicitação está formatado incorretamente. Nesta mensagem de erro, o <config> refere-se a credenciais, configurações de armazenamento ou redes. Confirme se todos os caracteres especiais foram escapados corretamente no URL ou use um aplicativo cliente da API REST, como o Postman.

Solicitação malformada: <config> inválido no corpo

O JSON do corpo de sua solicitação está formatado incorretamente. Nesta mensagem de erro, o <config> refere-se a credenciais, configurações de armazenamento ou redes. Confirme se todos os caracteres especiais foram escapados corretamente no URL ou use um aplicativo cliente da API REST, como o Postman.