Pular para o conteúdo principal

Códigos de erro clássicos de encerramento compute

Este artigo fornece orientações para a resolução de problemas relacionados a códigos de erro comuns de encerramento cluster . Utilize o código de erro do log de eventos do seu cluster para encontrar a causa relevante e a correção recomendada.

BOOTSTRAP_TIMEOUT_DUE_TO_MISCONFIG

O processo de inicialização da máquina virtual expirou devido a problemas de conectividade de rede, downloads lentos de artefatos ou problemas com o provedor cloud . O tempo limite de inicialização é de 700 segundos.

Exemplo de mensagem de erro

[id: InstanceId([REDACTED]), status: INSTANCE_INITIALIZING, ...] with threshold 700 seconds timed out after 703891 milliseconds. Instance bootstrap inferred timeout reason: UnknownReason

Solução de problemas dos passos

  1. Verifique a conectividade com o armazenamento de artefatos do Databricks.
  2. Verifique a conectividade com o plano de controle do Databricks.
  3. Verifique a resolução de DNS para o endpoint Databricks .
  4. Verifique as regras do firewall e do grupo de segurança.
  5. Teste se o problema é constante ou intermitente.

Correção recomendada

Garantir a conectividade de rede com o armazenamento e o plano de controle do Databricks. Configure o endpoint de serviço ou VPC endpoint para melhorar o desempenho da rede. Revisar a configuração do firewall, DNS e roteamento. Se a configuração de rede estiver verificada, mas os tempos limite persistirem, entre em contato com o suporte da Databricks.

FALHA NA SOLICITAÇÃO DO PLANO DE CONTROLE DEVIDO A CONFIGURAÇÃO INCORRETA

As máquinas virtuais não conseguem acessar o plano de controle do Databricks devido a falhas na resolução de DNS, regras de firewall ou configuração incorreta da rede.

Exemplo de mensagem de erro

Network health check reported that instance is unable to reach Databricks Control Plane. Please check that instances have connectivity to the Databricks Control Plane. Instance bootstrap inferred timeout reason: NetworkHealthCheck_CP_Failed

Solução de problemas dos passos

  1. Decodifique quaisquer mensagens de erro codificadas em Base64 no log de eventos do cluster.
  2. Verifique as configurações de DNS na configuração da sua rede.
  3. Analise as regras do firewall e as configurações de segurança da rede.
  4. Teste a conectividade do plano de controle a partir de uma máquina virtual na mesma rede.
  5. Verifique se os servidores DNS personalizados estão funcionando e acessíveis.

Correção recomendada

Verifique a configuração e a acessibilidade do servidor DNS. Garanta que as regras do firewall permitam o tráfego de saída para o plano de controle do Databricks.

Se a configuração de rede parecer correta, mas o problema persistir, entre em contato com o suporte da Databricks.

FALHA_NO_EXTRAÇÃO_DE_IMAGEM_DO_DOCKER

O cluster não conseguiu download a imagem Docker do registro de contêineres devido a problemas de rede, autenticação ou configuração.

Exemplo de mensagem de erro

Failed to pull docker image: authentication required

Solução de problemas dos passos

  1. Verifique se o nome e a tag da imagem Docker estão corretos na configuração cluster .
  2. Verifique a conectividade de rede com o registro de contêineres a partir do workspace.
  3. Teste o acesso ao registro a partir de uma máquina virtual na mesma rede.
  4. Verificar credenciais de autenticação para registros privados.
  5. Analise os logs do daemon do nó para obter mensagens de erro detalhadas.

Correção recomendada

Corrija a configuração da imagem Docker e verifique as credenciais de autenticação. Garanta que as regras de rede permitam o acesso ao registro de contêineres.

Se a configuração parecer correta, mas o problema persistir, entre em contato com o suporte da Databricks.

DOCKER_IMAGE_TOO_LARGE_FOR_INSTANCE_EXCEPTION

O tamanho da imagem Docker excede o espaço em disco disponível no tipo de instância selecionado.

Exemplo de mensagem de erro

Failed to launch container as the docker image is too large for the instance.

Solução de problemas dos passos

  1. Verifique o tamanho da imagem Docker .
  2. Analise a capacidade de disco do tipo de instância.
  3. Identifique camadas ou arquivos desnecessários na imagem Docker .
  4. Verifique se estão sendo usadas várias imagens grandes.

Correção recomendada

Utilize um tipo de instância com maior capacidade de disco, otimize a imagem Docker removendo arquivos e camadas desnecessários, use builds em várias etapas para reduzir o tamanho da imagem ou divida a funcionalidade em várias imagens menores. Entre em contato com o suporte da Databricks para obter ajuda com a otimização de imagens.

EOS_SPARK_IMAGE

A versão do Databricks Runtime (DBR) configurada para o cluster atingiu o fim do suporte (EOS).

Exemplo de mensagem de erro

Spark image release__11.0.x-snapshot-cpu-ml-scala2.12__databricks-universe__head__[REDACTED]__format-2 does not exist with exit code 2

Solução de problemas dos passos

  1. Verifique a versão do DBR na configuração do cluster.
  2. Revise as notas sobre a versãoDatabricks Runtime para datas EOS.
  3. Identifique quais versões do DBR são atualmente suportadas.
  4. Verifique se o Notebook ou o Job possuem dependências de versão do DBR.

Correção recomendada

Atualize a configuração do cluster para usar uma versão compatível do Databricks Runtime. Analise os requisitos de compatibilidade da biblioteca e do código antes de implantá-los em produção. Entre em contato com o suporte da Databricks se precisar de ajuda com a migração do DBR.

GCP_CAPACIDADE_INSUFICIENTE

O Google Cloud não possui capacidade suficiente para o tipo de máquina solicitado na zona selecionada.

Exemplos de mensagens de erro

The zone 'projects/[REDACTED]/zones/us-west1-b' does not have enough resources available to fulfill the request. (resource type: compute)
Requested minimum count of 1 VMs could not be created. | The zone 'projects/[REDACTED]/zones/us-west1-b' does not have enough resources available to fulfill the request. Try a different zone, or try again later.

Solução de problemas dos passos

  1. Consulte a página de integridade do serviço Google Cloud para obter informações sobre problemas de capacidade conhecidos.
  2. Analisar a disponibilidade dos tipos de máquinas em diferentes zonas.
  3. Verifique se as instâncias preemptíveis têm disponibilidade diferente.
  4. Verifique as tendências recentes de capacidade para o tipo de máquina.

Correção recomendada

Tente executar em uma zona diferente, use um tipo de máquina diferente com especificações semelhantes, mude para instâncias padrão se estiver usando preemptible ou programe execuções fora do horário de pico. Entre em contato com o suporte do Google Cloud para obter informações sobre a disponibilidade de capacidade.

GCP_IP_SPACE_ESGOTADO

A sub-rede GCP tem acesso a endereços IP disponíveis para alocação de máquinas virtuais.

Exemplo de mensagem de erro

IP space of 'projects/[REDACTED]/regions/us-west1/subnetworks/[REDACTED]' is exhausted. Insufficient free IP addresses in the IP range '[REDACTED]/23'. Consider expanding the current IP range or selecting an alternative IP range.

Solução de problemas dos passos

  1. Verifique o intervalo de IP da sub-rede e sua utilização no Console do GCP.
  2. Analise o número de instâncias e outros endereços IP que consomem recursos.
  3. Verifique se há reservas de endereço IP.
  4. Verifique se os intervalos de IP secundários estão configurados.

Correção recomendada

Expanda o intervalo de IPs da sub-rede, crie uma nova sub-rede com um intervalo de IPs maior e migre o workspace, limpe recursos não utilizados, use menos instâncias, porém maiores, ou configure intervalos de IPs secundários. Se necessário, entre em contato com o suporte Databricks para obter ajuda com a migração workspace .

GCP_NÃO_ENCONTRADO

O recurso GCP solicitado (rede, sub-rede, account de serviço etc.) não foi encontrado.

Exemplo de mensagem de erro

The resource 'projects/databricks-[REDACTED]' was not found

Solução de problemas dos passos

  1. Verifique o nome ou ID do recurso na configuração do cluster.
  2. Verifique se o recurso existe no Console do GCP.
  3. Verifique se o ID do projeto está correto.
  4. Verifique se o recurso foi excluído.
  5. Verifique as permissões de acesso ao recurso.

Correção recomendada

Corrija o identificador do recurso na configuração, recrie o recurso excluído, verifique os nomes do projeto e do recurso ou verifique as permissões account do serviço. Se a configuração parecer correta, entre em contato com o suporte da Databricks.

GCP_RESOURCE_QUOTA_EXCEDED

O lançamento cluster excederia os limites de cota do projeto GCP para CPUs, endereços IP ou recursos de disco.

Exemplos de mensagens de erro

Quota 'LOCAL_SSD_TOTAL_GB_PER_VM_FAMILY' exceeded. Limit: 30000.0 in region us-central1.
Quota 'SSD_TOTAL_GB' exceeded. Limit: 400.0 in region us-east1.

Solução de problemas dos passos

  1. Verifique o uso de cotas no Console do GCP > IAM e administração > Cotas .
  2. Identifique qual quota específica foi excedida (CPUs, IPs, discos).
  3. Analisar a utilização de recursos em todas as regiões.
  4. Verifique se há recursos presos ou órfãos.

Correção recomendada

Solicite um aumento de cota através do Console GCP , limpe recursos não utilizados para liberar cota, distribua cargas de trabalho entre várias regiões ou projetos ou use diferentes tipos de máquinas. Para solicitações de aumento de cota, entre em contato com o suporte do Google Cloud.

CAPACIDADE MÁXIMA DO POOL DE INSTÂNCIAS ATINGIDA

O pool de instâncias atingiu o limite máximo de capacidade configurado e não pode fornecer instâncias adicionais.

Exemplo de mensagem de erro

Instance pool is full, please consider increasing the pool size

Solução de problemas dos passos

  1. Verifique a configuração do pool de instâncias para a definição da capacidade máxima.
  2. Verifique quantas instâncias estão atualmente em uso no pool.
  3. Identifique quais clusters estão usando o pool.
  4. Verifique se existem instâncias de Parado que podem ser liberadas.

Correção recomendada

Aumente a capacidade máxima pool de instâncias, crie um pool de instâncias adicional para distribuir a carga, encerre clusters Parado que utilizam o pool ou configure clusters para usar um pool diferente. Analise o dimensionamento pool com base nos requisitos de carga de trabalho simultânea.

INSTÂNCIA_INALCANÇÁVEL_DEVIDO_A_CONFIGURAÇÃO_INCREGATIVA

As instâncias estão inacessíveis devido a configurações de rede incorretas, regras de firewall ou problemas de conectividade.

Exemplo de mensagem de erro

Bootstrap completes in the VM but control plane failed to reach the node. Please review your network configuration or firewall settings to allow Databricks to reach the node.

Solução de problemas dos passos

  1. Analise as regras do firewall e as configurações de segurança da rede para as portas de entrada necessárias.
  2. Teste a conectividade do plano de controle com a rede da instância.
  3. Verifique se há problemas de roteamento assimétrico.
  4. Analise logs do firewall em busca de conexões interrompidas.
  5. Verifique se as instâncias possuem as atribuições de grupo de segurança corretas.

Correção recomendada

Garanta que os grupos de segurança ou NSGs permitam o tráfego de entrada necessário do plano de controle do Databricks. Verifique se as tabelas de roteamento permitem comunicação bidirecional. Entre em contato com o suporte da Databricks para obter ajuda na resolução de problemas de conectividade de rede.

ARGUMENTO_INVÁLIDO

Parâmetros de configuração inválidos, segredos ausentes, permissões incorretas ou configurações de cluster mal configuradas impediram a inicialização do cluster.

Exemplo de mensagem de erro

com.databricks.backend.manager.secret.SecretPermissionDeniedException: User does not have permission with scope: [REDACTED] and key: [REDACTED]

Solução de problemas dos passos

  1. Analise a mensagem de erro para identificar o parâmetro inválido específico.
  2. Para erros de segurança, verifique se o Escopo Secreto e key existem usando a API de Segredos Databricks .
  3. Verifique as permissões do usuário ou da entidade de serviço para acessar os segredos.
  4. Verifique a configuração do cluster em busca de erros de sintaxe.
  5. Verifique o script de inicialização em busca de erros de configuração.

Correção recomendada

Corrija o parâmetro inválido com base na mensagem de erro. Para segredos, verifique o escopo e a existência key , verifique as permissões e assegure a conectividade de rede com os provedores de segredos. Valide toda a configuração do cluster comparando-a com a documentação. Se a configuração parecer correta, entre em contato com o suporte da Databricks.

FALHA_NO_PLANO_DE_CONTROLE_DE_VERIFICAÇÃO_DE_REDE

Uma verificação de integridade da rede pré-inicialização falhou ao tentar acessar o plano de controle do Databricks.

Exemplo de mensagem de erro

Instance failed network health check before bootstrapping with fatal error: X_NHC_CONTROL_PLANE_UNREACHABLE
1 failed component(s): control_plane
Retryable: true

Solução de problemas dos passos

  1. Analise logs de eventos cluster para obter detalhes específicos sobre falhas de conexão.
  2. Teste a conectividade do plano de controle a partir de uma máquina virtual na mesma rede.
  3. Verifique se um firewall está interceptando ou bloqueando o tráfego.

Correção recomendada

Verifique se as regras do grupo de segurança ou NSG permitem tráfego de saída para o plano de controle do Databricks. Se estiver usando UDR com um firewall, certifique-se de que as tags de serviço do Databricks estejam roteadas para a internet. Entre em contato com o suporte da Databricks se a configuração de rede estiver correta.

FALHA_NA_CONFIGURAÇÃO_DE_REDE

Um erro de configuração de rede está impedindo a configuração correta da rede da VM ou do cluster.

Solução de problemas dos passos

  1. Analise as regras do firewall e do grupo de segurança (NSG).
  2. Verifique as tabelas de roteamento e a configuração de roteamento.
  3. Verifique a configuração da sub-rede.
  4. Verifique se há conflitos de endereço IP.
  5. Verifique as configurações de DNS.

Correção recomendada

Corrija a configuração de rede com base no erro específico. Certifique-se de que as regras do grupo de segurança ou NSG permitam o tráfego necessário, verifique se os intervalos CIDR da sub-rede não se sobrepõem, verifique se as tabelas de roteamento estão configuradas corretamente e assegure-se de que o DNS esteja funcionando. Entre em contato com o suporte da Databricks para revisão da configuração de rede.

SOLICITAÇÃO_LIMITADA

As solicitações API para o provedor cloud estão sendo limitadas devido à restrição de taxa.

Exemplo de mensagem de erro

TEMPORARILY_UNAVAILABLE: Too many requests from workspace [REDACTED]

Solução de problemas dos passos

  1. Verifique se vários clusters estão sendo iniciados simultaneamente.
  2. Verifique os limites de taxa de requisições API para sua account.
  3. Identificar se outros serviços estão fazendo chamadas API simultâneas.
  4. Verifique se há sistemas automatizados fazendo solicitações frequentes.

Correção recomendada

Reduza o número de lançamentos simultâneos cluster , solicite um aumento no limite de taxa API ao seu provedor cloud , implemente um mecanismo de espera exponencial em scripts de automação ou escalone os horários de lançamento cluster .

ENCERRAMENTO_DA_INSTÂNCIA_SPOT

Instâncias spot ou preemptíveis foram encerradas pelo provedor cloud devido a necessidades de capacidade ou alterações de preços.

Exemplo de mensagem de erro

Server.SpotInstanceTermination: Spot instance termination

Solução de problemas dos passos

  1. Verifique os logs de eventos cluster para obter o carimbo de data/hora do término.
  2. Avalie os preços spot história da sua região.
  3. Identificar se as demissões ocorrem em horários específicos.
  4. Verifique se várias instâncias foram encerradas simultaneamente.

Correção recomendada

Para cargas de trabalho de produção, migre para instâncias sob demanda, implemente lógica de repetição de tarefas para lidar com interrupções ou use uma combinação de instâncias sob demanda e instâncias spot. Instâncias spot são ideais para cargas de trabalho tolerantes a falhas.

FALHA_NO_DOWNLOAD_DE_ARMAZENAMENTO_LENTO

O download de artefatos do armazenamento Databricks está falhando ou está muito lento devido a problemas de conectividade de rede, firewall ou DNS.

Exemplo de mensagem de erro

Instance bootstrap failed command: Command_UpdateWorker
Failure message: Trying DNS probe for: https://[REDACTED].blob.core.windows.net/update/worker-artifacts/...

Solução de problemas dos passos

  1. Verifique as regras do firewall para o endpoint de armazenamento Databricks .
  2. Verifique a resolução de DNS para URLs de armazenamento.
  3. Teste a velocidade de download a partir de uma máquina virtual na mesma rede.
  4. Analise a utilização da largura de banda da rede.
  5. Verifique se há dispositivos de proxy ou de inspeção de rede.
  6. Verificar rotas para o ponto de extremidade de armazenamento.

Correção recomendada

Certifique-se de que as regras do firewall permitam o acesso ao endpoint de armazenamento Databricks .

Analise e otimize os dispositivos de inspeção de rede, se houver. Se a conectividade com o ponto de extremidade de armazenamento for verificada, mas downloads ainda falharem, entre em contato com o suporte Databricks .

ERRO_DE_CONFIGURAÇÃO_DO_ESPAÇO_DE_TRABALHO

Uma configuração incorreta no nível do espaço de trabalho está impedindo a inicialização cluster , incluindo problemas com a função IAM ou permissões de entidade de serviço.

Solução de problemas dos passos

  1. Analise as alterações recentes na configuração workspace .
  2. Verifique o console do provedor cloud para alterações de política ou permissão.

Correção recomendada

Analise as permissões account do serviço workspace e a configuração do projeto.

Contate o suporte Databricks se a configuração workspace parecer correta ou se a configuração de funções entreaccount precisar de verificação.