Códigos de erro clássicos de encerramento compute
Este artigo fornece orientações para a resolução de problemas relacionados a códigos de erro comuns de encerramento cluster . Utilize o código de erro do log de eventos do seu cluster para encontrar a causa relevante e a correção recomendada.
AWS_INSUFFICIENT_FREE_ADDRESSES_IN_SUBNET_FAILURE
A sub-rede da AWS não possui endereços IP livres suficientes para iniciar as instâncias solicitadas.
Exemplo de mensagem de erro
Not enough free addresses in subnet subnet-[REDACTED] (Service: AmazonEC2; Status Code: 400; Error Code: InvalidParameterValue; Request ID: [REDACTED]; Proxy: null)
Solução de problemas dos passos
- Verifique o intervalo CIDR da sub-rede e os endereços IP disponíveis no Console da AWS.
- Verifique o número de instâncias atualmente em execução na sub-rede.
- Verifique se há interfaces de rede elásticas não utilizadas que possam estar consumindo endereços IP.
- Verifique se existem reservas de endereços IP na sub-rede.
Correção recomendada
Atualize seu cluster para usar uma zona de disponibilidade diferente com endereços IP suficientes, use a configuração de zona de disponibilidade auto , expanda o intervalo CIDR da sub-rede ou limpe os recursos de rede não utilizados. Se o problema persistir, entre em contato com o suporte da Databricks.
AWS_INSUFFICIENT_INSTANCE_CAPACITY_FAILURE
A AWS não possui capacidade suficiente para o tipo de instância solicitado na zona de disponibilidade selecionada.
Exemplos de mensagens de erro
We currently do not have sufficient c4.8xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get c4.8xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
There is no Spot capacity available that matches your request. (Service: AmazonEC2; Status Code: 500; Error Code: InsufficientInstanceCapacity; Request ID: [REDACTED]; Proxy: null)
Solução de problemas dos passos
- Verifique o tipo de instância e a zona de disponibilidade na configuração do seu cluster.
- Verifique se o problema afeta apenas instâncias spot ou também instâncias sob demanda.
- Consulte o Painel de Integridade do serviçoAWS para verificar problemas de capacidade conhecidos.
- Faça testes com diferentes tipos de instâncias da mesma família.
Correção recomendada
Tente iniciar em uma zona de disponibilidade diferente, use a configuração de zona de disponibilidade auto , mude para um tipo de instância diferente ou use instâncias sob demanda em vez de instâncias spot. Para problemas persistentes de capacidade, entre em contato com o suporte da AWS.
AWS_RESOURCE_QUOTA_EXCEDED
O lançamento cluster excederia a cota da account AWS para o tipo de recurso solicitado.
Solução de problemas dos passos
- Verifique o console de cotas do serviçoAWS para obter informações sobre os limites e o uso atuais.
- Identifique qual quota específica foi excedida (instâncias, volumes, IPs, etc.).
- Analisar a utilização de recursos em todas as regiões.
- Verifique se há recursos que podem ser limpos.
Correção recomendada
Solicite um aumento de cota por meio do console de cotas AWS Serviço, limpe recursos não utilizados, distribua cargas de trabalho entre regiões ou use diferentes tipos de instância. Para solicitações de aumento de cota, entre em contato com o suporte da AWS.
BOOTSTRAP_TIMEOUT_DUE_TO_MISCONFIG
O processo de inicialização da máquina virtual expirou devido a problemas de conectividade de rede, downloads lentos de artefatos ou problemas com o provedor cloud . O tempo limite de inicialização é de 700 segundos.
Exemplo de mensagem de erro
[id: InstanceId([REDACTED]), status: INSTANCE_INITIALIZING, ...] with threshold 700 seconds timed out after 703891 milliseconds. Instance bootstrap inferred timeout reason: UnknownReason
Solução de problemas dos passos
- Verifique a conectividade com o armazenamento de artefatos do Databricks.
- Verifique a conectividade com o plano de controle do Databricks.
- Verifique a resolução de DNS para o endpoint Databricks .
- Verifique as regras do firewall e do grupo de segurança.
- Teste se o problema é constante ou intermitente.
Correção recomendada
Garantir a conectividade de rede com o armazenamento e o plano de controle do Databricks. Configure o endpoint de serviço ou VPC endpoint para melhorar o desempenho da rede. Revisar a configuração do firewall, DNS e roteamento. Se a configuração de rede estiver verificada, mas os tempos limite persistirem, entre em contato com o suporte da Databricks.
FALHA NA SOLICITAÇÃO DO PLANO DE CONTROLE DEVIDO A CONFIGURAÇÃO INCORRETA
As máquinas virtuais não conseguem acessar o plano de controle do Databricks devido a falhas na resolução de DNS, regras de firewall ou configuração incorreta da rede.
Exemplo de mensagem de erro
Network health check reported that instance is unable to reach Databricks Control Plane. Please check that instances have connectivity to the Databricks Control Plane. Instance bootstrap inferred timeout reason: NetworkHealthCheck_CP_Failed
Solução de problemas dos passos
- Decodifique quaisquer mensagens de erro codificadas em Base64 no log de eventos do cluster.
- Verifique as configurações de DNS na configuração da sua rede.
- Analise as regras do firewall e as configurações de segurança da rede.
- Teste a conectividade do plano de controle a partir de uma máquina virtual na mesma rede.
- Verifique se os servidores DNS personalizados estão funcionando e acessíveis.
Correção recomendada
Verifique a configuração e a acessibilidade do servidor DNS. Garanta que as regras do firewall permitam o tráfego de saída para o plano de controle do Databricks.
Se a configuração de rede parecer correta, mas o problema persistir, entre em contato com o suporte da Databricks.
FALHA_NO_EXTRAÇÃO_DE_IMAGEM_DO_DOCKER
O cluster não conseguiu download a imagem Docker do registro de contêineres devido a problemas de rede, autenticação ou configuração.
Exemplo de mensagem de erro
Failed to pull docker image: authentication required
Solução de problemas dos passos
- Verifique se o nome e a tag da imagem Docker estão corretos na configuração cluster .
- Verifique a conectividade de rede com o registro de contêineres a partir do workspace.
- Teste o acesso ao registro a partir de uma máquina virtual na mesma rede.
- Verificar credenciais de autenticação para registros privados.
- Analise os logs do daemon do nó para obter mensagens de erro detalhadas.
Correção recomendada
Corrija a configuração da imagem Docker e verifique as credenciais de autenticação. Garanta que as regras de rede permitam o acesso ao registro de contêineres.
Para o AWS ECR, configure o endpoint VPC para evitar o roteamento downloads de artefatos pela internet pública.
Se a configuração parecer correta, mas o problema persistir, entre em contato com o suporte da Databricks.
DOCKER_IMAGE_TOO_LARGE_FOR_INSTANCE_EXCEPTION
O tamanho da imagem Docker excede o espaço em disco disponível no tipo de instância selecionado.
Exemplo de mensagem de erro
Failed to launch container as the docker image is too large for the instance.
Solução de problemas dos passos
- Verifique o tamanho da imagem Docker .
- Analise a capacidade de disco do tipo de instância.
- Identifique camadas ou arquivos desnecessários na imagem Docker .
- Verifique se estão sendo usadas várias imagens grandes.
Correção recomendada
Utilize um tipo de instância com maior capacidade de disco, otimize a imagem Docker removendo arquivos e camadas desnecessários, use builds em várias etapas para reduzir o tamanho da imagem ou divida a funcionalidade em várias imagens menores. Entre em contato com o suporte da Databricks para obter ajuda com a otimização de imagens.
EOS_SPARK_IMAGE
A versão do Databricks Runtime (DBR) configurada para o cluster atingiu o fim do suporte (EOS).
Exemplo de mensagem de erro
Spark image release__11.0.x-snapshot-cpu-ml-scala2.12__databricks-universe__head__[REDACTED]__format-2 does not exist with exit code 2
Solução de problemas dos passos
- Verifique a versão do DBR na configuração do cluster.
- Revise as notas sobre a versãoDatabricks Runtime para datas EOS.
- Identifique quais versões do DBR são atualmente suportadas.
- Verifique se o Notebook ou o Job possuem dependências de versão do DBR.
Correção recomendada
Atualize a configuração do cluster para usar uma versão compatível do Databricks Runtime. Analise os requisitos de compatibilidade da biblioteca e do código antes de implantá-los em produção. Entre em contato com o suporte da Databricks se precisar de ajuda com a migração do DBR.
CAPACIDADE MÁXIMA DO POOL DE INSTÂNCIAS ATINGIDA
O pool de instâncias atingiu o limite máximo de capacidade configurado e não pode fornecer instâncias adicionais.
Exemplo de mensagem de erro
Instance pool is full, please consider increasing the pool size
Solução de problemas dos passos
- Verifique a configuração do pool de instâncias para a definição da capacidade máxima.
- Verifique quantas instâncias estão atualmente em uso no pool.
- Identifique quais clusters estão usando o pool.
- Verifique se existem instâncias de Parado que podem ser liberadas.
Correção recomendada
Aumente a capacidade máxima pool de instâncias, crie um pool de instâncias adicional para distribuir a carga, encerre clusters Parado que utilizam o pool ou configure clusters para usar um pool diferente. Analise o dimensionamento pool com base nos requisitos de carga de trabalho simultânea.
INSTÂNCIA_INALCANÇÁVEL_DEVIDO_A_CONFIGURAÇÃO_INCREGATIVA
As instâncias estão inacessíveis devido a configurações de rede incorretas, regras de firewall ou problemas de conectividade.
Exemplo de mensagem de erro
Bootstrap completes in the VM but control plane failed to reach the node. Please review your network configuration or firewall settings to allow Databricks to reach the node.
Solução de problemas dos passos
- Analise as regras do firewall e as configurações de segurança da rede para as portas de entrada necessárias.
- Teste a conectividade do plano de controle com a rede da instância.
- Verifique se há problemas de roteamento assimétrico.
- Analise logs do firewall em busca de conexões interrompidas.
- Verifique se as instâncias possuem as atribuições de grupo de segurança corretas.
Correção recomendada
Garanta que os grupos de segurança ou NSGs permitam o tráfego de entrada necessário do plano de controle do Databricks. Verifique se as tabelas de roteamento permitem comunicação bidirecional. Entre em contato com o suporte da Databricks para obter ajuda na resolução de problemas de conectividade de rede.
ARGUMENTO_INVÁLIDO
Parâmetros de configuração inválidos, segredos ausentes, permissões incorretas ou configurações de cluster mal configuradas impediram a inicialização do cluster.
Exemplo de mensagem de erro
com.databricks.backend.manager.secret.SecretPermissionDeniedException: User does not have permission with scope: [REDACTED] and key: [REDACTED]
Solução de problemas dos passos
- Analise a mensagem de erro para identificar o parâmetro inválido específico.
- Para erros de segurança, verifique se o Escopo Secreto e key existem usando a API de Segredos Databricks .
- Verifique as permissões do usuário ou da entidade de serviço para acessar os segredos.
- Verifique a configuração do cluster em busca de erros de sintaxe.
- Verifique o script de inicialização em busca de erros de configuração.
Correção recomendada
Corrija o parâmetro inválido com base na mensagem de erro. Para segredos, verifique o escopo e a existência key , verifique as permissões e assegure a conectividade de rede com os provedores de segredos. Valide toda a configuração do cluster comparando-a com a documentação. Se a configuração parecer correta, entre em contato com o suporte da Databricks.
FALHA_NO_PLANO_DE_CONTROLE_DE_VERIFICAÇÃO_DE_REDE
Uma verificação de integridade da rede pré-inicialização falhou ao tentar acessar o plano de controle do Databricks.
Exemplo de mensagem de erro
Instance failed network health check before bootstrapping with fatal error: X_NHC_CONTROL_PLANE_UNREACHABLE
1 failed component(s): control_plane
Retryable: true
Solução de problemas dos passos
- Analise logs de eventos cluster para obter detalhes específicos sobre falhas de conexão.
- Teste a conectividade do plano de controle a partir de uma máquina virtual na mesma rede.
- Verifique se um firewall está interceptando ou bloqueando o tráfego.
Correção recomendada
Verifique se as regras do grupo de segurança ou NSG permitem tráfego de saída para o plano de controle do Databricks. Se estiver usando UDR com um firewall, certifique-se de que as tags de serviço do Databricks estejam roteadas para a internet. Entre em contato com o suporte da Databricks se a configuração de rede estiver correta.
FALHA_NA_CONFIGURAÇÃO_DE_REDE
Um erro de configuração de rede está impedindo a configuração correta da rede da VM ou do cluster.
Solução de problemas dos passos
- Analise as regras do firewall e do grupo de segurança (NSG).
- Verifique as tabelas de roteamento e a configuração de roteamento.
- Verifique a configuração da sub-rede.
- Verifique se há conflitos de endereço IP.
- Verifique as configurações de DNS.
Correção recomendada
Corrija a configuração de rede com base no erro específico. Certifique-se de que as regras do grupo de segurança ou NSG permitam o tráfego necessário, verifique se os intervalos CIDR da sub-rede não se sobrepõem, verifique se as tabelas de roteamento estão configuradas corretamente e assegure-se de que o DNS esteja funcionando. Entre em contato com o suporte da Databricks para revisão da configuração de rede.
SOLICITAÇÃO_LIMITADA
As solicitações API para o provedor cloud estão sendo limitadas devido à restrição de taxa.
Exemplo de mensagem de erro
TEMPORARILY_UNAVAILABLE: Too many requests from workspace [REDACTED]
Solução de problemas dos passos
- Verifique se vários clusters estão sendo iniciados simultaneamente.
- Verifique os limites de taxa de requisições API para sua account.
- Identificar se outros serviços estão fazendo chamadas API simultâneas.
- Verifique se há sistemas automatizados fazendo solicitações frequentes.
Correção recomendada
Reduza o número de lançamentos simultâneos cluster , solicite um aumento no limite de taxa API ao seu provedor cloud , implemente um mecanismo de espera exponencial em scripts de automação ou escalone os horários de lançamento cluster .
ENCERRAMENTO_DA_INSTÂNCIA_SPOT
Instâncias spot ou preemptíveis foram encerradas pelo provedor cloud devido a necessidades de capacidade ou alterações de preços.
Exemplo de mensagem de erro
Server.SpotInstanceTermination: Spot instance termination
Solução de problemas dos passos
- Verifique os logs de eventos cluster para obter o carimbo de data/hora do término.
- Avalie os preços spot história da sua região.
- Identificar se as demissões ocorrem em horários específicos.
- Verifique se várias instâncias foram encerradas simultaneamente.
Correção recomendada
Para cargas de trabalho de produção, migre para instâncias sob demanda, implemente lógica de repetição de tarefas para lidar com interrupções ou use uma combinação de instâncias sob demanda e instâncias spot. Instâncias spot são ideais para cargas de trabalho tolerantes a falhas.
FALHA_NO_DOWNLOAD_DE_ARMAZENAMENTO_LENTO
O download de artefatos do armazenamento Databricks está falhando ou está muito lento devido a problemas de conectividade de rede, firewall ou DNS.
Exemplo de mensagem de erro
Instance bootstrap failed command: Command_UpdateWorker
Failure message: Trying DNS probe for: https://[REDACTED].blob.core.windows.net/update/worker-artifacts/...
Solução de problemas dos passos
- Verifique as regras do firewall para o endpoint de armazenamento Databricks .
- Verifique a resolução de DNS para URLs de armazenamento.
- Teste a velocidade de download a partir de uma máquina virtual na mesma rede.
- Analise a utilização da largura de banda da rede.
- Verifique se há dispositivos de proxy ou de inspeção de rede.
- Verificar rotas para o ponto de extremidade de armazenamento.
Correção recomendada
Certifique-se de que as regras do firewall permitam o acesso ao endpoint de armazenamento Databricks .
Configure o endpoint VPC para S3 para evitar o roteamento downloads de artefatos pela internet pública.
Analise e otimize os dispositivos de inspeção de rede, se houver. Se a conectividade com o ponto de extremidade de armazenamento for verificada, mas downloads ainda falharem, entre em contato com o suporte Databricks .
ERRO_DE_CONFIGURAÇÃO_DO_ESPAÇO_DE_TRABALHO
Uma configuração incorreta no nível do espaço de trabalho está impedindo a inicialização cluster , incluindo problemas com a função IAM ou permissões de entidade de serviço.
Exemplo de mensagem de erro
User: arn:aws:iam::[REDACTED]:user/ConsolidatedManagerIAMUser is not authorized to perform: sts:AssumeRole on resource: arn:aws:iam::[REDACTED]:role/databricks-workspace-stack-role
Solução de problemas dos passos
-
Analise as alterações recentes na configuração workspace .
-
Verifique o console do provedor cloud para alterações de política ou permissão.
-
Verifique a configuração da relação de confiança IAM role entreaccount e as permissões instance profile para assumir as funções necessárias.
Correção recomendada
Verifique as relações de confiança IAM role e as permissões instance profile . Revisar a configuração de segurança workspace .
Contate o suporte Databricks se a configuração workspace parecer correta ou se a configuração de funções entreaccount precisar de verificação.