Códigos de erro clássicos de encerramento compute

Este artigo fornece orientações para a resolução de problemas relacionados a códigos de erro comuns de encerramento cluster . Utilize o código de erro do log de eventos do seu cluster para encontrar a causa relevante e a correção recomendada.

AWS_INSUFFICIENT_FREE_ADDRESSES_IN_SUBNET_FAILURE

A sub-rede da AWS não possui endereços IP livres suficientes para iniciar as instâncias solicitadas.

Exemplo de mensagem de erro

Not enough free addresses in subnet subnet-[REDACTED] (Service: AmazonEC2; Status Code: 400; Error Code: InvalidParameterValue; Request ID: [REDACTED]; Proxy: null)

Solução de problemas dos passos

Verifique o intervalo CIDR da sub-rede e os endereços IP disponíveis no Console da AWS.
Verifique o número de instâncias atualmente em execução na sub-rede.
Verifique se há interfaces de rede elásticas não utilizadas que possam estar consumindo endereços IP.
Verifique se existem reservas de endereços IP na sub-rede.

Correção recomendada

Atualize seu cluster para usar uma zona de disponibilidade diferente com endereços IP suficientes, use a configuração de zona de disponibilidade auto , expanda o intervalo CIDR da sub-rede ou limpe os recursos de rede não utilizados. Se o problema persistir, entre em contato com o suporte da Databricks.

AWS_INSUFFICIENT_INSTANCE_CAPACITY_FAILURE

A AWS não possui capacidade suficiente para o tipo de instância solicitado na zona de disponibilidade selecionada.

Exemplos de mensagens de erro

We currently do not have sufficient c4.8xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get c4.8xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

There is no Spot capacity available that matches your request. (Service: AmazonEC2; Status Code: 500; Error Code: InsufficientInstanceCapacity; Request ID: [REDACTED]; Proxy: null)

Solução de problemas dos passos

Verifique o tipo de instância e a zona de disponibilidade na configuração do seu cluster.
Verifique se o problema afeta apenas instâncias spot ou também instâncias sob demanda.
Consulte o Painel de Integridade do serviçoAWS para verificar problemas de capacidade conhecidos.
Faça testes com diferentes tipos de instâncias da mesma família.

Correção recomendada

Tente iniciar em uma zona de disponibilidade diferente, use a configuração de zona de disponibilidade auto , mude para um tipo de instância diferente ou use instâncias sob demanda em vez de instâncias spot. Para problemas persistentes de capacidade, entre em contato com o suporte da AWS.

Para reduzir erros futuros de falta de estoque, peça ao administrador do seu workspace para habilitar tipos de nó flexíveis para que o Databricks faça fallback automaticamente para tipos de instância compatíveis quando o tipo preferencial não estiver disponível. Tipos de nós flexíveis não estão disponíveis para tipos de instância de GPU.

AWS_RESOURCE_QUOTA_EXCEDED

O lançamento cluster excederia a cota da account AWS para o tipo de recurso solicitado.

Solução de problemas dos passos

Verifique o console de cotas do serviçoAWS para obter informações sobre os limites e o uso atuais.
Identifique qual quota específica foi excedida (instâncias, volumes, IPs, etc.).
Analisar a utilização de recursos em todas as regiões.
Verifique se há recursos que podem ser limpos.

Correção recomendada

Solicite um aumento de cota por meio do console de cotas AWS Serviço, limpe recursos não utilizados, distribua cargas de trabalho entre regiões ou use diferentes tipos de instância. Para solicitações de aumento de cota, entre em contato com o suporte da AWS.

BOOTSTRAP_TIMEOUT_DUE_TO_MISCONFIG

O processo de inicialização da máquina virtual expirou devido a problemas de conectividade de rede, downloads lentos de artefatos ou problemas com o provedor cloud . O tempo limite de inicialização é de 700 segundos.

Exemplo de mensagem de erro

[id: InstanceId([REDACTED]), status: INSTANCE_INITIALIZING, ...] with threshold 700 seconds timed out after 703891 milliseconds. Instance bootstrap inferred timeout reason: UnknownReason

Solução de problemas dos passos

Verifique a conectividade com o armazenamento de artefatos do Databricks.
Verifique a conectividade com o plano de controle do Databricks.
Verifique a resolução de DNS para o endpoint Databricks .
Verifique as regras do firewall e do grupo de segurança.
Teste se o problema é constante ou intermitente.

Correção recomendada

Garantir a conectividade de rede com o armazenamento e o plano de controle do Databricks. Configure o endpoint de serviço ou VPC endpoint para melhorar o desempenho da rede. Revisar a configuração do firewall, DNS e roteamento. Se a configuração de rede estiver verificada, mas os tempos limite persistirem, entre em contato com o suporte da Databricks.

CLOUD_OPERATION_CANCELLED

O cluster foi encerrado porque uma operação subjacente do provedor de cloud foi cancelada antes da conclusão do lançamento da instância.

Exemplo de mensagem de erro

Cluster terminated because an underlying cloud operation was cancelled. GCP Error: GCE Operation failed: Operation was canceled by user ''.

Solução de problemas dos passos

Verifique os Logs de eventos do cluster para códigos de erro e mensagens do provedor de cloud.
Revisar se uma operação concorrente ou automação cancelou o recurso de cloud.
Verifique os logs de atividade do provedor de cloud para operações canceladas.
Verifique se o problema é transitório ou reproduzível.

Correção recomendada

Tente novamente o lançamento do cluster. Se o cancelamento foi causado por automação externa ou intervenção manual, resolva a operação conflitante antes de tentar novamente. Entre em contato com o suporte do seu provedor de cloud primeiro se o problema persistir sem uma causa identificável. Entre em contato com o suporte da Databricks se o provedor de cloud não conseguir identificar a causa.

CLOUD_PROVIDER_RESOURCE_STOCKOUT_DUE_TO_MISCONFIG

O provedor de cloud não pôde alocar os recursos de VM solicitados devido a restrições de configuração do cluster, como tipo de instância, zona de disponibilidade ou configurações de posicionamento.

Exemplo de mensagem de erro

The VM launch failed due to restrictive constraint. To reduce future stockout errors, enable flexible node types if not already enabled so Databricks can automatically fall back to alternative instance types.

Solução de problemas dos passos

Revise o tipo de instância do cluster e a configuração da zona de disponibilidade.
Verifique se os tipos de nós flexíveis ou o fallback automático estão habilitados.
Verifique se o tipo de instância solicitado está disponível na zona selecionada.
Examine os Logs de evento do cluster para obter detalhes de restrição ou posicionamento.

Correção recomendada

Ative tipos de nós flexíveis, tente uma zona de disponibilidade diferente ou selecione tipos de instância alternativos. Atualize as políticas de compute ou as listas de permissões de tipo de instância para incluir opções de fallback. Entre em contato com o suporte da Databricks se as alterações de configuração não resolverem a falta de estoque.

FALHA_NO_LANÇAMENTO_DO_PROVEDOR_DE_NUVEM

O provedor cloud não conseguiu iniciar a instância de máquina virtual solicitada. Normalmente, esse é um problema do lado do provedor cloud .

Exemplo de mensagem de erro

Reason: CLOUD_PROVIDER_LAUNCH_FAILURE (CLOUD_FAILURE). Parameters: databricks_error_message:VM launch failed because AWS returned internal error. [details] Server.InternalError: Internal error on launch(OnDemand), instance_id:[REDACTED], aws_api_error_code:Server.InternalError

Solução de problemas dos passos

Verifique o aws_error_message nos parâmetros de erro para a falha específica do provedor cloud .
Verifique a página de status do provedor cloud para obter informações sobre incidentes em andamento em sua região.
Verifique os limites de cota e a capacidade da sub-rede se o erro mencionar esses aspectos.

Correção recomendada

Tente novamente mais tarde, pois a maioria das falhas de inicialização de provedores cloud são temporárias. Se o problema persistir, entre em contato com o suporte do seu provedor cloud , fornecendo a descrição detalhada do erro.

COMUNICAÇÃO PERDIDA

O cluster foi encerrado porque o plano de controle perdeu a comunicação com a instância. Isso pode ser causado por um estado inesperado da instância, encerramento da instância ou problemas de nível de rede em que o plano de controle não consegue pingar a instância por um período prolongado.

Exemplo de mensagem de erro

Cluster '[REDACTED]' was terminated. Reason: COMMUNICATION_LOST (CLOUD_FAILURE). Parameters: instance_id:[REDACTED], databricks_error_message:Node health check failed.

Solução de problemas dos passos

Verifique a configuração de rede entre o plano compute Databricks e o endpoint de retransmissão do SCC. Se houver um firewall ou proxy entre eles, isso poderá bloquear a comunicação de verificação de integridade. Consulte o administrador da sua rede.
Verifique o uso de CPU e memória do nó nas métricas do cluster. Caso os recursos se esgotem, a instância poderá não responder à verificação de integridade. Considere usar um tipo de instância maior.
Verifique com seu provedor cloud se a instância foi encerrada ou sofreu alguma alteração externa (por exemplo, desativação de instância AWS , manutenção de host Azure ).
Analise logs do driver e executor Spark em busca de erros que possam ter causado a falta de resposta da instância (por exemplo, falta de memória ou longa pausa do coletor de lixo).

Correção recomendada

Revise as configurações de firewall e proxy com o administrador de rede. Se o erro foi causado pelo encerramento da instância pelo provedor cloud , tente novamente mais tarde. Se o problema foi causado por esgotamento de recursos, considere atualizar para um tipo de instância maior. Se o problema persistir, entre em contato com o suporte da Databricks.

CONTROL_PLANE_REQUEST_FAILURE / CONTROL_PLANE_REQUEST_FAILURE_DUE_TO_MISCONFIG

O processo de inicialização da VM falhou porque a instância não conseguiu alcançar o plano de controle da Databricks para recuperar os passos de inicialização. Ambos os códigos de erro compartilham a mesma falha subjacente e orientações para solução de problemas. CONTROL_PLANE_REQUEST_FAILURE_DUE_TO_MISCONFIG geralmente é relatado quando o workspace tem um histórico de falhas de conectividade do plano de controle semelhantes.

Exemplos de mensagens de erro

Failed to get instance bootstrap steps from the Databricks Control Plane. Please check that instances have connectivity to the Databricks Control Plane.

Network health check reported that instance is unable to reach Databricks Control Plane. Please check that instances have connectivity to the Databricks Control Plane. Instance bootstrap inferred timeout reason: NetworkHealthCheck_CP_Failed

Solução de problemas dos passos

Decodifique quaisquer mensagens de erro codificadas em Base64 no log de eventos do cluster.
Verifique as configurações de DNS na configuração da sua rede.
Analise as regras do firewall e as configurações de segurança da rede.
Teste a conectividade do plano de controle a partir de uma máquina virtual na mesma rede.
Verifique se os servidores DNS personalizados estão funcionando e acessíveis.

Correção recomendada

Verifique a configuração e a acessibilidade do servidor DNS. Garanta que as regras do firewall permitam o tráfego de saída para o plano de controle do Databricks.

Se a configuração de rede parecer correta, mas o problema persistir, entre em contato com o suporte da Databricks.

DOCKER_CONTAINER_CREATION_EXCEPTION

O cluster falhou ao criar o contêiner Docker na instância devido a um erro de configuração do contêiner.

Exemplo de mensagem de erro

Failed to launch container due to an error while creating the container. Please revisit your container setup

Solução de problemas dos passos

Verifique a configuração da Docker Image personalizada e as configurações de entrypoint.
Verificar se o contêiner requer privilégios de root ou recursos não suportados.
Analise os logs de eventos do cluster em busca de erros detalhados de criação de contêiner.

Correção recomendada

Corrija a configuração do contêiner do Docker com base na mensagem de erro. Garanta que a imagem siga os requisitos do Databricks para contêineres personalizados.

Para obter orientação sobre a criação de uma imagem de contêiner personalizada, consulte Databricks Container Services para compute dedicado ou Databricks Container Services para compute padrão.

Tente novamente o lançamento do cluster após atualizar a imagem ou a configuração. Entre em contato com o suporte da Databricks se a configuração do contêiner parecer correta.

FALHA_NO_EXTRAÇÃO_DE_IMAGEM_DO_DOCKER

O cluster não conseguiu download a imagem Docker do registro de contêineres devido a problemas de rede, autenticação ou configuração.

Exemplo de mensagem de erro

Failed to pull docker image: authentication required

Solução de problemas dos passos

Verifique se o nome e a tag da imagem Docker estão corretos na configuração cluster .
Verifique a conectividade de rede com o registro de contêineres a partir do workspace.
Teste o acesso ao registro a partir de uma máquina virtual na mesma rede.
Verificar credenciais de autenticação para registros privados.
Analise os logs do daemon do nó para obter mensagens de erro detalhadas.

Correção recomendada

Corrija a configuração da imagem Docker e verifique as credenciais de autenticação. Garanta que as regras de rede permitam o acesso ao registro de contêineres.

Para o AWS ECR, configure o endpoint VPC para evitar o roteamento downloads de artefatos pela internet pública.

Se a configuração parecer correta, mas o problema persistir, entre em contato com o suporte da Databricks.

DOCKER_IMAGE_TOO_LARGE_FOR_INSTANCE_EXCEPTION

O tamanho da imagem Docker excede o espaço em disco disponível no tipo de instância selecionado.

Exemplo de mensagem de erro

Failed to launch container as the docker image is too large for the instance.

Solução de problemas dos passos

Verifique o tamanho da imagem Docker .
Analise a capacidade de disco do tipo de instância.
Identifique camadas ou arquivos desnecessários na imagem Docker .
Verifique se estão sendo usadas várias imagens grandes.

Correção recomendada

Utilize um tipo de instância com maior capacidade de disco, otimize a imagem Docker removendo arquivos e camadas desnecessários, use builds em várias etapas para reduzir o tamanho da imagem ou divida a funcionalidade em várias imagens menores. Entre em contato com o suporte da Databricks para obter ajuda com a otimização de imagens.

EXCEÇÃO_DE_SISTEMA_OPERACIONAL_INVÁLIDO_DO_DOCKER

O contêiner Docker personalizado usa um sistema operacional que não é compatível com o compute da Databricks.

Exemplo de mensagem de erro

Failed to launch container due to an invalid Docker OS. Please revisit your OS configuration.

Solução de problemas dos passos

Verifique o sistema operacional base na Docker Image personalizada.
Analise a documentação da Databricks para sistemas operacionais de contêiner compatíveis.
Verifique a configuração da Docker Image do cluster para a referência correta da imagem.

Correção recomendada

Reconstrua a Docker Image usando uma imagem base de sistema operacional compatível. A Databricks recomenda usar uma imagem base do Databricks. Ubuntu e Alpine Linux também são compatíveis.

Atualize a configuração do cluster com a imagem corrigida e tente novamente o lançamento. Entre em contato com o suporte da Databricks se o SO deve ser compatível.

EOS_SPARK_IMAGE

A versão do Databricks Runtime (DBR) configurada para o cluster atingiu o fim do suporte (EOS).

Exemplo de mensagem de erro

Spark image release__11.0.x-snapshot-cpu-ml-scala2.12__databricks-universe__head__[REDACTED]__format-2 does not exist with exit code 2

Solução de problemas dos passos

Verifique a versão do DBR na configuração do cluster.
Revise as notas sobre a versãoDatabricks Runtime para datas EOS.
Identifique quais versões do DBR são atualmente suportadas.
Verifique se o Notebook ou o Job possuem dependências de versão do DBR.

Correção recomendada

Atualize a configuração do cluster para usar uma versão compatível do Databricks Runtime. Analise os requisitos de compatibilidade da biblioteca e do código antes de implantá-los em produção. Entre em contato com o suporte da Databricks se precisar de ajuda com a migração do DBR.

CAPACIDADE MÁXIMA DO POOL DE INSTÂNCIAS ATINGIDA

O pool de instâncias atingiu o limite máximo de capacidade configurado e não pode fornecer instâncias adicionais.

Exemplo de mensagem de erro

Instance pool is full, please consider increasing the pool size

Solução de problemas dos passos

Verifique a configuração do pool de instâncias para a definição da capacidade máxima.
Verifique quantas instâncias estão atualmente em uso no pool.
Identifique quais clusters estão usando o pool.
Verifique se existem instâncias de Parado que podem ser liberadas.

Correção recomendada

Aumente a capacidade máxima pool de instâncias, crie um pool de instâncias adicional para distribuir a carga, encerre clusters Parado que utilizam o pool ou configure clusters para usar um pool diferente. Analise o dimensionamento pool com base nos requisitos de carga de trabalho simultânea.

INSTANCE_POOL_NOT_FOUND

O cluster faz referência a um pool de instâncias que não existe ou não está mais ativo.

Exemplo de mensagem de erro

Instances could not be provisioned for the cluster since the instance pool is no longer active

Solução de problemas dos passos

Verifique o ID do pool de instâncias na configuração do cluster.
Verifique se o Pool de instâncias foi excluído ou desativado.
Analise as configurações de cluster e Job em busca de referências obsoletas de pool de instâncias.
Confirmar se o pool de instâncias existe no mesmo workspace que o cluster.

Correção recomendada

Atualize a configuração do cluster para usar um pool de instâncias existente, ou remova a referência do pool de instâncias para iniciar instâncias diretamente. Recrie o pool de instâncias se necessário. Entre em contato com o suporte da Databricks se o pool de instâncias deveria existir, mas não pode ser encontrado.

INSTÂNCIA_INACESSÍVEL / INSTÂNCIA_INACESSÍVEL_DEVIDO_A_CONFIGURAÇÃO_INCORRETA

As instâncias estão inacessíveis devido a configurações incorretas de rede, regras de firewall ou problemas de conectividade. Ambos os códigos de erro compartilham a mesma falha subjacente e orientação para solução de problemas. INSTANCE_UNREACHABLE_DUE_TO_MISCONFIG é geralmente reportado quando o workspace tem um histórico de falhas de conectividade semelhantes.

Exemplo de mensagem de erro

Bootstrap completes in the VM but control plane failed to reach the node. Please review your network configuration or firewall settings to allow Databricks to reach the node.

Solução de problemas dos passos

Analise as regras do firewall e as configurações de segurança da rede para as portas de entrada necessárias.
Teste a conectividade do plano de controle com a rede da instância.
Verifique se há problemas de roteamento assimétrico.
Analise logs do firewall em busca de conexões interrompidas.
Verifique se as instâncias possuem as atribuições de grupo de segurança corretas.

Correção recomendada

Garanta que os grupos de segurança ou NSGs permitam o tráfego de entrada necessário do plano de controle do Databricks. Verifique se as tabelas de roteamento permitem comunicação bidirecional. Entre em contato com o suporte da Databricks para obter ajuda na resolução de problemas de conectividade de rede.

ARGUMENTO_INVÁLIDO

Parâmetros de configuração inválidos, segredos ausentes, permissões incorretas ou configurações de cluster mal configuradas impediram a inicialização do cluster.

Exemplo de mensagem de erro

com.databricks.backend.manager.secret.SecretPermissionDeniedException: User does not have permission with scope: [REDACTED] and key: [REDACTED]

Solução de problemas dos passos

Analise a mensagem de erro para identificar o parâmetro inválido específico.
Para erros de segurança, verifique se o Escopo Secreto e key existem usando a API de Segredos Databricks .
Verifique as permissões do usuário ou da entidade de serviço para acessar os segredos.
Verifique a configuração do cluster em busca de erros de sintaxe.
Verifique o script de inicialização em busca de erros de configuração.

Correção recomendada

Corrija o parâmetro inválido com base na mensagem de erro. Para segredos, verifique o escopo e a existência key , verifique as permissões e assegure a conectividade de rede com os provedores de segredos. Valide toda a configuração do cluster comparando-a com a documentação. Se a configuração parecer correta, entre em contato com o suporte da Databricks.

INVALID_WORKER_ENVIRONMENT

O cluster falhou ao iniciar porque o ambiente de worker não existe.

Este erro pode ocorrer imediatamente após a criação do Workspace, enquanto o ambiente worker ainda está sendo provisionamento.

Exemplo de mensagem de erro

[details] NO_SUCH_WORKER_ENVIRONMENT_EXCEPTION: Delegate unexpected exception during asynchronous instance launch com.databricks.backend.manager.util.WorkerEnvironmentNotFoundException: Worker environment

Solução de problemas dos passos

Verifique quando o workspace foi criado. Se ele foi criado recentemente, o ambiente de worker ainda pode estar em provisionamento.
Analise os logs de eventos do cluster para obter detalhes de erro do ambiente de worker.

Correção recomendada

Aguarde alguns minutos após a criação do workspace e, em seguida, tente novamente o lançamento do cluster.

Entre em contato com o suporte da Databricks se o erro persistir em um Workspace ativo que não foi criado ou restaurado recentemente.

VERIFICAÇÃO_DE_REDE_FALHA_DO_PLANO_DE_CONTROLE / VERIFICAÇÃO_DE_REDE_FALHA_DO_PLANO_DE_CONTROLE_DEVIDO_A_MÁ_CONFIGURAÇÃO

Uma verificação de integridade da rede de pré-inicialização falhou ao tentar alcançar o plano de controle da Databricks. Ambos os códigos de erro compartilham a mesma falha subjacente e orientação para solução de problemas. NETWORK_CHECK_CONTROL_PLANE_FAILURE_DUE_TO_MISCONFIG é geralmente relatado quando o workspace tem um histórico de falhas semelhantes na verificação de integridade da rede.

Exemplo de mensagem de erro

Instance failed network health check before bootstrapping with fatal error: X_NHC_CONTROL_PLANE_UNREACHABLE
1 failed component(s): control_plane
Retryable: true

Solução de problemas dos passos

Analise logs de eventos cluster para obter detalhes específicos sobre falhas de conexão.
Teste a conectividade do plano de controle a partir de uma máquina virtual na mesma rede.
Verifique a resolução de DNS para endpoints do plano de controle do Databricks.
Verifique se um firewall está interceptando ou bloqueando o tráfego.
Verifique se as regras de firewall e as tabelas de rota permitem o tráfego HTTPS de saída.

Correção recomendada

Verifique se as regras do grupo de segurança ou NSG permitem o tráfego de saída para o plano de controle do Databricks. Corrija a configuração de DNS, firewall e roteamento conforme necessário. Se estiver usando UDR com um firewall, garanta que as tags de serviço do Databricks tenham rota para a internet. Entre em contato com o suporte da Databricks se a configuração de rede for verificada como correta, mas a verificação de integridade ainda falhar.

VERIFICAÇÃO_DE_REDE_FALHA_DO_SERVIDOR_DNS / VERIFICAÇÃO_DE_REDE_FALHA_DO_SERVIDOR_DNS_DEVIDO_A_MÁ_CONFIGURAÇÃO

Uma verificação de saúde da rede pré-bootstrap falhou porque a VM não consegue alcançar o servidor DNS configurado. Ambos os códigos de erro compartilham a mesma falha subjacente e orientação de solução de problemas. NETWORK_CHECK_DNS_SERVER_FAILURE_DUE_TO_MISCONFIG é tipicamente reportado quando o workspace tem uma história de falhas similares na verificação de saúde da rede.

Exemplo de mensagem de erro

[details] X_NHC_DNS_SERVER_UNREACHABLE: Instance failed network health check before bootstrapping with fatal error: X_NHC_DNS_SERVER_UNREACHABLE
4 failed component(s): control_plane dns_server internet storage
Retryable: true

Solução de problemas dos passos

Verifique os endereços IP do servidor DNS configurados para a sub-rede ou VNet.
Teste a acessibilidade do servidor DNS a partir de uma VM na mesma rede.
Verifique as regras de firewall que possam bloquear o tráfego DNS na porta 53.
Revise a configuração do servidor DNS personalizada, os encaminhadores e as regras de encaminhamento condicional.
Teste a resolução de DNS para o plano de controle da Databricks e os endpoints de armazenamento a partir de uma VM na mesma rede.
Verifique se há erros de digitação ou endereços IP de servidor DNS inacessíveis na configuração de rede.

Correção recomendada

Garanta que os servidores DNS estejam acessíveis e funcionais a partir da rede do plano de compute. Atualize as regras de firewall ou NSG para permitir o tráfego DNS. Se um servidor DNS personalizado estiver inacessível ou mal configurado, considere mudar para o DNS default do provedor de cloud. Corrija a configuração do servidor DNS e garanta que as instâncias de compute possam resolver endpoints do Databricks. Entre em contato com o suporte da Databricks se a configuração de DNS for verificada, mas as pesquisas ainda falharem.

NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE / NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE_DUE_TO_MISCONFIG

Uma verificação de integridade de rede pré-inicialização falhou em vários componentes de rede, como o plano de controle, armazenamento, DNS ou conectividade com a internet. Ambos os códigos de erro compartilham a mesma falha subjacente e orientação para solução de problemas. NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE_DUE_TO_MISCONFIG é tipicamente relatado quando o workspace tem um histórico de falhas semelhantes na verificação de saúde da rede.

Exemplo de mensagem de erro

Instance failed network health check before bootstrapping with fatal error: X_NHC_MULTIPLE_COMPONENTS_FAILURE
3 failed component(s): control_plane internet storage
Retryable: false

Solução de problemas dos passos

Verifique os logs de eventos do cluster para identificar quais componentes falharam na verificação de integridade.
Teste a conectividade com endpoints de plano de controle, armazenamento e DNS a partir de uma VM na mesma rede.
Verifique se há interrupções generalizadas da rede ou alterações no firewall.
Verifique se o problema é transitório ou persistente.
Analise as alterações recentes na configuração do firewall, DNS, proxy ou roteamento.
Verifique se uma configuração de VPC gerenciada pelo cliente ou injeção de VNet bloqueia o tráfego necessário.

Correção recomendada

Resolva os problemas subjacentes de conectividade de rede para todos os componentes com falha. Revise a configuração do firewall, DNS e roteamento de forma holística. Corrija a configuração de rede incorreta que afeta vários endpoints e garanta que as configurações permitam acesso ao plano de controle da Databricks e ao armazenamento de artefatos. Tente novamente o lançamento do cluster após a resolução dos problemas de rede. Entre em contato com o suporte da Databricks se vários componentes falharem apesar da configuração de rede verificada.

NETWORK_CHECK_NIC_FAILURE

Uma verificação de integridade da rede de pré-bootstrap detectou um problema na placa de interface de rede (NIC), como a interface estar inativa ou a falta de rotas necessárias.

Exemplo de mensagem de erro

Instance failed network health check before bootstrapping with fatal error: X_NHC_NIC_STATE_DOWN
1 failed component(s): nic
Retryable: true

Solução de problemas dos passos

Analise os Logs de eventos do cluster para estado da NIC ou erros de roteamento.
Verifique a configuração da sub-rede e da tabela de rotas.
Examine os Logs e métricas do sistema operacional da VM para problemas de rede em nível de NIC ou de host no console do provedor de cloud.
Confirme que a VM foi provisionada sem erros no console do provedor de cloud.
Verifique se há incidentes de rede do provedor de cloud na região.

Correção recomendada

Tente novamente o lançamento do cluster, pois os problemas de NIC são frequentemente transitórios. Se o problema persistir, revise a configuração de rede com seu provedor de nuvem ou administrador de rede. Entre em contato com o suporte da Databricks se as falhas continuarem após várias tentativas de repetição.

NETWORK_CHECK_STORAGE_FAILURE

Uma verificação de integridade de rede pré-bootstrap falhou porque a VM não consegue alcançar o armazenamento de artefatos do Databricks.

Exemplo de mensagem de erro

[details] X_NHC_STORAGE_UNREACHABLE: Instance failed network health check before bootstrapping with fatal error: X_NHC_STORAGE_UNREACHABLE
2 failed component(s): internet storage
Retryable: true

Solução de problemas dos passos

Teste a conectividade com os Endpoint de armazenamento do Databricks a partir de uma VM na mesma rede.
Verifique a resolução de DNS para URLs de armazenamento.
Verifique o firewall, proxy e regras de grupo de segurança ou NSG.
Verifique se os dispositivos de inspeção de TLS interferem nas conexões de armazenamento.

Correção recomendada

Garanta que as regras de firewall permitam acesso aos endpoints de armazenamento do Databricks. Configure VPC ou endpoints de serviço quando aplicável. Se um servidor DNS personalizado causar atrasos ou falhas de resolução para URLs de armazenamento, mude para o DNS default do provedor de nuvem ou corrija a configuração de DNS. Entre em contato com o suporte da Databricks se a conectividade de armazenamento for verificada, mas a verificação de integridade ainda falhar.

FALHA_NA_CONFIGURAÇÃO_DE_REDE

Um erro de configuração de rede está impedindo a configuração correta da rede da VM ou do cluster.

Solução de problemas dos passos

Analise as regras do firewall e do grupo de segurança (NSG).
Verifique as tabelas de roteamento e a configuração de roteamento.
Verifique a configuração da sub-rede.
Verifique se há conflitos de endereço IP.
Verifique as configurações de DNS.

Correção recomendada

Corrija a configuração de rede com base no erro específico. Certifique-se de que as regras do grupo de segurança ou NSG permitam o tráfego necessário, verifique se os intervalos CIDR da sub-rede não se sobrepõem, verifique se as tabelas de roteamento estão configuradas corretamente e assegure-se de que o DNS esteja funcionando. Entre em contato com o suporte da Databricks para revisão da configuração de rede.

FALHA NA CONFIGURAÇÃO DO TÚNEL NPIP

O script de inicialização não conseguiu estabelecer a conexão do túnel NPIP dentro do tempo limite. Isso ocorre depois que o provedor cloud inicia a instância e o script de inicialização tenta estabelecer o túnel de retransmissão SCC.

Exemplo de mensagem de erro

Cluster '[REDACTED]' was terminated. Reason: NPIP_TUNNEL_SETUP_FAILURE (SERVICE_FAULT). Parameters: databricks_error_message:VM setup failed due to Ngrok setup timeout. [details] NPIP_TUNNEL_SETUP_FAILURE: Instance bootstrap failed command: WaitForNgrokTunnel Failure message: Timed out waiting for ngrok tunnel to be up(OnDemand), instance_id:[REDACTED]

Solução de problemas dos passos

Verifique a configuração de rede entre o servidor de retransmissão SCC e as sub-redes do plano compute Databricks .
Verifique as configurações de firewall e proxy que possam estar bloqueando o estabelecimento de túneis nas portas 443 ou 6666.

Correção recomendada

Garantir a conectividade de rede do plano compute até o endpoint de retransmissão do SCC. Inicie uma instância no plano compute VPC/VNet do Databricks e verifique a conectividade com o relay SCC:

nslookup <SCC relay fqdn>
nc -vz <SCC relay fqdn> 443

Substitua 443 pela porta PL se você usar link privado.

Caso haja um firewall ou proxy, verifique se ele permite o tráfego para o servidor de retransmissão nas portas necessárias. Consulte a documentação de configuração da rede pública e certifique-se de que as regras de saída corretas estejam configuradas e que você consiga se conectar ao endpoint do SCC a partir da sua VPC/VNet. Se o problema persistir mesmo que não haja nenhum problema na sua configuração de rede, entre em contato com o suporte da Databricks.

TAXA_LIMITADA

O lançamento do cluster foi limitado por taxa porque o workspace excedeu sua capacidade ou limites de solicitação.

Exemplo de mensagem de erro

Your workspace upsize request timed out because it exceeded the workspace-level capacity limit.

Solução de problemas dos passos

Verifique se vários clusters ou jobs estão sendo iniciados simultaneamente.
Revise a atividade de cluster e Job concorrente no workspace.
Identifique se a falha ocorre durante os períodos de pico de uso.
Verifique os Logs de evento do cluster para mensagens de limitação em nível de Workspace.

Correção recomendada

Reduza os lançamentos de clusters concorrentes, escale os agendamentos de Job ou aguarde antes de tentar novamente. Solicite um aumento do limite de capacidade do workspace através do suporte da Databricks se sua carga de trabalho exigir consistentemente alta simultaneidade. Tente novamente o lançamento do cluster após a limitação diminuir.

SOLICITAÇÃO_LIMITADA

As solicitações API para o provedor cloud estão sendo limitadas devido à restrição de taxa.

Exemplo de mensagem de erro

TEMPORARILY_UNAVAILABLE: Too many requests from workspace [REDACTED]

Solução de problemas dos passos

Verifique se vários clusters estão sendo iniciados simultaneamente.
Verifique os limites de taxa de requisições API para sua account.
Identificar se outros serviços estão fazendo chamadas API simultâneas.
Verifique se há sistemas automatizados fazendo solicitações frequentes.

Correção recomendada

Reduza o número de lançamentos simultâneos cluster , solicite um aumento no limite de taxa API ao seu provedor cloud , implemente um mecanismo de espera exponencial em scripts de automação ou escalone os horários de lançamento cluster .

ENCERRAMENTO_DA_INSTÂNCIA_SPOT

Instâncias spot ou preemptíveis foram encerradas pelo provedor cloud devido a necessidades de capacidade ou alterações de preços.

Exemplo de mensagem de erro

Server.SpotInstanceTermination: Spot instance termination

Solução de problemas dos passos

Verifique os logs de eventos cluster para obter o carimbo de data/hora do término.
Avalie os preços spot história da sua região.
Identificar se as demissões ocorrem em horários específicos.
Verifique se várias instâncias foram encerradas simultaneamente.

Correção recomendada

Para cargas de trabalho de produção, migre para instâncias sob demanda, implemente lógica de repetição de tarefas para lidar com interrupções ou use uma combinação de instâncias sob demanda e instâncias spot. Instâncias spot são ideais para cargas de trabalho tolerantes a falhas.

FALHA_DE_DOWNLOAD_DE_IMAGEM_SPARK

O cluster falhou ao fazer download da imagem do contêiner Spark do armazenamento de artefatos da Databricks durante o bootstrap.

Exemplo de mensagem de erro

Failed to set up spark container due to an image download failure: Exception when downloading spark image:

Solução de problemas dos passos

Verifique a conectividade com o armazenamento de artefatos do Databricks da rede do plano de compute.
Verificar a resolução de DNS para endpoints de armazenamento.
Revise as regras de firewall, proxy e grupo de segurança ou NSG.
Verifique se o problema afeta vários clusters ou um único cluster.

Correção recomendada

Garanta a conectividade de rede para Endpoint de armazenamento do Databricks. Configure a VPC ou os Endpoint de serviço, quando aplicável, para melhorar a confiabilidade do download. Tente novamente o lançamento do cluster. Entre em contato com o suporte da Databricks se a conectividade for verificada, mas os downloads ainda falharem.

SPARK_IMAGE_NOT_FOUND

A imagem Spark especificada não existe no armazenamento de artefatos do Databricks.

Exemplo de mensagem de erro

Failed to set up the Spark container on instance [REDACTED] could not find internal Spark image snapshot__17.x-snapshot-scala2.13__databricks__17.4.0_

Solução de problemas dos passos

Verifique a versão do Databricks Runtime configurada no cluster.
Verifique se um nome ou tag de imagem Spark personalizado é especificado.
Confirme se a versão do Runtime é compatível em sua região de Workspace.
Analise as alterações recentes na configuração do cluster ou Job.

Correção recomendada

Selecione uma versão compatível do Databricks Runtime ou verifique se a imagem personalizada do Spark existe. Atualize a configuração do cluster para usar uma versão de Runtime válida e tente novamente o lançamento. Entre em contato com o suporte da Databricks se a versão do runtime estiver disponível, mas a imagem não puder ser encontrada.

FALHA_NA_INICIALIZAÇÃO_DO_PARA_FAÍSCA

O driver Spark não conseguiu iniciar dentro do tempo limite configurado. Isso pode ocorrer quando a startup do daemon do driver não for concluída dentro do tempo limite (normalmente 200 segundos) na instância do driver cluster .

Exemplos de mensagens de erro

Cluster '[REDACTED]' was terminated. Reason: SPARK_STARTUP_FAILURE (SERVICE_FAULT). Parameters: databricks_error_message:Spark failed to start: DEADLINE_EXCEEDED.

Cluster '[REDACTED]' was terminated. Reason: SPARK_STARTUP_FAILURE (SERVICE_FAULT). Parameters: databricks_error_message:Spark failed to start: Timed out after 200 seconds.

Solução de problemas dos passos

Analise a configuração do Spark em busca de erros de configuração (por exemplo, URI do metastore inválida ou configurações conflitantes).
Verifique seu script de inicialização em busca de possíveis erros que possam atrasar ou impedir startup do driver.

Correção recomendada

Remova as configurações personalizadas Spark e o script de inicialização para isolar o problema. Tente usar um tipo de instância diferente, pois a lentidão do hardware em instâncias menores pode causar timeouts startup do driver. Se o problema persistir, entre em contato com o suporte da Databricks, informando o ID do cluster e os detalhes do erro.

FALHA_NO_DOWNLOAD_DE_ARMAZENAMENTO_LENTO

O download de artefatos do armazenamento Databricks está falhando ou está muito lento devido a problemas de conectividade de rede, firewall ou DNS.

Exemplo de mensagem de erro

Instance bootstrap failed command: Command_UpdateWorker
Failure message: Trying DNS probe for: https://[REDACTED].blob.core.windows.net/update/worker-artifacts/...

Solução de problemas dos passos

Verifique as regras do firewall para o endpoint de armazenamento Databricks .
Verifique a resolução de DNS para URLs de armazenamento.
Teste a velocidade de download a partir de uma máquina virtual na mesma rede.
Analise a utilização da largura de banda da rede.
Verifique se há dispositivos de proxy ou de inspeção de rede.
Verificar rotas para o ponto de extremidade de armazenamento.

Correção recomendada

Certifique-se de que as regras do firewall permitam o acesso ao endpoint de armazenamento Databricks .

Configure o endpoint VPC para S3 para evitar o roteamento downloads de artefatos pela internet pública.

Analise e otimize os dispositivos de inspeção de rede, se houver. Se a conectividade com o ponto de extremidade de armazenamento for verificada, mas downloads ainda falharem, entre em contato com o suporte Databricks .

FALHA_DE_DOWNLOAD_DE_ARMAZENAMENTO_LIMITADO

Os downloads de artefatos durante o bootstrap estão sendo limitados pelo provedor de armazenamento em nuvem devido à carga elevada ou limites de egresso.

Exemplo de mensagem de erro

Worker artifact download servers are seeing elevated load and throttling requests.

Solução de problemas dos passos

Analise os logs de eventos do cluster em busca de erros de limitação específicos do armazenamento (por exemplo, HTTP 503 ou ServerBusy).

Correção recomendada

Tente novamente o lançamento do cluster após um breve atraso. Entre em contato com o suporte da Databricks se o problema persistir após múltiplas tentativas.

ERRO_DE_WORKSPACE_CANCELADO

A inicialização do cluster falhou porque o Workspace foi cancelado enquanto o cluster estava sendo provisionado.

Exemplo de mensagem de erro

Workspace Cancelled Error

Solução de problemas dos passos

Verifique se o Workspace foi cancelado ou excluído durante a inicialização do cluster.
Revise o status do workspace no console da account.
Identifique se as solicitações de aumento de cluster estavam em andamento quando o Workspace foi cancelado.

Correção recomendada

Crie um novo Workspace. Entre em contato com o suporte da Databricks se o Workspace parecer ativo, mas os clusters ainda encerrarem com este erro.

ERRO_DE_CONFIGURAÇÃO_DO_ESPAÇO_DE_TRABALHO

Uma configuração incorreta no nível do espaço de trabalho está impedindo a inicialização cluster , incluindo problemas com a função IAM ou permissões de entidade de serviço.

Exemplo de mensagem de erro

User: arn:aws:iam::[REDACTED]:user/ConsolidatedManagerIAMUser is not authorized to perform: sts:AssumeRole on resource: arn:aws:iam::[REDACTED]:role/databricks-workspace-stack-role

Solução de problemas dos passos

Analise as alterações recentes na configuração workspace .
Verifique o console do provedor cloud para alterações de política ou permissão.
Verifique a configuração da relação de confiança IAM role entreaccount e as permissões instance profile para assumir as funções necessárias.

Correção recomendada

Verifique as relações de confiança IAM role e as permissões instance profile . Revisar a configuração de segurança workspace .

Contate o suporte Databricks se a configuração workspace parecer correta ou se a configuração de funções entreaccount precisar de verificação.

AWS_INSUFFICIENT_FREE_ADDRESSES_IN_SUBNET_FAILURE​

AWS_INSUFFICIENT_INSTANCE_CAPACITY_FAILURE​

AWS_RESOURCE_QUOTA_EXCEDED​

BOOTSTRAP_TIMEOUT_DUE_TO_MISCONFIG​

CLOUD_OPERATION_CANCELLED​

CLOUD_PROVIDER_RESOURCE_STOCKOUT_DUE_TO_MISCONFIG​

FALHA_NO_LANÇAMENTO_DO_PROVEDOR_DE_NUVEM​

COMUNICAÇÃO PERDIDA​

CONTROL_PLANE_REQUEST_FAILURE / CONTROL_PLANE_REQUEST_FAILURE_DUE_TO_MISCONFIG​

DOCKER_CONTAINER_CREATION_EXCEPTION​

FALHA_NO_EXTRAÇÃO_DE_IMAGEM_DO_DOCKER​

DOCKER_IMAGE_TOO_LARGE_FOR_INSTANCE_EXCEPTION​

EXCEÇÃO_DE_SISTEMA_OPERACIONAL_INVÁLIDO_DO_DOCKER​

EOS_SPARK_IMAGE​

CAPACIDADE MÁXIMA DO POOL DE INSTÂNCIAS ATINGIDA​

INSTANCE_POOL_NOT_FOUND​

INSTÂNCIA_INACESSÍVEL / INSTÂNCIA_INACESSÍVEL_DEVIDO_A_CONFIGURAÇÃO_INCORRETA​

ARGUMENTO_INVÁLIDO​

INVALID_WORKER_ENVIRONMENT​

VERIFICAÇÃO_DE_REDE_FALHA_DO_PLANO_DE_CONTROLE / VERIFICAÇÃO_DE_REDE_FALHA_DO_PLANO_DE_CONTROLE_DEVIDO_A_MÁ_CONFIGURAÇÃO​

VERIFICAÇÃO_DE_REDE_FALHA_DO_SERVIDOR_DNS / VERIFICAÇÃO_DE_REDE_FALHA_DO_SERVIDOR_DNS_DEVIDO_A_MÁ_CONFIGURAÇÃO​

NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE / NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE_DUE_TO_MISCONFIG​

NETWORK_CHECK_NIC_FAILURE​

NETWORK_CHECK_STORAGE_FAILURE​

FALHA_NA_CONFIGURAÇÃO_DE_REDE​

FALHA NA CONFIGURAÇÃO DO TÚNEL NPIP​

TAXA_LIMITADA​

SOLICITAÇÃO_LIMITADA​

ENCERRAMENTO_DA_INSTÂNCIA_SPOT​

FALHA_DE_DOWNLOAD_DE_IMAGEM_SPARK​

SPARK_IMAGE_NOT_FOUND​

FALHA_NA_INICIALIZAÇÃO_DO_PARA_FAÍSCA​

FALHA_NO_DOWNLOAD_DE_ARMAZENAMENTO_LENTO​

FALHA_DE_DOWNLOAD_DE_ARMAZENAMENTO_LIMITADO​

ERRO_DE_WORKSPACE_CANCELADO​

ERRO_DE_CONFIGURAÇÃO_DO_ESPAÇO_DE_TRABALHO​

AWS_INSUFFICIENT_FREE_ADDRESSES_IN_SUBNET_FAILURE

AWS_INSUFFICIENT_INSTANCE_CAPACITY_FAILURE

AWS_RESOURCE_QUOTA_EXCEDED

BOOTSTRAP_TIMEOUT_DUE_TO_MISCONFIG

CLOUD_OPERATION_CANCELLED

CLOUD_PROVIDER_RESOURCE_STOCKOUT_DUE_TO_MISCONFIG

FALHA_NO_LANÇAMENTO_DO_PROVEDOR_DE_NUVEM

COMUNICAÇÃO PERDIDA

CONTROL_PLANE_REQUEST_FAILURE / CONTROL_PLANE_REQUEST_FAILURE_DUE_TO_MISCONFIG

DOCKER_CONTAINER_CREATION_EXCEPTION

FALHA_NO_EXTRAÇÃO_DE_IMAGEM_DO_DOCKER

DOCKER_IMAGE_TOO_LARGE_FOR_INSTANCE_EXCEPTION

EXCEÇÃO_DE_SISTEMA_OPERACIONAL_INVÁLIDO_DO_DOCKER

EOS_SPARK_IMAGE

CAPACIDADE MÁXIMA DO POOL DE INSTÂNCIAS ATINGIDA

INSTANCE_POOL_NOT_FOUND

INSTÂNCIA_INACESSÍVEL / INSTÂNCIA_INACESSÍVEL_DEVIDO_A_CONFIGURAÇÃO_INCORRETA

ARGUMENTO_INVÁLIDO

INVALID_WORKER_ENVIRONMENT

VERIFICAÇÃO_DE_REDE_FALHA_DO_PLANO_DE_CONTROLE / VERIFICAÇÃO_DE_REDE_FALHA_DO_PLANO_DE_CONTROLE_DEVIDO_A_MÁ_CONFIGURAÇÃO

VERIFICAÇÃO_DE_REDE_FALHA_DO_SERVIDOR_DNS / VERIFICAÇÃO_DE_REDE_FALHA_DO_SERVIDOR_DNS_DEVIDO_A_MÁ_CONFIGURAÇÃO

NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE / NETWORK_CHECK_MULTIPLE_COMPONENTS_FAILURE_DUE_TO_MISCONFIG

NETWORK_CHECK_NIC_FAILURE

NETWORK_CHECK_STORAGE_FAILURE

FALHA_NA_CONFIGURAÇÃO_DE_REDE

FALHA NA CONFIGURAÇÃO DO TÚNEL NPIP

TAXA_LIMITADA

SOLICITAÇÃO_LIMITADA

ENCERRAMENTO_DA_INSTÂNCIA_SPOT

FALHA_DE_DOWNLOAD_DE_IMAGEM_SPARK

SPARK_IMAGE_NOT_FOUND

FALHA_NA_INICIALIZAÇÃO_DO_PARA_FAÍSCA

FALHA_NO_DOWNLOAD_DE_ARMAZENAMENTO_LENTO

FALHA_DE_DOWNLOAD_DE_ARMAZENAMENTO_LIMITADO

ERRO_DE_WORKSPACE_CANCELADO

ERRO_DE_CONFIGURAÇÃO_DO_ESPAÇO_DE_TRABALHO