Veja compute métricas

Este artigo explica como usar a ferramenta nativa compute métricas na interface do usuário Databricks para reunir hardware key e Spark métricas. A interface de usuário métricas está disponível para todos os fins e para o Job compute.

agrupamento de métricas nas últimas 24 horas

As métricas estão disponíveis quase em tempo real, com um atraso normal de menos de um minuto. As métricas são armazenadas no Databricks-gerenciar storage, e não no storage do cliente.

sem servidor compute para Notebook e Job usa percepções de consulta em vez da IU métrica. Para obter mais informações sobre serverless compute métricas, consulte view query percepções.

Acesse compute métricas UI

Para view a interface de usuário compute métricas:

Clique em Calcular na barra lateral.
Clique no compute recurso para o qual o senhor deseja view métricas.
Clique nas métricas tab.

As métricas de hardware para todos os nós são exibidas por default. Para view as métricas Spark , clique no menu suspenso com a etiqueta Hardware e selecione Spark . Você também pode selecionar GPU se a instância estiver habilitada para GPU.

Filtrar métricas por período de tempo

O senhor pode view métricas históricas selecionando um intervalo de tempo usando o filtro de seleção de data. As métricas são coletadas a cada minuto, portanto, o senhor pode filtrar por qualquer intervalo de dia, hora ou minuto dos últimos 30 dias. Clique no ícone do calendário para selecionar entre intervalos de dados predefinidos ou clique dentro da caixa de texto para definir valores personalizados.

nota

Os intervalos de tempo exibidos nos gráficos se ajustam com base no período de tempo que você está visualizando. A maioria das métricas são médias baseadas no intervalo de tempo que o senhor está visualizando no momento.

Você também pode obter as métricas mais recentes clicando no botão Atualizar .

visualizar métricas no nível do nó

Por default, a página de métricas mostra as métricas de todos os nós dentro de um cluster (incluindo o driver), com a média calculada ao longo do período.

Você pode view as métricas de nós individuais clicando no menu suspenso "Todos os nós" e selecionando o nó para o qual deseja view as métricas. As métricas da GPU estão disponíveis apenas no nível de cada nó individual. As métricas do Spark não estão disponíveis para nós individuais.

Para ajudar a identificar nós atípicos dentro do cluster, você também pode view as métricas de todos os nós individuais em uma única página. Para acessar essa view, clique no menu dropdown Todos os nós e selecione Por nó , depois selecione a subcategoria de métricas que deseja view.

métricas de cluster por nó nas últimas 24 horas

Gráficos métricos de hardware

Os seguintes gráficos de métricas de hardware estão disponíveis para view na interface de usuário de métricas compute:

Utilização da CPU e nós ativos : O gráfico de linhas exibe o número de nós ativos em cada instante de tempo para o compute especificado. O gráfico de barras exibe a porcentagem de tempo que a CPU passou em cada modo, com base no custo total em segundos de CPU. Os modos de monitoramento são os seguintes:
- guestSe você estiver executando máquinas virtuais, o uso da CPU por essas máquinas virtuais será necessário.
- iowaitTempo gasto aguardando entrada/saída
- idleTempo em que a CPU não tinha nada a fazer
- irqTempo gasto em solicitações de interrupção:
- niceTempo utilizado por processos que têm uma "bondade positiva", ou seja, uma prioridade menor do que outras tarefas.
- softirqTempo gasto em solicitações de interrupção de software
- stealSe você for uma máquina virtual, esse será o tempo que outras máquinas virtuais "roubaram" de suas CPUs.
- systemO tempo gasto no kernel
- userO tempo gasto no espaço do usuário.
Uso de memória do contêiner : a memória consumida pelo contêiner Spark, calculada em média em todos os nós aplicáveis. Inclui médias de memória não recuperável (Container memory used), o cache de páginas de arquivos do SO (Container memory file cache) e o limite de memória configurado (Container memory limit).
Utilização do heap da JVM : A utilização de memória heap da JVM, calculada como a média entre todos os nós aplicáveis. Inclui as médias do uso real da memória heap, da capacidade da memória heap e do limite máximo de memória heap configurado.
Rede recebida e transmitida : O número de bytes recebidos e transmitidos pela rede por cada dispositivo.
Espaço livre no sistema de arquivos : O uso total do sistema de arquivos por cada ponto de montagem, medido em bytes.

Clique em "Uso de memória do nó" na parte inferior da tab "Hardware" para expandir o gráfico adicional a seguir:

Utilização de memória e swap : O gráfico de linhas mostra o uso total de memória swap por modo, medido em bytes. O gráfico de barras mostra o uso total de memória por modo, também medido em bytes. Os seguintes tipos de uso são monitorados:
- used: Memória total em uso no nível do sistema operacional, incluindo a memória usada por processos em segundo plano em execução em um compute. Como o driver e os processos em segundo plano utilizam memória, o uso ainda pode ocorrer mesmo quando nenhum trabalho Spark está em execução.
- other: Memória em uso para fins diferentes de used, buffer, ou cached
- bufferMemória utilizada pelos buffers do kernel
- cachedMemória utilizada pelo cache do sistema de arquivos no nível do sistema operacional.
- freeMemória não utilizada. Tudo o que não estiver atribuído a uma das categorias acima no gráfico é gratuito.

Gráficos de métricas do Spark

Os seguintes gráficos Spark métricas estão disponíveis para view na UI compute métricas:

Distribuição da carga do servidor : Esses gráficos mostram a utilização da CPU no último minuto para cada nó no recurso compute . Cada bloco é um link clicável que leva à página de métricas do nó individual.
Tarefa ativa : O número total de tarefas em execução em um determinado momento.
Total de tarefas com falha : O número total de tarefas que falharam no executor.
Total de tarefas concluídas : O número total de tarefas que foram concluídas no executor.
Número total de tarefas : O número total de todas as tarefas (em execução, com falha e concluídas) no executor.
Leitura total consultada : O tamanho total dos dados de leitura consultada, medido em bytes. Shuffle read significa a soma dos dados de leitura serializados em todos os executores no início de um estágio.
Total registrado: O tamanho total dos dados registrados, medido em bytes. Shuffle Write é a soma de todos os dados serializados gravados em todos os executores antes da transmissão (normalmente no final de um estágio).
Duração total da tarefa : O tempo total decorrido que a JVM gastou executando a tarefa no executor, medido em segundos.

Gráficos de métricas de GPU

nota

As GPU métricas estão disponíveis apenas em Databricks Runtime ML 13.3 e acima.

Os gráficos de métricas de GPU a seguir estão disponíveis para view na interface de usuário de métricas de compute:

Distribuição da carga do servidor : este gráfico mostra a utilização da CPU no último minuto para cada nó.
Utilização do decodificador por GPU : A porcentagem de utilização do decodificador da GPU.
Utilização do codificador por GPU : A porcentagem de utilização do codificador da GPU.
Utilização de memória do buffer de quadros por GPU (bytes) : A utilização de memória do buffer de quadros, medida em bytes.
Utilização de memória por GPU : A porcentagem de utilização da memória da GPU.
Utilização por GPU : A porcentagem de utilização da GPU.

Solução de problemas

Se o senhor vir métricas incompletas ou ausentes para um período, pode ser um dos seguintes problemas:

Uma interrupção no serviço Databricks responsável por consultar e armazenar métricas.
Problemas de rede do lado do cliente.
O site compute está ou estava em um estado insalubre.

Acesse compute métricas UI​

Filtrar métricas por período de tempo​

visualizar métricas no nível do nó​

Gráficos métricos de hardware​

Gráficos de métricas do Spark​

Gráficos de métricas de GPU​

Solução de problemas​