Exibir métricas de computação

Este artigo explica como usar a ferramenta nativa compute métricas na interface do usuário Databricks para reunir hardware key e Spark métricas. A interface de usuário métricas está disponível para todos os fins e para o Job compute.

Observação

sem servidor compute para Notebook e Job usa percepções de consulta em vez da IU métrica. Para obter mais informações sobre serverless compute métricas, consulte view query percepções.

As métricas estão disponíveis quase em tempo real, com um atraso normal de menos de um minuto. As métricas são armazenadas no armazenamento da Databricks-gerenciar, não no armazenamento do cliente.

Como essas novas métricas são diferentes do Ganglia?

A nova interface de usuário compute métricas tem uma visão mais abrangente view do uso de recursos do seu cluster, incluindo o consumo Spark e os processos internos Databricks. Por outro lado, a Ganglia UI mede apenas o consumo do contêiner Spark. Essa diferença pode resultar em discrepâncias nos valores métricos entre as duas interfaces.

Acessar a interface do usuário de métricas de computação

Para view a UI de métricas compute:

  1. Clique em compute na barra lateral.

  2. Clique no recurso compute para o qual você deseja view as métricas.

  3. Clique na tab métricas .

métricas clusters nas últimas 24 horas

As métricas de hardware são mostradas em default. Para acessar o site view Spark métricas, clique no menu suspenso do rótulo Hardware e selecione Spark. O senhor também pode selecionar GPU se a instância estiver habilitada para GPU.

Filtrar métricas por período

Você pode view métricas históricas selecionando um intervalo de tempo usando o filtro do seletor de datas. As métricas são coletadas a cada minuto, para que você possa filtrar por qualquer intervalo de dia, hora ou minuto dos últimos 30 dias. Clique no ícone de calendário para selecionar intervalos de dados predefinidos ou clique dentro da caixa de texto para definir valores personalizados.

Observação

Os intervalos de tempo exibidos nos gráficos são ajustados com base no tempo que você está visualizando. A maioria das métricas são médias baseadas no intervalo de tempo que você está visualizando no momento.

Você também pode obter as métricas mais recentes clicando no botão Atualizar.

Exibir métricas no nível do nó

O senhor pode view métricas para nós individuais clicando no compute menu suspenso e selecionando o nó para o qual o senhor deseja view métricas. As métricas de GPU estão disponíveis apenas no nível do nó individual. As métricas do Spark não estão disponíveis para nós individuais.

Observação

Se o senhor não selecionar um nó específico, o resultado será a média de todos os nós de um cluster (incluindo o driver).

Gráficos métricos de hardware

Os seguintes gráficos de métricas de hardware estão disponíveis para view na interface de usuário de métricas compute:

  • Distribuição da carga do servidor: Esse gráfico mostra a utilização da CPU no último minuto para cada nó.

  • Utilização da CPU: a porcentagem de tempo que a CPU gastou em cada modo, com base no custo total de segundos da CPU. A média das métricas é calculada com base em qualquer intervalo de tempo exibido no gráfico. A seguir estão os modos rastreados:

    • convidado: se você estiver executando VMs, a CPU que essas VMs usam

    • iowait: Tempo gasto esperando por E/S

    • paradoxo: Tempo em que a CPU não tinha nada para fazer

    • irq: Tempo gasto em solicitações de interrupção

    • agradável: Tempo utilizado por processos que possuem uma gentileza positiva, significando uma prioridade mais baixa do que outra tarefa

    • softirq: Tempo gasto em solicitações de interrupção de software

    • roubar: se você for uma VM, cronometre outras VMs “roubando” de suas CPUs

    • sistema: O tempo gasto no kernel

    • usuário: O tempo gasto na terra do usuário

  • Utilização de memória: o uso total de memória por cada modo, medido em bytes e calculado com base em qualquer intervalo de tempo exibido no gráfico. Os seguintes tipos de uso são rastreados:

    • used: Memória usada (incluindo a memória usada por processos em segundo plano em execução em um compute)

    • grátis: memória não utilizada

    • buffer: Memória usada pelos buffers do kernel

    • cached: memória usada pelo cache do sistema de arquivos no nível do sistema operacional

  • Utilização swap memória: o uso total swap memória por cada modo, medido em bytes e calculado com base em qualquer intervalo de tempo exibido no gráfico.

  • Espaço livre no sistema de arquivos: O uso total do sistema de arquivos por cada ponto de montagem, medido em bytes e calculado com base em qualquer intervalo de tempo exibido no gráfico.

  • Recebidos pela rede: o número de bytes recebidos pela rede por cada dispositivo, calculado com base no intervalo de tempo exibido no gráfico.

  • Transmitido pela rede: o número de bytes transmitidos pela rede por cada dispositivo, calculado com base no intervalo de tempo exibido no gráfico.

  • Número de nós ativos: Mostra o número de nós ativos em cada registro de data e hora para o site compute.

Gráficos de métricas do Spark

Os seguintes gráficos métricos do Spark estão disponíveis em view na UI de métricas compute:

  • Distribuição da carga do servidor: Esse gráfico mostra a utilização da CPU no último minuto para cada nó.

  • Tarefa ativa: O número total de tarefas em execução em um determinado momento, calculado com base em qualquer intervalo de tempo exibido no gráfico.

  • Total de tarefas com falha: O número total de tarefas que falharam no executor, calculado com base em qualquer intervalo de tempo exibido no gráfico.

  • Total de tarefas concluídas: O número total de tarefas concluídas no executor, calculada a média com base em qualquer intervalo de tempo exibido no gráfico.

  • Número total de tarefas : O número total de todas as tarefas (em execução, com falha e concluídas) no executor, calculada a média com base em qualquer intervalo de tempo exibido no gráfico.

  • Leitura aleatória total: o tamanho total dos dados de leitura aleatória, medido em bytes e calculado com base em qualquer intervalo de tempo exibido no gráfico. Shuffle read significa a soma dos dados de leitura serializados em todos executor no início de um estágio.

  • Gravação aleatória total: o tamanho total dos dados de gravação aleatória, medido em bytes e calculado com base em qualquer intervalo de tempo exibido no gráfico. Shuffle Write é a soma de todos os dados serializados gravados em todos executor antes da transmissão (normalmente no final de um estágio).

  • Duração total da tarefa: O tempo total decorrido que a JVM gastou executando tarefas no executor, medido em segundos e calculado com base em qualquer intervalo de tempo exibido no gráfico.

Gráficos de métricas de GPU

Observação

As GPU métricas estão disponíveis apenas em Databricks Runtime ML 13.3 e acima.

Os seguintes gráficos de métricas de GPU estão disponíveis para view na UI de métricas compute:

  • Distribuição da carga do servidor: Esse gráfico mostra a utilização da CPU no último minuto para cada nó.

  • Utilização do decodificador por GPU: a porcentagem de utilização do decodificador de GPU, calculada com base no intervalo de tempo exibido no gráfico.

  • Utilização do codificador por GPU: a porcentagem de utilização do codificador GPU, calculada com base no intervalo de tempo exibido no gráfico.

  • Bytes de utilização de memória do buffer de quadros por GPU: a utilização da memória do buffer de quadros, medida em bytes e calculada em média com base em qualquer intervalo de tempo exibido no gráfico.

  • Utilização de memória por GPU: a porcentagem de utilização de memória da GPU, calculada em média com base em qualquer intervalo de tempo exibido no gráfico.

  • Utilização por GPU: a porcentagem de utilização da GPU, calculada com base em qualquer intervalo de tempo exibido no gráfico.

Solução de problemas

Se o senhor vir métricas incompletas ou ausentes para um período, pode ser um dos seguintes problemas:

  • Uma interrupção no serviço Databricks responsável por consultar e armazenar métricas.

  • Problemas de rede no lado do cliente.

  • O site compute está ou estava em um estado insalubre.