Veja compute métricas
Este artigo explica como usar a ferramenta nativa compute métricas na interface do usuário Databricks para reunir hardware key e Spark métricas. A interface de usuário métricas está disponível para todos os fins e para o Job compute.
sem servidor compute para Notebook e Job usa percepções de consulta em vez da IU métrica. Para obter mais informações sobre serverless compute métricas, consulte view query percepções.
As métricas estão disponíveis quase em tempo real, com um atraso normal de menos de um minuto. As métricas são armazenadas no Databricks-gerenciar storage, não no storage do cliente.
Como essas novas métricas são diferentes do Ganglia?
A nova interface de usuário compute métricas tem um view mais abrangente do uso de recursos do seu clustering, incluindo o consumo de Spark e os processos internos Databricks. Por outro lado, a Ganglia UI mede apenas o consumo do contêiner Spark. Essa diferença pode resultar em discrepâncias nos valores métricos entre as duas interfaces.
Acesse compute métricas UI
Para view a interface de usuário compute métricas:
- Clique em Calcular na barra lateral.
- Clique no compute recurso para o qual o senhor deseja view métricas.
- Clique nas métricas tab.
As métricas de hardware são mostradas em default. Para acessar o site view Spark métricas, clique no menu suspenso do rótulo Hardware e selecione Spark . Você também pode selecionar GPU se a instância estiver habilitada para GPU.
Filtrar métricas por período de tempo
O senhor pode view métricas históricas selecionando um intervalo de tempo usando o filtro de seleção de data. As métricas são coletadas a cada minuto, portanto, o senhor pode filtrar por qualquer intervalo de dia, hora ou minuto dos últimos 30 dias. Clique no ícone do calendário para selecionar entre intervalos de dados predefinidos ou clique dentro da caixa de texto para definir valores personalizados.
Os intervalos de tempo exibidos nos gráficos se ajustam com base no período de tempo que você está visualizando. A maioria das métricas são médias baseadas no intervalo de tempo que o senhor está visualizando no momento.
Você também pode obter as métricas mais recentes clicando no botão Atualizar .
visualizar métricas no nível do nó
O senhor pode view métricas para nós individuais clicando no menu suspenso de computação e selecionando o nó para o qual deseja view métricas. As métricas de GPU estão disponíveis apenas no nível do nó individual. As métricas do Spark não estão disponíveis para nós individuais.
Se o senhor não selecionar um nó específico, o resultado será a média de todos os nós de um clustering (incluindo o driver).
Gráficos métricos de hardware
Os seguintes gráficos de métricas de hardware estão disponíveis para view na interface de usuário de métricas compute:
-
Distribuição da carga do servidor : este gráfico mostra a utilização da CPU no último minuto para cada nó.
-
Utilização da CPU : a porcentagem de tempo que a CPU passou em cada modo, com base no custo total de segundos da CPU. A média das métricas é calculada com base em qualquer intervalo de tempo exibido no gráfico. A seguir estão os modos rastreados:
- convidado: Se você estiver executando VMs, a CPU que essas VMs usam
- iowait: Tempo gasto esperando pela E/S
- parado: Tempo em que a CPU não tinha nada para fazer
- irq: Tempo gasto em solicitações de interrupção
- nice: Tempo usado por processos que têm um niceness positivo, ou seja, uma prioridade mais baixa do que outras tarefas
- softirq: Tempo gasto em solicitações de interrupção de software
- roubar: se você é uma VM, hora em que outras VMs “roubaram” de suas CPUs
- sistema: O tempo gasto no kernel
- usuário: O tempo gasto na área do usuário
-
Utilização de memória : o uso total de memória por cada modo, medido em bytes e calculado com base no intervalo de tempo exibido no gráfico. Os seguintes tipos de uso são monitorados:
- used: Memória usada (incluindo a memória usada por processos em segundo plano em execução em um compute)
- grátis: memória não utilizada
- buffer: memória usada pelos buffers do kernel
- em cache: memória usada pelo cache do sistema de arquivos no nível do sistema operacional
-
Utilização de swap de memória : O uso total de swap de memória por cada modo, medido em bytes e calculado com base na média de qualquer intervalo de tempo exibido no gráfico.
-
Espaço livre no sistema de arquivos : o uso total do sistema de arquivos por cada ponto de montagem, medido em bytes e calculado com base no intervalo de tempo exibido no gráfico.
-
Recebido pela rede : o número de bytes recebidos pela rede por cada dispositivo, calculado com base no intervalo de tempo exibido no gráfico.
-
Transmitido pela rede : o número de bytes transmitidos pela rede por cada dispositivo, calculado com base no intervalo de tempo exibido no gráfico.
-
Número de nós ativos : Mostra o número de nós ativos em cada registro de data e hora para o site compute.
Gráficos de métricas do Spark
Os seguintes gráficos Spark métricas estão disponíveis para view na UI compute métricas:
- Distribuição da carga do servidor : este gráfico mostra a utilização da CPU no último minuto para cada nó.
- Tarefa ativa : O número total de tarefas em execução em um determinado momento, calculado com base na média do intervalo de tempo exibido no gráfico.
- Total de tarefas com falha : O número total de tarefas que falharam no executor, calculando a média com base em qualquer intervalo de tempo exibido no gráfico.
- Total de tarefas concluídas : O número total de tarefas concluídas no executor, calculada a média com base no intervalo de tempo exibido no gráfico.
- Número total de tarefas : O número total de todas as tarefas (em execução, com falha e concluídas) no executor, calculando a média com base no intervalo de tempo exibido no gráfico.
- Total de leitura aleatória : O tamanho total dos dados de leitura aleatória, medido em bytes e calculado com base na média do intervalo de tempo exibido no gráfico.
Shuffle read
significa a soma dos dados de leitura serializados em todos os executores no início de um estágio. - Total de gravação aleatória: O tamanho total dos dados de gravação aleatória, medido em bytes e calculado com base na média do intervalo de tempo exibido no gráfico.
Shuffle Write
é a soma de todos os dados serializados gravados em todos os executores antes da transmissão (normalmente no final de um estágio). - Duração total da tarefa : O tempo total decorrido que o site JVM passou executando a tarefa no executor, medido em segundos e calculado com base no intervalo de tempo exibido no gráfico.
Gráficos de métricas de GPU
As GPU métricas estão disponíveis apenas em Databricks Runtime ML 13.3 e acima.
Os gráficos de métricas de GPU a seguir estão disponíveis para view na interface de usuário de métricas de compute:
- Distribuição da carga do servidor : este gráfico mostra a utilização da CPU no último minuto para cada nó.
- Utilização do decodificador por GPU: a porcentagem de utilização do decodificador de GPU, calculada com base no intervalo de tempo exibido no gráfico.
- Utilização do codificador por GPU: a porcentagem de utilização do codificador de GPU, calculada com base no intervalo de tempo exibido no gráfico.
- Bytes de utilização da memória do buffer de quadros por GPU: a utilização da memória do buffer de quadros, medida em bytes e calculada com base no intervalo de tempo exibido no gráfico.
- Utilização de memória por GPU : a porcentagem de utilização da memória da GPU, calculada com base no intervalo de tempo exibido no gráfico.
- Utilização por GPU : a porcentagem de utilização da GPU, calculada com base no intervalo de tempo exibido no gráfico.
Solução de problemas
Se o senhor vir métricas incompletas ou ausentes para um período, pode ser um dos seguintes problemas:
- Uma interrupção no serviço Databricks responsável por consultar e armazenar métricas.
- Problemas de rede do lado do cliente.
- O site compute está ou estava em um estado insalubre.