Pular para o conteúdo principal

Use benchmarks em um espaço Genie

Esta página explica como usar benchmarks para avaliar a precisão do seu espaço Genie.

Visão geral

Os benchmarks permitem que o senhor crie um conjunto de perguntas de teste que podem ser executadas para avaliar a precisão geral das respostas do Genie. Um conjunto bem projetado de benchmarks que abrange as perguntas mais frequentes dos usuários ajuda a avaliar a precisão do seu espaço Genie à medida que o senhor o aperfeiçoa.

Perguntas de benchmark executadas como novas conversas. Elas não têm o mesmo contexto de uma conversa do Genie com thread. Cada pergunta é processada como uma nova consulta, usando as instruções definidas no espaço, incluindo qualquer exemplo fornecido de funções SQL e SQL.

Exemplos de benchmarks com precisão relatados em nove perguntas.

Adicione perguntas de referência

As perguntas de referência devem refletir maneiras diferentes de formular as perguntas comuns que seus usuários fazem. O senhor pode usá-las para verificar a resposta do Genie a variações na formulação das perguntas ou a diferentes formatos de perguntas.

Ao criar uma pergunta de benchmark, o senhor pode, opcionalmente, incluir uma consulta SQL cujo conjunto de resultados é a resposta correta. Durante a execução do benchmark, a precisão é avaliada comparando o conjunto de resultados de sua consulta SQL com o gerado por Genie.

Para adicionar uma pergunta de referência:

  1. Clique no menu Ícone do menu Kebab. kebab no canto superior direito do espaço do Genie. Em seguida, clique em Benchmarks .

  2. Clique em Adicionar benchmark .

  3. No campo Pergunta , insira uma pergunta de referência para testar.

  4. (Opcional) Digite a instrução SQL que responde com precisão à pergunta que o senhor digitou.

nota

Essa etapa é recomendada. Somente as perguntas que incluem esse exemplo de instrução SQL podem ser avaliadas automaticamente quanto à precisão. Todas as perguntas que não incluírem uma resposta SQL exigem revisão manual para serem pontuadas.

  1. (Opcional) Clique em executar para executar sua consulta e view os resultados.

  2. Quando terminar de editar, clique em Adicionar referência .

  3. Para atualizar uma pergunta depois de salvá-la, clique no ícone de Ícone de edição lápis para abrir a caixa de diálogo Atualizar pergunta .

Use benchmarks para testar frases de perguntas alternativas

Ao avaliar a precisão do seu espaço Genie, é importante estruturar testes que reflitam cenários realistas. Os usuários podem fazer a mesma pergunta de maneiras diferentes. A Databricks recomenda adicionar várias frases da mesma pergunta e usar o mesmo exemplo de SQL em seus testes de benchmark para avaliar totalmente a precisão. A maioria dos sites Genie spaces deve incluir de 2 a 4 frases da mesma pergunta.

perguntas de benchmark de execução

Usuários com pelo menos CAN EDIT permissões em um espaço Genie podem executar uma avaliação de benchmark a qualquer momento. A execução de uma avaliação de benchmark executa automaticamente todas as perguntas de benchmark.

Para cada pergunta, o Genie interpreta a entrada, gera SQL e retorna os resultados. O SQL gerado e os resultados são então comparados com a resposta SQL definida na pergunta de referência.

Para executar todas as perguntas de referência:

  1. Clique no menu Ícone do menu Kebab. kebab no canto superior direito do espaço do Genie. Em seguida, clique em Benchmarks .
  2. Clique em executar benchmarks para iniciar a execução do teste.
nota

Se o senhor fechar esta página, a execução do benchmark será automaticamente interrompida. Você pode retomar o teste ao reabrir a página.

Interprete as classificações

Os critérios a seguir determinam como as respostas do Genie são classificadas:

Condição

Avaliação

O Genie gera um SQL que corresponde exatamente à resposta SQL fornecida

Boa

O Genie gera um conjunto de resultados que corresponde exatamente ao conjunto de resultados produzido pela SQL Answer

Boa

O Genie gera um conjunto de resultados que inclui colunas extras em comparação com o conjunto de resultados produzido pela SQL Answer

Boa

O Genie gera um conjunto de resultados com os mesmos dados que o SQL Answer , mas com uma classificação diferente

Boa

O Genie gera um conjunto de resultados com valores numéricos que arredondam para os mesmos 4 dígitos significativos da resposta SQL

Boa

O Genie gera SQL que produz um conjunto de resultados vazio ou retorna um erro

Ruim

O Genie gera um resultado de célula única que é diferente do resultado de célula única produzido pela SQL Answer

Ruim

É necessária uma revisão manual : As respostas são marcadas com esse rótulo quando o Genie não consegue avaliar a correção ou quando os resultados da consulta gerada pelo Genie não contêm uma correspondência exata com os resultados da resposta SQL fornecida. Todas as perguntas de benchmark que não incluírem uma resposta SQL devem ser revisadas manualmente.

Acesse avaliações de benchmark

O senhor pode acessar todas as suas avaliações de benchmark para acompanhar a precisão do seu espaço Genie ao longo do tempo. Quando o senhor abre os Benchmarks de um espaço, uma lista com registro de data e hora da execução da avaliação aparece em Evaluations tab. Se nenhuma execução de avaliação for encontrada, consulte Adicionar perguntas de referência ou executar perguntas de referência.

Tela de avaliações conforme descrito no texto a seguir.

O site Evaluations tab mostra uma visão geral das avaliações e seu desempenho relatado nas seguintes categorias:

Nome da avaliação : Um carimbo de data/hora que indica quando ocorreu uma execução de avaliação. Clique no carimbo de data/hora para ver os detalhes dessa avaliação. Status da execução : Indica se a avaliação foi concluída, pausada ou não foi bem-sucedida. Se uma execução de avaliação incluir perguntas de benchmark que não tenham respostas SQL predefinidas, ela será marcada para revisão nessa coluna. Precisão : uma avaliação numérica da precisão em todas as perguntas de referência. Para a execução da avaliação que exige revisão manual, uma medida de precisão aparece somente depois que essas perguntas forem revisadas. Criado por : Indica o nome do usuário que executou a avaliação.

Revise as avaliações individuais

Você pode analisar as avaliações individuais para obter uma visão detalhada de cada resposta. Você pode editar a avaliação de qualquer pergunta e atualizar todos os itens que precisem de revisão manual.

Para revisar as avaliações individuais:

  1. Clique no menu Ícone do menu Kebab. kebab no canto superior direito do espaço do Genie. Em seguida, clique em Benchmarks .

  2. Clique no carimbo de data/hora de qualquer avaliação na coluna Evaluation name (Nome da avaliação) para abrir um view detalhado da execução desse teste.

    Uma tela que mostra os resultados de uma única execução de avaliação. Todas as perguntas estão listadas à esquerda. Se aplicável, as perguntas individuais são mostradas à direita com a saída do modelo e a saída da verdade fundamental.

  3. Clique em uma pergunta no lado esquerdo da tela para ver os detalhes associados. Use a tela de detalhes da avaliação para realizar as próximas etapas.

  4. Analise e compare a resposta de saída do modelo com a resposta de verdade do Ground .

nota

Os resultados dessas respostas aparecem nos detalhes da avaliação por uma semana. Depois de uma semana, os resultados não são mais visíveis. A instrução SQL gerada e a instrução SQL de exemplo permanecem.

  1. Clique em Ícone de edição no rótulo para editar a avaliação.

    Marque cada resultado como Bom ou Ruim para obter uma pontuação precisa para essa avaliação.