Pular para o conteúdo principal

Use benchmarks em um espaço Genie

Este artigo explica como usar benchmarks para avaliar a precisão de seu espaço Genie.

Visão geral

Os benchmarks permitem que o senhor crie um conjunto de perguntas de teste que podem ser executadas para avaliar a precisão geral das respostas do Genie. Um conjunto bem projetado de benchmarks que abrange as perguntas mais frequentes dos usuários ajuda a avaliar a precisão do seu espaço Genie à medida que o senhor o aperfeiçoa.

Perguntas de benchmark executadas como novas conversas. Elas não têm o mesmo contexto de uma conversa do Genie com thread. Cada pergunta é processada como uma nova consulta, usando as instruções definidas no espaço, incluindo qualquer exemplo fornecido de funções SQL e SQL.

Exemplos de benchmarks com precisão relatados em nove perguntas.

Adicione perguntas de referência

As perguntas de referência devem refletir maneiras diferentes de formular as perguntas comuns que seus usuários fazem. O senhor pode usá-las para verificar a resposta do Genie a variações na formulação das perguntas ou a diferentes formatos de perguntas.

Ao criar uma pergunta de benchmark, o senhor pode, opcionalmente, incluir uma consulta SQL cujo conjunto de resultados é a resposta correta. Durante a execução do benchmark, a precisão é avaliada comparando o conjunto de resultados de sua consulta SQL com o gerado por Genie.

Para adicionar uma pergunta de referência:

  1. Clique no menu Menu Kebab kebab no canto superior direito do espaço do Genie. Em seguida, clique em Benchmarks .

  2. Clique em Adicionar benchmark .

  3. No campo Pergunta , insira uma pergunta de referência para testar.

  4. (Opcional) Digite a instrução SQL que responde com precisão à pergunta que o senhor digitou.

nota

Essa etapa é recomendada. Somente as perguntas que incluem esse exemplo de instrução SQL podem ser avaliadas automaticamente quanto à precisão. Todas as perguntas que não incluírem uma resposta SQL exigem revisão manual para serem pontuadas.

  1. (Opcional) Clique em executar para executar sua consulta e view os resultados.

  2. Quando terminar de editar, clique em Adicionar referência .

  3. Para atualizar uma pergunta depois de salvá-la, clique no ícone de Ícone de edição lápis para abrir a caixa de diálogo Atualizar pergunta .

Use benchmarks para testar frases de perguntas alternativas

Ao avaliar a precisão do seu espaço Genie, é importante estruturar testes que reflitam cenários realistas. Os usuários podem fazer a mesma pergunta de maneiras diferentes. A Databricks recomenda adicionar várias frases da mesma pergunta e usar o mesmo exemplo de SQL em seus testes de benchmark para avaliar totalmente a precisão. A maioria dos sites Genie spaces deve incluir de 2 a 4 frases da mesma pergunta.

perguntas de benchmark de execução

Os usuários com pelo menos permissões CAN EDIT em um espaço do Genie podem criar uma execução de benchmark a qualquer momento, que será avaliada automaticamente em todas as perguntas de benchmark. Para avaliar cada pergunta de benchmark, primeiro enviaremos a pergunta ao Genie e, em seguida, compararemos os resultados do Genie com o benchmark. Um dos seguintes rótulos é aplicado a cada benchmark:

  • Bom : As respostas são marcadas com esse rótulo quando o resultado da consulta gerada pelo Genie corresponde aos resultados da resposta SQL fornecida. Quando uma resposta é marcada como Boa , significa que os valores das linhas coincidem exatamente, independentemente da ordem de classificação ou dos nomes das colunas.
  • É necessária uma revisão manual : As respostas são marcadas com esse rótulo quando o Genie não consegue avaliar a correção ou quando os resultados da consulta gerada pelo Genie não correspondem aos resultados da resposta SQL fornecida. Se houver alterações inesperadas nas dimensões de uma tabela na resposta gerada ou na resposta SQL fornecida, a pergunta poderá ser marcada para revisão. Todas as perguntas de benchmark que não incluírem uma resposta SQL devem ser revisadas manualmente.
  • Ruim : As respostas nunca são automaticamente rotuladas como ruins . Se os resultados da consulta gerada pelo Genie não corresponderem ao conjunto de resultados da resposta SQL fornecida, a pergunta será marcada como Revisão manual necessária . Ao analisar esses benchmarks, o senhor pode marcar um resultado como Ruim se achar que os resultados da consulta gerada pelo Genie não respondem à pergunta.

Para executar todas as perguntas de referência:

  1. Clique no menu Menu Kebab kebab no canto superior direito do espaço do Genie. Em seguida, clique em Benchmarks .
  2. Clique em executar benchmarks para iniciar a execução do teste.
nota

Se o senhor fechar esta página, a execução do benchmark será automaticamente interrompida. Você pode retomar o teste ao reabrir a página.

Acesse avaliações de benchmark

O senhor pode acessar todas as suas avaliações de benchmark para acompanhar a precisão do seu espaço Genie ao longo do tempo. Quando o senhor abre os Benchmarks de um espaço, uma lista com registro de data e hora da execução da avaliação aparece em Evaluations tab. Se nenhuma execução de avaliação for encontrada, consulte Adicionar perguntas de referência ou executar perguntas de referência.

Tela de avaliações conforme descrito no texto a seguir.

O site Evaluations tab mostra uma visão geral das avaliações e seu desempenho relatado nas seguintes categorias:

Nome da avaliação : Um carimbo de data/hora que indica quando ocorreu uma execução de avaliação. Clique no carimbo de data/hora para ver os detalhes dessa avaliação. Status da execução : Indica se a avaliação foi concluída, pausada ou não foi bem-sucedida. Se uma execução de avaliação incluir perguntas de benchmark que não tenham respostas SQL predefinidas, ela será marcada para revisão nessa coluna. Precisão : uma avaliação numérica da precisão em todas as perguntas de referência. Para a execução da avaliação que exige revisão manual, uma medida de precisão aparece somente depois que essas perguntas forem revisadas. Criado por : Indica o nome do usuário que executou a avaliação.

Revise as avaliações individuais

Você pode analisar as avaliações individuais para obter uma visão detalhada de cada resposta. Você pode editar a avaliação de qualquer pergunta e atualizar todos os itens que precisem de revisão manual.

Para revisar as avaliações individuais:

  1. Clique no menu Menu Kebab kebab no canto superior direito do espaço do Genie. Em seguida, clique em Benchmarks .

  2. Clique no carimbo de data/hora de qualquer avaliação na coluna Evaluation name (Nome da avaliação) para abrir um view detalhado da execução desse teste.

    Uma tela que mostra os resultados de uma única execução de avaliação. Todas as perguntas estão listadas à esquerda. Se aplicável, as perguntas individuais são mostradas à direita com a saída do modelo e a saída da verdade fundamental.

  3. Clique em uma pergunta no lado esquerdo da tela para ver os detalhes associados. Use a tela de detalhes da avaliação para realizar as próximas etapas.

  4. Analise e compare a resposta de saída do modelo com a resposta de verdade do Ground .

nota

Os resultados dessas respostas aparecem nos detalhes da avaliação por uma semana. Depois de uma semana, os resultados não são mais visíveis. A instrução SQL gerada e a instrução SQL de exemplo permanecem.

  1. Clique em Ícone de edição no rótulo para editar a avaliação.

    Marque cada resultado como Bom ou Ruim para obter uma pontuação precisa para essa avaliação.