Use benchmarks em um espaço Genie
Prévia
Esse recurso está em Prévia Pública.
Este artigo explica como usar benchmarks para avaliar a precisão de seu espaço genie.
Os benchmarks permitem que o senhor crie um conjunto de perguntas de teste que pode ser executado para avaliar a precisão geral das respostas do genie. Um conjunto bem projetado de benchmarks que abrange as perguntas mais frequentes dos usuários ajuda a avaliar a precisão do seu espaço genie à medida que o senhor o aperfeiçoa.
Adicione perguntas de referência
As perguntas de referência devem refletir maneiras diferentes de formular as perguntas comuns que seus usuários fazem. O senhor pode usá-las para verificar a resposta do geniea variações na formulação das perguntas ou a diferentes formatos de perguntas.
Ao criar uma pergunta de benchmark, o senhor pode, opcionalmente, incluir uma consulta SQL cujo conjunto de resultados é a resposta correta. Durante a execução do benchmark, a precisão é avaliada comparando o conjunto de resultados de sua consulta SQL com o gerado por genie.
Para adicionar uma pergunta de benchmark, execute os seguintes passos:
Clique em na barra lateral esquerda em um espaço genie.
Clique em Questions tab. Em seguida, clique em Adicionar benchmark.
No campo Pergunta, insira uma pergunta de referência para testar.
(Opcional) Digite a instrução SQL que responde com precisão à pergunta que o senhor digitou.
Observação
Esse passo é recomendado. Somente as perguntas que incluem esse exemplo de instrução SQL podem ser avaliadas automaticamente quanto à precisão. Todas as perguntas que não incluírem uma resposta SQL exigem revisão manual para serem pontuadas.
(Opcional) Clique em Preview para executar sua consulta e view os resultados.
Quando terminar de editar, clique em Adicionar referência.
Para atualizar uma pergunta depois de salvá-la, clique no ícone de lápis para abrir a caixa de diálogo Atualizar pergunta.
Use benchmarks para testar frases de perguntas alternativas
Ao avaliar a precisão do seu espaço genie, é importante estruturar testes que reflitam cenários realistas. Os usuários podem fazer a mesma pergunta de maneiras diferentes. A Databricks recomenda adicionar várias frases da mesma pergunta e usar o mesmo exemplo de SQL em seus testes de benchmark para avaliar totalmente a precisão. A maioria dos espaços do site genie deve incluir de 2 a 4 frases da mesma pergunta.
perguntas de benchmark de execução
Os usuários com pelo menos CAN EDIT permissões em um espaço genie podem criar uma execução de benchmark a qualquer momento, que será avaliada automaticamente em todas as perguntas de benchmark. Para avaliar cada pergunta de referência, primeiro enviaremos a pergunta para genie e, em seguida, compararemos os resultados de genie com a referência. Um dos seguintes rótulos é aplicado a cada benchmark:
Bom: As respostas são marcadas com esse rótulo quando o resultado da consulta gerada pelo site geniecorresponde aos resultados da resposta fornecida pelo siteSQL . Quando uma resposta é marcada como Boa, significa que os valores das linhas coincidem exatamente, independentemente da ordem de classificação ou dos nomes das colunas.
Precisa de revisão: As respostas são marcadas com este rótulo quando genie não é possível avaliar a correção ou quando genie- os resultados da consulta gerada não correspondem aos resultados da respostaSQL fornecida. Se houver alterações inesperadas nas dimensões de uma tabela na resposta gerada ou na resposta SQL fornecida, a pergunta poderá ser marcada para revisão. Todas as perguntas de benchmark que não incluírem uma resposta SQL devem ser revisadas manualmente.
Ruim: As respostas nunca são automaticamente rotuladas como ruins. Se os resultados da consulta gerada pelo site genienão corresponderem ao conjunto de resultados da resposta fornecida pelo siteSQL , a pergunta será marcada como Needs review (Precisa de revisão). Ao analisar esses benchmarks, o senhor pode marcar um resultado como Ruim se achar que os resultados da consulta gerada pelo genienão respondem à pergunta.
Para executar todas as perguntas de referência:
Clique em Benchmarks na barra lateral do espaço genie, próximo ao lado esquerdo da tela.
Clique em executar benchmarks para começar a execução do teste.
Observação
Se o senhor fechar esta página, a execução do benchmark será automaticamente interrompida. Você pode retomar o teste ao reabrir a página.
Acesse avaliações de benchmark
O senhor pode acessar todas as suas avaliações de benchmark para acompanhar a precisão no seu espaço genie ao longo do tempo. Quando o senhor clica no endereço na barra lateral esquerda em um espaço genie, uma lista com registro de data e hora da execução da avaliação é exibida em Evaluations tab. Se nenhuma execução de avaliação for encontrada, consulte Adicionar perguntas de referência ou executar perguntas de referência.
O site Evaluations tab mostra uma visão geral das avaliações e seu desempenho relatado nas seguintes categorias:
Nome da avaliação: Um carimbo de data/hora que indica quando ocorreu uma execução de avaliação. Clique no carimbo de data/hora para ver os detalhes dessa avaliação. Status da execução: Indica se a avaliação foi concluída, pausada ou não foi bem-sucedida. Se uma execução de avaliação incluir perguntas de benchmark que não tenham respostas SQL predefinidas, ela será marcada para revisão nessa coluna. Precisão: uma avaliação numérica da precisão em todas as perguntas de referência. Para a execução da avaliação que exige revisão manual, uma medida de precisão aparece somente depois que essas perguntas forem revisadas. Criado por: Indica o nome do usuário que executou a avaliação.
Revise as avaliações individuais
Você pode analisar as avaliações individuais para obter uma visão detalhada de cada resposta. Você pode editar a avaliação de qualquer pergunta e atualizar todos os itens que precisem de revisão manual.
Para revisar as avaliações individuais:
Clique em Benchmarks na barra lateral do espaço genie, próximo ao lado esquerdo da tela.
Clique no carimbo de data/hora de qualquer avaliação na coluna Evaluation name (Nome da avaliação) para abrir um view detalhado da execução desse teste.
Clique em uma pergunta no lado esquerdo da tela para ver os detalhes associados. Use a tela de detalhes da avaliação para realizar os próximos passos.
Analise e compare a resposta de saída do modelo com a resposta de verdade do Ground.
Observação
Os resultados dessas respostas aparecem nos detalhes da avaliação por uma semana. Depois de uma semana, os resultados não são mais visíveis. A instrução SQL gerada e a instrução SQL de exemplo permanecem.
Clique em no rótulo para editar a avaliação.
Marque cada resultado como Bom ou Ruim para obter uma pontuação precisa para essa avaliação.