Use benchmarks em um espaço Genie

Esta página explica como usar benchmarks para avaliar a precisão do seu Genie Space.

Visão geral

Os benchmarks permitem que você crie um conjunto de perguntas de teste que podem ser executadas para avaliar a precisão geral das respostas do Genie. Um conjunto bem elaborado de parâmetros de avaliação, que abrangem as perguntas mais frequentes dos usuários, ajuda a avaliar a precisão do seu Genie Space à medida que você o aprimora. Cada Genie Space pode conter até 500 questões de referência.

Perguntas de benchmark executadas como novas conversas. Elas não têm o mesmo contexto de uma conversa do Genie com thread. Cada pergunta é processada como uma nova consulta, usando as instruções definidas no espaço, incluindo qualquer exemplo fornecido de funções SQL e SQL.

Exemplos de benchmarks com precisão relatados em nove perguntas.

Adicionar perguntas de referência

As perguntas de referência devem refletir maneiras diferentes de formular as perguntas comuns que seus usuários fazem. O senhor pode usá-las para verificar a resposta do Genie a variações na formulação das perguntas ou a diferentes formatos de perguntas.

Ao criar uma pergunta de referência, você pode, opcionalmente, incluir uma consulta SQL cujo conjunto de resultados seja a resposta correta. Durante a execução do benchmark, a precisão é avaliada comparando o conjunto de resultados da sua consulta SQL com o gerado pelo Genie. Você também pode usar funções SQL do Unity Catalog como respostas padrão ouro para benchmarks.

Para adicionar uma pergunta de referência:

Na parte superior do Genie Space, clique em Benchmarks .
Clique em Adicionar benchmark .
No campo Pergunta , insira uma pergunta de referência para testar.
(Opcional) Forneça uma consulta SQL que responda à pergunta. Você pode escrever sua própria consulta digitando no campo de texto Resposta SQL , incluindo funções SQL do Unity Catalog. Como alternativa, clique em Gerar SQL para que o Genie escreva a consulta SQL para você. Use uma instrução SQL que responda com precisão à pergunta que você inseriu.

nota

Este passo é recomendado. Somente perguntas que incluem esta instrução SQL de exemplo podem ser avaliadas automaticamente quanto à precisão. Qualquer pergunta que não inclua uma resposta SQL requer revisão manual para ser pontuada. Se você usar o botão Gerar SQL , revise a instrução para ter certeza de que ela está respondendo à pergunta com precisão.

(Opcional) Clique em executar para executar sua consulta e view os resultados.
Quando terminar de editar, clique em Adicionar referência .
Para atualizar uma pergunta depois de salvá-la, clique no ícone de lápis para abrir a caixa de diálogo Atualizar pergunta .

Use benchmarks para testar frases de perguntas alternativas

Ao avaliar a precisão do seu Genie Space, é importante estruturar os testes de forma a refletir cenários realistas. Os usuários podem fazer a mesma pergunta de maneiras diferentes. A Databricks recomenda adicionar várias formulações da mesma pergunta e usar o mesmo exemplo de SQL em seus testes de benchmark para avaliar completamente a precisão. A maioria dos espaços Genie deve incluir entre duas e quatro versões da mesma pergunta.

perguntas de benchmark de execução

Usuários com pelo menos permissões CAN EDIT em um Genie Space podem executar uma avaliação de benchmark a qualquer momento. Você pode executar todas as questões de referência ou selecionar um subconjunto de questões para testar.

Para cada pergunta, o Genie interpreta a entrada, gera SQL e retorna os resultados. O SQL gerado e os resultados são então comparados com a resposta SQL definida na pergunta de referência.

Para executar todas as perguntas de referência:

Na parte superior do Genie Space, clique em Benchmarks .
Clique em executar benchmarks para iniciar a execução do teste.

Para executar um subconjunto de questões de referência:

Na parte superior do Genie Space, clique em Benchmarks .
Marque as caixas de seleção ao lado das perguntas que você deseja testar.
Clique em execução selecionada para iniciar a execução do teste nas questões selecionadas.

Você também pode selecionar um subconjunto de perguntas de um resultado de benchmark anterior e executar novamente essas perguntas específicas para testar melhorias.

Os benchmarks continuam sendo executados quando você sai da página. Você pode verificar os resultados na tab Avaliação quando a execução estiver concluída.

Interprete as classificações

Os critérios a seguir determinam como as respostas do Genie são classificadas:

Condição	Avaliação
O Genie gera um SQL que corresponde exatamente à resposta SQL fornecida	Boa
O Genie gera um conjunto de resultados que corresponde exatamente ao conjunto de resultados produzido pela SQL Answer	Boa
O Genie gera um conjunto de resultados com os mesmos dados que o SQL Answer , mas com uma classificação diferente	Boa
O Genie gera um conjunto de resultados com valores numéricos que arredondam para os mesmos 4 dígitos significativos da resposta SQL	Boa
O Genie gera SQL que produz um conjunto de resultados vazio ou retorna um erro	Ruim
O Genie gera um conjunto de resultados que inclui colunas extras em comparação com o conjunto de resultados produzido pela SQL Answer	Ruim
O Genie gera um resultado de célula única que é diferente do resultado de célula única produzido pela SQL Answer	Ruim

É necessária uma revisão manual : As respostas são marcadas com esse rótulo quando o Genie não consegue avaliar a correção ou quando os resultados da consulta gerada pelo Genie não contêm uma correspondência exata com os resultados da resposta SQL fornecida. Todas as perguntas de benchmark que não incluírem uma resposta SQL devem ser revisadas manualmente.

Acesse avaliações de benchmark

Você pode acessar todas as suas avaliações de referência para acompanhar a precisão no seu Genie Space ao longo do tempo. Ao abrir os Benchmarks de um espaço, uma lista com registro de data e hora da execução das avaliações aparece na tab Avaliações . Se nenhuma execução de avaliação for encontrada, consulte Adicionar perguntas de referência ou perguntas de referência de execução.

Tela de avaliações conforme descrito no texto a seguir.

O site Evaluations tab mostra uma visão geral das avaliações e seu desempenho relatado nas seguintes categorias:

Nome da avaliação : Um registro de data e hora que indica quando ocorreu a execução da avaliação. Clique no carimbo de data/hora para ver os detalhes dessa avaliação. Status da execução : Indica se a avaliação foi concluída, pausada ou malsucedida. Se uma execução de avaliação incluir perguntas de benchmark que não possuem respostas SQL predefinidas, ela será marcada para revisão nesta coluna. Precisão : Uma avaliação numérica da precisão em todas as questões de referência. Para avaliações que exigem revisão manual, uma medida de precisão só aparece após a revisão das questões. Criado por : Indica o nome do usuário que executou a avaliação.

Revisar avaliações individuais

Você pode analisar as avaliações individuais para obter uma visão detalhada de cada resposta. Você pode editar a avaliação de qualquer pergunta e atualizar todos os itens que precisem de revisão manual.

Para revisar as avaliações individuais:

Na parte superior do Genie Space, clique em Benchmarks .
Clique no carimbo de data/hora de qualquer avaliação na coluna Evaluation name (Nome da avaliação) para abrir um view detalhado da execução desse teste.
Use a lista de perguntas no lado esquerdo da tela para ver uma view detalhada de cada pergunta.
Analise e compare a resposta de saída do modelo com a resposta de verdade do Ground .

Para resultados classificados como incorretos, aparece uma explicação descrevendo por que o resultado foi classificado como Ruim . Isso ajuda você a entender diferenças específicas entre a saída gerada e a verdade básica esperada.

nota

Os resultados dessas respostas aparecem nos detalhes da avaliação por uma semana. Após uma semana, os resultados já não são visíveis. A instrução SQL gerada e a instrução SQL de exemplo permanecem.

Clique em Atualizar a verdade básica para salvar a resposta como a nova verdade básica para esta pergunta. Isso é útil se não houver nenhuma verdade fundamental ou se a resposta for melhor ou mais precisa do que a declaração de verdade fundamental existente.
Clique em no rótulo para editar a avaliação.

Marque cada resultado como Bom ou Ruim para obter uma pontuação precisa para essa avaliação.

Visão geral​

Adicionar perguntas de referência​

Use benchmarks para testar frases de perguntas alternativas​

perguntas de benchmark de execução​

Interprete as classificações​

Acesse avaliações de benchmark​

Revisar avaliações individuais​