Teste e monitore um Genie Agent

Teste um Genie Agent com perguntas do mundo real, revise o SQL e as visualizações gerados, edite as respostas quando o Genie errar algo e monitore o uso do agente e o feedback dos usuários para manter o agente preciso à medida que os dados e as perguntas evoluem. Use benchmarks para avaliar a precisão das respostas em escala.

nota

Genie Agents eram anteriormente conhecidos como Genie Spaces.

Teste seu Genie Agent

A maioria das interações do usuário ocorre na janela de chat. A melhor maneira de saber se o seu agente está funcionando como o desejado é testá-lo com perguntas realistas que os seus usuários de negócios provavelmente farão.

A janela de chat do Genie mostrando exemplos de perguntas e um campo de texto para inserir sua própria pergunta.

As perguntas de exemplo configuradas nas definições do agente aparecem na janela de chat. O Genie também pode gerar exemplos de perguntas com base no contexto do agente para ajudar os usuários a começar a explorar os dados. Os usuários podem clicar em um exemplo de pergunta ou inserir suas próprias perguntas no campo de texto na parte inferior da tela.

As respostas aparecem acima do campo de texto. Depois que um usuário insere uma pergunta, ela é salva no histórico de bate-papo.

Para iniciar uma nova conversa:

Clique em Novo chat para começar um novo chat. Clique em para abrir uma conversa anterior.
Digite sua pergunta no campo de entrada de texto Pergunte... .

Rever respostas

As respostas são tipicamente entregues como respostas em linguagem natural às perguntas e uma tabela mostrando o conjunto de resultados relevante. Quando o Genie detecta que uma visualização poderia melhorar a clareza da resposta, ele também retorna uma visualização. A estrutura exata da resposta varia de acordo com a pergunta. Se uma query SQL foi gerada para responder à pergunta, ela é incluída na resposta.

Uma resposta de exemplo com visualização, feedback e outras opções é mostrada.

nota

Como outros grandes modelos de linguagem (LLMs), o Genie pode exibir comportamentos não determinísticos. Isso significa que você pode ocasionalmente receber diferentes saídas ao enviar o mesmo prompt várias vezes. Fornecer exemplos de queries SQL que o Genie pode aprender pode ajudar a tornar o Genie mais consistente. Consulte Adicionar exemplos de queries e funções SQL.

Feedback de resposta

Cada resposta solicita que o usuário responda Isto está correto? . Os usuários podem responder de uma das seguintes formas:

Sim: confirma que a resposta parece precisa.
Corrigir: Sinaliza a resposta como incorreta. Os usuários podem selecionar entre problemas comuns ou inserir sua própria explicação. Eles podem então:
- Clique em Enviar e tentar novamente para regenerar a resposta usando o feedback fornecido.
- Clique em **Enviar** para enviar o feedback sem regenerar a resposta.
**Solicitar revisão:** Sinaliza a resposta para revisão manual. Os usuários podem adicionar um comentário opcional para fornecer contexto adicional.

Como editor, o senhor pode ver feedback e respostas sinalizadas na interface do Genie. O comportamento do seu Genie Agent não muda apenas com base no feedback do usuário. O senhor deve usar o feedback para identificar oportunidades de melhoria ou responder diretamente às perguntas dos usuários. A Databricks recomenda incentivar os usuários a fornecer feedback sobre o agente usando este mecanismo.

Os usuários de negócios podem visualizar atualizações nas perguntas que marcaram para revisão em sua página de **Monitoramento**. Usuários com, pelo menos, permissão CAN MANAGE no Genie Agent podem revisar o intercâmbio específico, comentar sobre a solicitação e confirmar ou corrigir a resposta. Eles podem acessar feedback e solicitações de revisão na página de monitoramento. Então, você pode usar esse feedback para ajustar as respostas e iterar em seu agente. Consulte Monitore o agente.

Outras ações de resposta

Para respostas que incluem SQL gerado, opções adicionais permitem interagir com os dados retornados.

Copiar CSV: Os usuários do agente podem fazer download de até aproximadamente 1 GB de dados de resultados como CSV. O tamanho final do download do arquivo pode ser um pouco maior ou menor que 1 GB, já que o limite de 1 GB é aplicado a um passo anterior ao download final do arquivo. Para fazer download dos resultados, clique no ícone de download na resposta.
**Mostrar código:** Clique em **Mostrar código** para ver a query gerada. Isso pode ser útil para solucionar problemas de respostas não confiáveis. Consulte Editar e salvar queries.
**O menu kebab:** Acesse as seguintes ações:
- Copiar CSV : Copie o CSV da resposta para a área de transferência.
- **Adicionar como instrução:** Para interações que possam ser úteis para ensinar o Genie a responder perguntas semelhantes, clique em **Adicionar como instrução**. Isso abre a IU para salvar queries SQL de exemplo, preenchida com a pergunta e o SQL gerado. Você pode deixar o exemplo como está, ou editar e salvar para fazer alterações. Consulte Adicionar queries e funções SQL de exemplo.
- Adicionar como benchmark : Adicione a pergunta como uma pergunta de benchmark. Consulte Benchmarks.
- refresh data : refresh os dados executando a query gerada anteriormente.
- Regenerar resposta : Envie a pergunta novamente e peça ao Genie para regenerar a resposta.

Editar e salvar queries

As queries SQL do Genie podem ser revisadas quanto à precisão e editadas conforme necessário. Os autores do Genie Agent normalmente conhecem o domínio e os dados que lhes permitem reconhecer quando o Genie está gerando uma resposta incorreta. Frequentemente, os erros podem ser corrigidos com uma pequena quantidade de ajuste manual na query SQL gerada. Clique em Show generated code (Mostrar código gerado) para inspecionar a query e visualizar o SQL gerado para qualquer resposta.

Você pode editar a instrução SQL gerada para corrigi-la se tiver privilégios CAN EDIT ou superiores no Genie Agent. Depois de fazer suas correções, execute a query. Então, você pode salvá-la como uma instrução para ensinar o Genie a responder no futuro. Para salvar sua query editada, clique em Adicionar como instrução .

Depure as respostas com o Genie Code

Quando o Genie retornar uma resposta incorreta, use o Genie Code para diagnosticar o problema e melhorar o contexto do agente:

Abra o Genie Code da resposta.
Descreva o problema e o comportamento que você deseja.
Revise as alterações de contexto que o Genie Code propõe e aceite as que você deseja manter.

prompt

Diga ao Genie Code para fazer isto por si:

The Genie Agent is using calendar quarters instead of our fiscal calendar. Update its context to use our fiscal quarters: Q1 is February through April, Q2 is May through July, Q3 is August through October, and Q4 is November through January.

Também é possível usar o Genie Code para salvar o contexto semântico de uma conversa. Depois que os usuários introduzirem novos termos ou corrigirem o comportamento do Genie, peça ao Genie Code para capturar o que ele aprendeu. Analise cada sugestão e aceite o contexto que deseja adicionar ao agente.

Monitore o agente

Um Genie Agent pode ser considerado como uma ferramenta de colaboração de longo prazo entre equipes de dados e usuários de negócios. Ele acumula conhecimento ao longo do tempo em vez de servir como uma implantação única. À medida que os usuários fazem novas perguntas, é possível refinar o agente para melhorar a cobertura e a precisão.

Use a tab Monitoramento para revisar perguntas e respostas individuais, visualizar o feedback do usuário e identificar respostas sinalizadas para revisão.

A tab Monitor exibindo uma lista de perguntas e respostas com filtros para tempo, classificação, usuário e status.

A tab de monitoramento mostra todas as perguntas e respostas que foram feitas no agente. Você pode filtrar as perguntas por tempo, classificação, usuário ou status. Ao fazer o monitoramento do agente, usuários com permissões CAN MANAGE podem entender proativamente as queries levantadas por usuários de negócios e como o Genie Agent respondeu.

Identificar as perguntas com as quais o Genie tem dificuldade pode ajudar a atualizar o Genie Agent com instruções específicas para melhorar suas respostas. Clique em uma pergunta para abrir a pergunta e o texto da resposta e visualizar o histórico de bate-papo completo.

Revise o uso e as tendências

Use a seção Weekly digest da aba tab para revisar o volume semanal de mensagens, usuários ativos e feedback positivo/negativo. Para identificar as principais tendências de uso e problemas comuns, clique em Analisar Uso do Espaço . Isso inicia o Genie Code, que revisa as mensagens do usuário, o feedback e os problemas dos últimos sete dias e relata tópicos comuns, problemas recorrentes e melhorias de contexto sugeridas. As respostas incluem citações que link de volta para as conversas relevantes no seu agente. Clique em uma citação para abrir a conversa diretamente no tópico do Genie Code.

A seção Weekly digest da tab Monitoramento mostrando mensagens semanais, usuários e feedback.

Analisar conversas para qualidade

info

Beta

Esse recurso está em Beta. Para usá-lo, um administrador do workspace deve ativar o Compartilhamento de Chat Genie na página Pré-visualizações . Consulte Gerenciar pré-visualizações do Databricks.

O Compartilhamento de Chat do Genie permite que os gerentes de agentes revisem as conversas completas que os usuários de negócios têm com um Genie Agent. Quando uma conversa é definida como Revisável por gerentes de espaço , usuários com a permissão CAN MANAGE podem abrir a conversa na tab de monitoramento para revisar a troca completa. Isso permite avaliar a qualidade da resposta do Genie, responder ao feedback do usuário e identificar áreas onde instruções adicionais ou queries de exemplo melhorariam a precisão. Para conversas definidas como Privadas , os gerentes de agentes podem ver os prompts do usuário na tab de monitoramento, mas não podem visualizar a conversa completa ou os resultados. Para obter mais informações, consulte Compartilhar uma conversa.

nota

As conversas criadas antes da ativação do Beta permanecem **Privadas**. As conversas criadas após a ativação são **default** como **Revisável por gerentes de espaço**.

Excluir uma conversa

Usuários com permissão CAN MANAGE em um Genie Agent podem excluir permanentemente qualquer conversa do agente na página de monitoramento. Isso remove a conversa e suas mensagens para todos os usuários.

Abra o Genie Agent e clique na tab **Monitor**.
Clique em uma conversa para abrir a gaveta de conversas.
Clique em **Excluir conversa**.
Na caixa de diálogo de confirmação, clique em Excluir para excluir permanentemente a conversa ou em Cancelar para fechar a caixa de diálogo sem excluir.

Benchmarks

Benchmarks permitem criar um conjunto de perguntas de teste que podem ser executadas para avaliar a precisão geral das respostas do Genie. Um conjunto de benchmarks bem elaborado, que abrange as perguntas de usuário mais frequentes, ajuda a avaliar a precisão do seu Genie Agent à medida que o refina. Cada Genie Agent pode conter até 500 perguntas de benchmark.

As perguntas de benchmark são executadas como novas conversas. Eles não carregam o mesmo contexto que uma conversa Genie encadeada. Cada pergunta é processada como uma nova query, usando as instruções definidas no agente, incluindo quaisquer exemplos de SQL e funções SQL fornecidos.

As perguntas de benchmark suportam dois modos:

Modo de chat : O modo default. O Genie avalia a precisão comparando seus resultados gerados por SQL com uma resposta SQL fornecida.
Modo Agente : Executa perguntas de benchmark usando o mesmo raciocínio de múltiplas etapas do modo Agente do Genie. Um LLM judge avalia as respostas. É possível fornecer uma nota de avaliação opcional para a guia da classificação.

Benchmarks de exemplo com precisão relatada em nove perguntas.

Adicionar perguntas de benchmark

As perguntas de benchmark devem refletir diferentes formas de expressar as perguntas comuns que seus usuários fazem. Você pode usá-los para verificar a resposta do Genie a variações na formulação da pergunta ou a diferentes formatos de pergunta.

Ao criar uma pergunta de benchmark, você pode, opcionalmente, incluir uma query SQL cujo conjunto de resultados é a resposta correta. Durante as execuções de benchmark, a precisão é avaliada comparando o conjunto de resultados de sua query SQL com o gerado pelo Genie. Você também pode usar funções SQL do Unity Catalog como respostas de padrão ouro para benchmarks.

Para adicionar uma pergunta de benchmark:

Perto da parte superior do Genie Agent, clique em Benchmarks .
Clique em **Adicionar benchmark**.
No campo Pergunta , insira uma pergunta de benchmark para testar.
Selecione um modo: Chat ou Agente .
- Modo de Chat : O Genie avalia a precisão comparando seus resultados com uma resposta SQL fornecida por você.
- Modo Agente : O Genie usa raciocínio em múltiplas etapas para responder à pergunta. Um juiz de LLM avalia as respostas.
(Somente modo de chat) Forneça uma query SQL que responda à pergunta. É possível escrever sua própria query digitando na caixa SQL Answer , incluindo funções SQL do Unity Catalog. Alternativamente, clique em Gerar SQL para que o Genie escreva a query SQL para você. Use uma instrução SQL que responda com precisão à pergunta que você inseriu.

nota

Este passo é recomendado. Apenas as perguntas que incluem esta instrução SQL de exemplo podem ser avaliadas automaticamente quanto à precisão. Quaisquer perguntas que não incluam uma SQL Answer exigem revisão manual para serem pontuadas. Se utilizar o botão **Gerar SQL**, revise a instrução para ter certeza de que está respondendo à pergunta com precisão.

(Somente no modo Agente, opcional) No campo **Nota de avaliação**, insira as diretrizes sobre a resposta correta ou o conteúdo esperado. O Genie passa a nota de avaliação para o juiz de LLM. A nota pode fazer referência ao conteúdo esperado em relatórios de texto que o modo Agente gera.
(Somente modo de chat, opcional) Clique em Executar para executar sua query e visualizar os resultados.
Quando terminar de editar, clique em Adicionar benchmark .
Para atualizar uma pergunta após salvar, clique no ícone de lápis para abrir a caixa de diálogo Atualizar pergunta .

Use benchmarks para testar frases de perguntas alternativas

Ao avaliar a precisão do Genie Agent, é importante estruturar os testes para refletir cenários realistas. Os usuários podem fazer a mesma pergunta de maneiras diferentes. A Databricks recomenda adicionar múltiplas formulações da mesma pergunta e usar o mesmo exemplo de SQL nos testes de benchmark para avaliar completamente a precisão. A maioria dos Genie Agents deve incluir entre duas e quatro formulações da mesma pergunta.

Executar perguntas de benchmark

Usuários com pelo menos permissões CAN EDIT em um Genie Agent podem executar uma avaliação de benchmark a qualquer momento. É possível executar todas as perguntas de benchmark ou selecionar um subconjunto de perguntas para testar.

Para cada pergunta, o Genie interpreta a entrada, gera SQL e retorna resultados. A SQL gerada e os resultados são então comparados com a resposta SQL definida na pergunta do benchmark.

Para executar todas as perguntas de benchmark:

Perto da parte superior do Genie Agent, clique em Benchmarks .
Clique em Executar benchmarks para iniciar a execução de teste.

Para executar um subconjunto de perguntas de benchmark:

Perto da parte superior do Genie Agent, clique em Benchmarks .
Selecione as caixas de seleção ao lado das perguntas que você deseja testar.
Clique em Executar selecionado para começar a execução do teste nas perguntas selecionadas.

Também é possível selecionar um subconjunto de perguntas de um resultado de benchmark anterior e executar novamente essas perguntas específicas para testar melhorias.

Os benchmarks continuam a ser executados ao navegar para fora da página. É possível verificar os resultados na tab **Avaliação** quando a execução for concluída.

Após a conclusão de uma execução, o usuário pode usar o Genie Code para revisar os resultados de toda a execução e sugerir melhorias de contexto. Consulte Analisar uma execução de benchmark com Genie Code.

Classificações do modo de bate-papo

Os seguintes critérios determinam como o Genie avalia as respostas do modo Chat:

Condição	Avaliação
O Genie gera SQL que corresponde exatamente à Resposta SQL fornecida.	Bom
O Genie gera um conjunto de resultados que corresponde exatamente ao conjunto de resultados produzido pela Resposta SQL	Bom
O Genie gera um conjunto de resultados com os mesmos dados que a Resposta SQL, mas ordenado de forma diferente.	Bom
O Genie gera um conjunto de resultados com valores numéricos que arredondam para os mesmos 4 dígitos significativos que a Resposta SQL	Bom
O Genie gera SQL que produz um conjunto de resultados vazio ou retorna um erro.	Ruim
O Genie gera um conjunto de resultados que inclui colunas extras em comparação com o conjunto de resultados produzido pelo SQL Answer	Ruim
Genie gera um resultado de célula única que é diferente do resultado de célula única produzido pelo SQL Answer	Ruim

Condição	Avaliação
O Genie gera SQL que corresponde exatamente à Resposta SQL fornecida.	Bom
O Genie gera um conjunto de resultados que corresponde exatamente ao conjunto de resultados produzido pela Resposta SQL	Bom
O Genie gera um conjunto de resultados com os mesmos dados que a Resposta SQL, mas ordenado de forma diferente.	Bom
O Genie gera um conjunto de resultados com valores numéricos que arredondam para os mesmos 4 dígitos significativos que a Resposta SQL	Bom
O Genie gera SQL que produz um conjunto de resultados vazio ou retorna um erro.	Ruim
O Genie gera um conjunto de resultados que inclui colunas extras em comparação com o conjunto de resultados produzido pelo SQL Answer	Ruim
Genie gera um resultado de célula única que é diferente do resultado de célula única produzido pelo SQL Answer	Ruim

Revisão manual necessária : As respostas são marcadas com este rótulo quando o Genie não consegue avaliar a correção ou quando os resultados da query gerados pelo Genie não contêm uma correspondência exata com os resultados da Resposta SQL fornecida. Quaisquer perguntas de benchmark que não incluam uma Resposta SQL devem ser revisadas manualmente.

Classificações do Modo Agente

Um juiz LLM classifica as respostas do modo Agente em vez de usar a comparação SQL. Se for fornecida uma nota de avaliação , o juiz LLM a utiliza como orientação ao avaliar a resposta, incluindo qualquer conteúdo esperado no relatório de texto que o modo Agente gera. O juiz classifica as respostas que satisfazem os critérios da nota de avaliação como Bom .

Acessar avaliações de benchmark

O senhor pode acessar todas as suas avaliações de benchmark para monitorar a precisão em seu Genie Agent ao longo do tempo. Ao abrir os **Benchmarks** de um agente, uma lista de execuções de avaliação com Timestamp aparece na tab **Avaliações**. Se nenhuma execução de avaliação for encontrada, consulte Adicionar perguntas de benchmark ou Executar perguntas de benchmark.

Tela de avaliações, conforme descrito no texto a seguir.

A tab Avaliações mostra uma visão geral das avaliações e seu desempenho, relatados nas seguintes categorias:

Nome da avaliação : Um Timestamp que indica quando uma execução de avaliação ocorreu. Clique no timestamp para ver os detalhes dessa avaliação. Status da execução : Indica se a avaliação foi concluída, pausada ou sem sucesso. Se uma execução de avaliação inclui perguntas de benchmark que não possuem respostas SQL predefinidas, ela é marcada para revisão nesta coluna. Precisão : Uma avaliação numérica da precisão em todas as perguntas de benchmark. Para execuções de avaliação que exigem revisão manual, uma medida de precisão aparece somente após essas perguntas terem sido revisadas. Criado por : Indica o nome do usuário que executou a avaliação.

Revise avaliações individuais

O senhor pode revisar avaliações individuais para ter uma visão detalhada de cada resposta. O senhor pode editar a avaliação para qualquer pergunta e atualizar quaisquer itens que precisem de revisão manual.

Para rever avaliações individuais:

Perto da parte superior do Genie Agent, clique em Benchmark .
Clique no timestamp para qualquer avaliação na coluna **Nome da avaliação** para abrir uma visualização detalhada daquela execução de teste.
Use a lista de perguntas no lado esquerdo da tela para ver uma view detalhada de cada pergunta.
Revise e compare a resposta de Saída do modelo com a resposta de Verdade fundamental .

Para resultados classificados como incorretos, aparece uma explicação descrevendo por que o resultado foi classificado como Ruim . Isso ajuda você a entender as diferenças específicas entre o resultado gerado e a verdade fundamental esperada.

nota

Os resultados dessas respostas aparecem nos detalhes da avaliação por uma semana. Após uma semana, os resultados não são mais visíveis. A instrução SQL gerada e a instrução SQL de exemplo permanecem.

Clique em **Atualizar a verdade fundamental** para salvar a resposta como a nova **Verdade fundamental** para esta pergunta. Isso é útil se nenhuma verdade fundamental existir, ou se a resposta for melhor ou mais precisa do que a declaração de verdade fundamental existente.
Clique em no rótulo para editar a avaliação.

Marque cada resultado como Bom ou Ruim para obter uma pontuação precisa para esta avaliação.

Analise uma execução de benchmark com o Genie Code

Após a conclusão de uma execução de benchmark, use o Genie Code para revisar os resultados de toda a execução, em vez de inspecionar cada pergunta individualmente. Inicie o Genie Code a partir da avaliação e peça para analisar a execução. O Genie Code revisa os resultados esperados, o que seu agente gerou e o contexto atual do agente para encontrar lacunas e, em seguida, sugere melhorias de instrução e contexto para você revisar e salvar.

Teste seu Genie Agent​

Rever respostas​

Feedback de resposta​

Outras ações de resposta​

Editar e salvar queries​

Depure as respostas com o Genie Code​

Monitore o agente​

Revise o uso e as tendências​

Analisar conversas para qualidade​

Excluir uma conversa​

Benchmarks​

Adicionar perguntas de benchmark​

Use benchmarks para testar frases de perguntas alternativas​

Executar perguntas de benchmark​

Classificações do modo de bate-papo​

Classificações do Modo Agente​

Acessar avaliações de benchmark​

Revise avaliações individuais​

Analise uma execução de benchmark com o Genie Code​

Teste seu Genie Agent

Rever respostas

Feedback de resposta

Outras ações de resposta

Editar e salvar queries

Depure as respostas com o Genie Code

Monitore o agente

Revise o uso e as tendências

Analisar conversas para qualidade

Excluir uma conversa

Benchmarks

Adicionar perguntas de benchmark

Use benchmarks para testar frases de perguntas alternativas

Executar perguntas de benchmark

Classificações do modo de bate-papo

Classificações do Modo Agente

Acessar avaliações de benchmark

Revise avaliações individuais

Analise uma execução de benchmark com o Genie Code