Teste e monitore um Genie Space.
Esta página explica como testar um Espaço Genie, revisar e editar respostas e monitorar o uso do espaço.
Teste seu Genie Space
A maior parte das interações dos usuários ocorre na janela de bate-papo. A melhor maneira de saber se o seu espaço está funcionando como você deseja é testá-lo com perguntas realistas que você espera que seus usuários de negócios façam.

As perguntas de exemplo configuradas nas definições do espaço aparecem na janela de chat. O Genie também pode gerar perguntas de exemplo com base no contexto do espaço para ajudar os usuários a começar a explorar os dados. Os usuários podem clicar em uma pergunta de exemplo ou inserir suas próprias perguntas no campo de texto na parte inferior da tela.
As respostas aparecem acima do campo de texto. Após um usuário inserir uma pergunta, ela é salva no histórico do chat.
Para começar uma nova conversa:
- Clique em Novo chat para iniciar um novo chat. Clique
Para retomar uma conversa anterior.
- Digite sua pergunta no campo de texto "Faça sua pergunta…" .
Respostas de revisão
As respostas são geralmente fornecidas em linguagem natural, respondendo às perguntas e acompanhadas de uma tabela com os resultados relevantes. Quando o Genie detecta que uma visualização pode melhorar a clareza da resposta, ele também retorna uma visualização. A estrutura exata da resposta varia de acordo com a pergunta. Se uma consulta SQL foi gerada para responder à pergunta, ela será incluída na resposta.

Assim como outros grandes modelos de linguagem (LLMs), o Genie pode apresentar comportamentos não determinísticos. Isso significa que, ocasionalmente, você poderá receber resultados diferentes ao enviar a mesma solicitação várias vezes. Fornecer exemplos de consultas SQL que Genie possa usar para aprender pode ajudar a torná Genie mais consistente. Consulte Adicionar exemplos de consultas e funções SQL.
Feedback da resposta
Cada resposta solicita ao usuário que responda : "Isso está correto?" . Os usuários podem responder de uma das seguintes maneiras:
-
Sim: Confirma que a resposta parece correta.
-
Corrigir: Sinaliza a resposta como incorreta. Os usuários podem selecionar entre os problemas comuns ou inserir sua própria explicação. Eles podem então:
- Clique em Enviar e tente novamente para gerar a resposta usando o feedback fornecido.
- Clique em Enviar para enviar o feedback sem gerar uma nova resposta.
-
Solicitar revisão: Sinaliza a resposta para revisão manual. Os usuários podem adicionar um comentário opcional para fornecer contexto adicional.
Como editor, você pode view o feedback e as respostas sinalizadas na interface Genie . O comportamento do seu Genie Space não muda com base apenas no feedback do usuário. Você deve usar o feedback para identificar oportunidades de melhoria ou responder diretamente às perguntas dos usuários. A Databricks recomenda incentivar os usuários a fornecerem feedback sobre o espaço usando esse mecanismo.
Os usuários corporativos podem view as atualizações das perguntas que marcaram para revisão na página Monitor . Usuários com pelo menos a permissão CAN MANAGE no Genie Space podem revisar a troca específica, comentar na solicitação e confirmar ou corrigir a resposta. Eles podem acessar solicitações de feedback e revisão na página de monitoramento. Em seguida, você pode usar esse feedback para ajustar as respostas e iterar no seu espaço. Veja Monitorar o espaço.
Outras ações de resposta
Para respostas que incluem SQL gerado, opções adicionais permitem interagir com os dados retornados.
-
Copiar CSV: Os usuários do Space podem download até aproximadamente 1 GB de dados de resultados em formato CSV. O tamanho final do arquivo download pode ser ligeiramente maior ou menor que 1 GB, pois o limite de 1 GB é aplicado a um passo anterior ao download final do arquivo. Para download os resultados, clique no ícone download na resposta.
-
Exibir código: Clique em Exibir código para view a consulta gerada. Isso pode ser útil para solucionar problemas com respostas não confiáveis. Consulte Editar e salvar consultas.
-
O
Menu de kebabs: Acesse as seguintes ações:
- Copiar CSV : Copie o arquivo CSV de resposta para a sua área de transferência.
- Adicionar como instrução: Para interações que podem ser úteis para ensinar o Genie a responder perguntas semelhantes, clique em Adicionar como instrução . Isso abre a interface do usuário para salvar exemplos de consultas SQL, preenchidas com a pergunta e o SQL gerado. Você pode deixar o exemplo como está escrito ou editar e salvar para fazer alterações. Consulte Adicionar exemplos de consultas e funções SQL.
- Adicionar como referência : Adicione a questão como uma questão de referência. Consulte os indicadores de desempenho.
- Atualizar dados : atualize os dados executando a consulta gerada anteriormente.
- Gerar nova resposta : Envie a pergunta novamente e peça ao Genie para gerar uma nova resposta.
Editar e salvar consultas
As consultas SQL do Genie podem ser revisadas para verificar a precisão e editadas conforme necessário. Os autores do Genie Space geralmente conhecem o domínio e os dados que lhes permitem reconhecer quando o Genie está gerando uma resposta incorreta. Muitas vezes, os erros podem ser corrigidos com um pequeno ajuste manual na consulta SQL gerada. Clique em "Mostrar código gerado" para inspecionar a consulta e view o SQL gerado para qualquer resposta.
Você pode editar a instrução SQL gerada para corrigi-la se tiver privilégios CAN EDIT ou superiores no Espaço Genie . Após efetuar as correções, execute a consulta. Em seguida, você pode salvá-la como uma instrução para ensinar o Genie a responder no futuro. Para salvar a consulta editada, clique em Adicionar como instrução .
Monitore o espaço
O Genie Space pode ser considerado uma ferramenta de colaboração de longo prazo entre equipes de dados e usuários de negócios. Acumula conhecimento ao longo do tempo, em vez de servir como uma implementação única. À medida que os usuários fazem novas perguntas, você pode refinar o espaço para melhorar a abrangência e a precisão.
Use a tab Monitor para revisar perguntas e respostas individuais, view o feedback do usuário e identificar respostas sinalizadas para revisão.

A tab "Monitor" mostra todas as perguntas e respostas que foram feitas no espaço. Você pode filtrar as perguntas por horário, classificação, usuário ou status. Ao monitorar o espaço, os usuários com permissões CAN MANAGE podem entender proativamente as dúvidas levantadas pelos usuários de negócios e como o Genie Space respondeu.
Identificar as perguntas com as quais o Genie tem dificuldades pode ajudar você a atualizar o Espaço Genie com instruções específicas para melhorar suas respostas. Clique em uma pergunta para abrir o texto da pergunta e da resposta e view a conversa completa.
Analisar a utilização e as tendências.
Use a seção "Resumo semanal" da tab "Monitorar" para analisar o volume de mensagens da semana, os usuários ativos e os comentários positivos/negativos. Para identificar as principais tendências de uso e os problemas comuns, clique em Analisar uso do espaço . Isso inicia o Genie Code, que analisa os dados de monitoramento do seu espaço e resume os padrões de uso e as áreas que precisam de melhorias.

Analise as conversas para garantir a qualidade.
Beta
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.
Quando uma conversa é definida como "Revisável pelos administradores do espaço" , os usuários com a permissão CAN MANAGE podem abrir a conversa na tab de monitoramento para revisar toda a troca de mensagens. Isso permite avaliar a qualidade da resposta do Genie, responder ao feedback do usuário e identificar áreas onde instruções adicionais ou exemplos de consultas melhorariam a precisão. Em conversas definidas como Privadas , os administradores do espaço podem ver as mensagens do usuário na tab de monitoramento, mas não podem view a conversa completa ou os resultados. Para mais informações, consulte Compartilhar uma conversa.
As conversas criadas antes da ativação da versão Beta permanecem privadas . As conversas criadas após a ativação dessa função serão definidas default como "Revisáveis pelos administradores do espaço" .
Indicadores de desempenho
Os benchmarks permitem que você crie um conjunto de perguntas de teste que podem ser executadas para avaliar a precisão geral das respostas do Genie. Um conjunto bem elaborado de parâmetros de avaliação, que abrangem as perguntas mais frequentes dos usuários, ajuda a avaliar a precisão do seu Genie Space à medida que você o aprimora. Cada Genie Space pode conter até 500 questões de referência.
Benchmark questiona a execução como novas conversas. Elas não carregam o mesmo contexto que uma conversa Genie em tópicos. Cada pergunta é processada como uma nova consulta, utilizando as instruções definidas no espaço indicado, incluindo quaisquer exemplos de SQL e funções SQL fornecidos.

Adicionar perguntas de referência
As perguntas de referência devem refletir diferentes maneiras de formular as perguntas comuns que seus usuários fazem. Você pode usá-los para verificar a resposta do Genie a variações na formulação da pergunta ou a diferentes formatos de pergunta.
Ao criar uma questão de referência, você pode opcionalmente incluir uma consulta SQL cujo conjunto de resultados seja a resposta correta. Durante a execução do teste de desempenho, a precisão é avaliada comparando o conjunto de resultados da sua consulta SQL com o gerado pelo Genie. Você também pode usar as funções SQL Unity Catalog como respostas padrão para benchmarks.
Para adicionar uma questão de referência:
-
Na parte superior do Genie Space, clique em Benchmarks .
-
Clique em Adicionar benchmark .
-
No campo "Pergunta" , insira uma pergunta de referência para teste.
-
(Opcional) Forneça uma consulta SQL que responda à pergunta. Você pode escrever sua própria consulta digitando no campo de texto "RespostaSQL , incluindo funções SQL Unity Catalog . Como alternativa, clique em Gerar SQL para que o Genie escreva a consulta SQL para você. Utilize uma instrução SQL que responda com precisão à pergunta que você inseriu.
Este passo é recomendado. Somente as perguntas que incluem esta instrução SQL de exemplo podem ser avaliadas automaticamente quanto à precisão. Qualquer questão que não inclua uma resposta em SQL requer revisão manual para ser pontuada. Se você usar o botão Gerar SQL , revise a instrução para garantir que ela esteja respondendo à pergunta corretamente.
-
(Opcional) Clique em execução para executar sua consulta e view os resultados.
-
Quando terminar de editar, clique em Adicionar benchmark .
-
Para atualizar uma pergunta após salvá-la, clique em
Ícone de lápis para abrir a caixa de diálogo Atualizar pergunta .
Utilize parâmetros de referência para testar formulações alternativas de perguntas.
Ao avaliar a precisão do seu Genie Space, é importante estruturar os testes de forma a refletir cenários realistas. Os usuários podem fazer a mesma pergunta de maneiras diferentes. A Databricks recomenda adicionar várias formulações da mesma pergunta e usar o mesmo exemplo de SQL em seus testes de benchmark para avaliar completamente a precisão. A maioria dos espaços Genie deve incluir entre duas e quatro versões da mesma pergunta.
perguntas de referência de execução
Usuários com pelo menos permissões CAN EDIT em um Genie Space podem executar uma avaliação de benchmark a qualquer momento. Você pode executar todas as questões de referência ou selecionar um subconjunto de questões para testar.
Para cada pergunta, o Genie interpreta a entrada, gera SQL e retorna os resultados. O SQL gerado e os resultados são então comparados com a resposta SQL definida na questão de referência.
Para executar todas as questões de benchmark:
- Na parte superior do Genie Space, clique em Benchmarks .
- Clique em benchmarks de execução para iniciar a execução do teste.
Para executar um subconjunto de questões de referência:
- Na parte superior do Genie Space, clique em Benchmarks .
- Selecione as caixas de seleção ao lado das perguntas que deseja testar.
- Clique em execução selecionada para iniciar a execução do teste nas questões selecionadas.
Você também pode selecionar um subconjunto de perguntas de um resultado de benchmark anterior e executar novamente essas perguntas específicas para testar melhorias.
Os benchmarks continuam sendo executados mesmo quando você sai da página. Você pode verificar os resultados na tab Avaliação quando a execução estiver concluída.
Interpretar classificações
Os seguintes critérios determinam como as respostas do Genie são avaliadas:
Condição | Avaliação |
|---|---|
O Genie gera SQL que corresponde exatamente à resposta SQL fornecida. | Bom |
O Genie gera um conjunto de resultados que corresponde exatamente ao conjunto de resultados produzido pela resposta SQL. | Bom |
O Genie gera um conjunto de resultados com os mesmos dados da resposta SQL , mas ordenados de forma diferente. | Bom |
O Genie gera um conjunto de resultados com valores numéricos que são arredondados para os mesmos 4 dígitos significativos da resposta SQL. | Bom |
O Genie gera SQL que produz um conjunto de resultados vazio ou retorna um erro. | Ruim |
O Genie gera um conjunto de resultados que inclui colunas extras em comparação com o conjunto de resultados produzido pela resposta SQL. | Ruim |
O Genie gera um resultado de célula única que é diferente do resultado de célula única produzido pela resposta SQL. | Ruim |
Revisão manual necessária : As respostas são marcadas com este rótulo quando o Genie não consegue avaliar a correção ou quando os resultados da consulta gerados pelo Genie não contêm uma correspondência exata com os resultados da resposta SQL fornecida. Qualquer questão de avaliação comparativa que não inclua uma resposta em SQL deve ser revisada manualmente.
Acesse avaliações de referência
Você pode acessar todas as suas avaliações de referência para acompanhar a precisão no seu Genie Space ao longo do tempo. Ao abrir os Benchmarks de um espaço, uma lista com registro de data e hora da execução das avaliações aparece na tab Avaliações . Se nenhuma execução de avaliação for encontrada, consulte Adicionar perguntas de referência ou perguntas de referência de execução.

A tab Avaliações exibe uma visão geral das avaliações e seus respectivos desempenhos, relatados nas seguintes categorias:
Nome da avaliação : Um registro de data e hora que indica quando ocorreu a execução da avaliação. Clique no carimbo de data/hora para ver os detalhes dessa avaliação. Status da execução : Indica se a avaliação foi concluída, pausada ou malsucedida. Se uma execução de avaliação incluir perguntas de benchmark que não possuem respostas SQL predefinidas, ela será marcada para revisão nesta coluna. Precisão : Uma avaliação numérica da precisão em todas as questões de referência. Para avaliações que exigem revisão manual, uma medida de precisão só aparece depois que essas questões forem revisadas. Criado por : Indica o nome do usuário que executou a avaliação.
Analisar avaliações individuais
Você pode analisar avaliações individuais para obter uma visão detalhada de cada resposta. Você pode editar a avaliação de qualquer questão e atualizar quaisquer itens que precisem de revisão manual.
Para analisar avaliações individuais:
-
Na parte superior do Genie Space, clique em Benchmark .
-
Clique no registro de data e hora de qualquer avaliação na coluna Nome da avaliação para abrir uma view detalhada da execução desse teste.

-
Utilize a lista de perguntas no lado esquerdo da tela para visualizar uma view detalhada de cada questão.
-
Analise e compare a resposta de saída do modelo com a resposta real (ground truth) .
Para resultados classificados como incorretos, aparece uma explicação descrevendo por que o resultado foi classificado como ruim . Isso ajuda você a entender as diferenças específicas entre a saída gerada e o resultado esperado.
Os resultados dessas respostas aparecem nos detalhes da avaliação por uma semana. Após uma semana, os resultados já não são visíveis. A instrução SQL gerada e a instrução SQL de exemplo permanecem.
-
Clique em "Atualizar verdade fundamental" para salvar a resposta como a nova verdade fundamental para esta pergunta. Isso é útil se não houver uma verdade fundamental existente, ou se a resposta for melhor ou mais precisa do que a declaração de verdade fundamental existente.
-
Clique no
no rótulo para editar a avaliação.
Marque cada resultado como Bom ou Ruim para obter uma pontuação precisa nesta avaliação.