Amostragem de dados do Genie
Visualização
Esse recurso está em Public Preview.
Este artigo explica como melhorar a precisão em um espaço Genie, permitindo que o Genie use dados de amostra, ajudando-o a corresponder melhor aos prompts enviados pelo usuário. Para ativar a amostragem de dados, entre em contato com a equipe do Databricks account .
Visão geral
Quando um usuário faz uma pergunta no Genie, ele geralmente usa frases imprecisas ou coloquiais que não correspondem diretamente à estrutura ou aos valores dos dados. Isso pode levar o site Genie a interpretar erroneamente os termos do key e gerar consultas incorretas no SQL.
Por exemplo, um usuário pode perguntar:
"Mostre-me ventas de carros na Flórida para o Q1."
O Genie pode tentar fazer a correspondência entre o termo "Florida" e um valor na coluna state
usando um filtro como ILIKE '%Florida%'
. Se o senhor usar abreviações de dados (por exemplo, FL
), esse filtro não retornará nenhum resultado.
Com a amostragem de dados ativada, o Genie pode acessar valores representativos da coluna state
. Esse contexto adicional ajuda o Genie a reconhecer que FL
é a correspondência correta para Florida
e a gerar uma consulta mais precisa.
A tabela a seguir mostra como a geração de SQL difere com base no fato de a amostragem estar ativada neste exemplo:
Sem valores amostrados | Com valores amostrados |
---|---|
|
|
A amostragem de dados melhora a capacidade do Genie de gerar o SQL correto e retornar os resultados esperados dos dados.
Requisitos
- Genie spaces deve ser ativado. Consulte Configurar o Genie.
- O acesso à pré-visualização pública da amostragem de dados deve ser concedido. Entre em contato com a equipe Databricks account .
- Um administrador do site workspace deve ativar a visualização na página Previews (Visualizações ) usando o bloco Genie Data Sampling (Amostragem de dados ).
Habilitar a amostragem de dados pode introduzir latência adicional na geração de respostas.
Escolha colunas
Se o senhor tiver privilégios de CAN EDIT em um espaço do Genie, poderá selecionar quais colunas serão amostradas. Escolha colunas de cadeias de caracteres que forneçam um contexto significativo para os prompts do usuário, especialmente colunas com valores categóricos ou formatados de forma consistente.
Não selecione:
- Colunas não strings: A amostragem é compatível apenas com os tipos de cadeias de caracteres.
- Colunas de texto livre ou de strings não estruturadas: Essas colunas geralmente incluem IDs de usuários, avaliações de clientes, nomes ou outros conteúdos de baixo sinal.
O Genie coleta amostras de até 255 valores distintos por coluna. Cada valor amostrado é truncado em 127 caracteres. Quando uma coluna ou linha excede esse máximo, somente um subconjunto é usado.
Selecionar colunas para amostrar
- Clique em Configure > Data em seu espaço Genie.
- Clique no nome de uma tabela para acessar view suas colunas.
- Clique em Add values (Adicionar valores ) ao lado das colunas que você deseja que o Genie faça uma amostragem.
Os valores de amostragem são armazenados no bucket de armazenamento do site workspace.
Para cancelar uma operação de amostragem em andamento, clique no menu kebab ao lado da mensagem Adding values (Adicionando valores ).
Se as operações falharem, clique em Retry adding values (Repetir adição de valores ).
Depois que as operações forem concluídas, use o menu kebab para
- atualizar valores adicionados para obter uma nova amostra depois que os dados forem atualizados.
- Remova os valores adicionados para excluir a amostra atual.
atualizar valores adicionados
A atualização atualiza a amostra de uma coluna. Isso é útil quando:
- Novos valores foram adicionados a uma coluna.
- O formato dos valores em uma coluna foi alterado.
Como o Genie usa dados de amostragem
Ao responder a um prompt, o Genie usa metadados disponíveis, comentários, instruções e, quando designado, valores de nível de linha amostrados. Ele seleciona colunas relevantes com base nesse contexto. Se uma coluna selecionada incluir valores de amostragem, o Genie poderá usá-los para melhorar a interpretação e a precisão da consulta.
Embora os dados de amostragem sejam úteis para aumentar a precisão do Genie, instruções e consultas de exemplo também são cruciais para criar um espaço eficaz. Para obter mais informações, consulte Curate an effective Genie space.