Use Agent Bricks: extração de informações
Beta
Esse recurso está na versão beta.
Esta página descreve como criar um agente AI generativo para extração de informações usando Agent Bricks: extração de informações.
O Agent Bricks oferece uma abordagem simples para construir e otimizar sistemas de agentes de inteligência artificial ( AI ) específicos para cada domínio e de alta qualidade para casos de uso comuns de inteligência artificial ( AI ).
O que é o Agent Bricks: information Extraction?
O Agent Bricks oferece suporte à extração de informações e simplifica o processo de transformação de um grande volume de documentos de texto não rotulados em uma tabela estruturada com informações extraídas para cada documento.
Exemplos de extração de informações incluem:
- Extração de preços e informações de arrendamento de contratos.
- Organizar dados a partir de notas de clientes.
- Obter detalhes importantes de artigos de notícias.
O Agent Bricks: information Extraction aproveita os recursos de avaliação automatizada, incluindo MLflow e Agent Evaluation, para permitir uma avaliação rápida da relação custo-qualidade para sua tarefa de extração específica. Essa avaliação permite que o senhor tome decisões informadas sobre o equilíbrio entre precisão e investimento em recursos.
Requisitos
-
Um workspace que inclui o seguinte:
- Prévia (Beta) dos blocos do agente Mosaic AI ativada. Veja as prévias do gerenciar Databricks.
- sem servidor compute ativado. Consulte os requisitos do compute sem servidor.
- Unity Catalog habilitado. Consulte Ativar um workspace para Unity Catalog.
- Acesso a modelos básicos no Unity Catalog por meio do esquema
system.ai
. - Acesso a uma política orçamentáriaserverless com um orçamento diferente de zero.
-
Um workspace em uma das regiões compatíveis:
us-east-1
ouus-west-2
. -
Capacidade de usar a função
ai_query
SQL. -
Arquivos dos quais o senhor deseja extrair dados. Os arquivos devem estar em um volume ou tabela do Unity Catalog.
- Se o senhor quiser usar PDFs, primeiro converta-os em uma tabela do Unity Catalog. Consulte Usar PDFs no Agent Bricks.
- Para criar seu agente, o senhor precisa de pelo menos 1 documento não rotulado no volume do Unity Catalog ou 1 linha na tabela.
- Para otimizar seu agente ((Opcional) Otimizar seu agente), você deve ter pelo menos 75 documentos não rotulados no seu volume do Unity Catalog ou pelo menos 75 linhas na sua tabela.
Criar um agente de extração de informações
Vá para Agentes no painel de navegação esquerdo do seu workspace. No bloco Extração de informações , clique em Construir .
o passo 1: Configure seu agente
Configure seu agente:
-
No campo Nome , insira um nome para seu agente.
-
Selecione o tipo de dados que você deseja fornecer. O senhor pode escolher entre Unlabeled dataset (conjunto de dados sem rótulo ) ou Labeled dataset (conjunto de dados com rótulo ).
-
Selecione o endereço dataset para fornecer.
- Unlabeled dataset
- Labeled dataset
Se você selecionar Sem rótulo dataset :
- No campo de localização do conjunto de dados , selecione a pasta ou tabela que deseja usar no volume Unity Catalog. Se você selecionar uma pasta, ela deverá conter documentos em um formato de documento compatível.
- Se o senhor estiver fornecendo uma tabela, selecione a coluna que contém os dados de texto no site dropdown. A coluna da tabela deve conter dados em um formato de dados compatível.
Se o senhor quiser usar PDFs, primeiro converta-os em uma tabela do Unity Catalog. Consulte Usar PDFs no Agent Bricks.
Veja a seguir um exemplo de volume:
/Volumes/main/info-extraction/bbc_articles/
Se você selecionar rótulo dataset :
- No campo rótulo treinamento dataset , selecione a tabela Unity Catalog que o senhor deseja usar.
- No campo Coluna de entrada , selecione a coluna que contém o texto que você deseja que o agente processe. Os dados nessa coluna devem estar no formato
str
. - No campo da coluna de resposta do rótulo , selecione a coluna que contém a resposta do rótulo que o senhor deseja que o agente gere. Os dados dessa coluna devem ser uma cadeia de caracteres JSON. Cada linha dessa coluna deve seguir o mesmo formato JSON. As linhas que contêm chaves adicionais ou ausentes não são aceitáveis.
Ao otimizar, o Agent Bricks usa os dados do rótulo para melhorar a qualidade da extração de informações endpoint.
-
Se o senhor forneceu um dataset não rotulado, o Agent Bricks automaticamente infere e gera uma saída de amostra JSON contendo dados extraídos do seu dataset no campo de saída Sample JSON . O senhor pode aceitar a saída de amostra, editá-la ou substituí-la por um exemplo da saída JSON desejada. O agente retorna as informações extraídas usando esse formato.
Se o senhor forneceu um rótulo dataset, o campo de saída Sample JSON mostra a primeira linha de dados da coluna de resposta do rótulo. Verifique se essa saída JSON corresponde ao formato esperado.
Por exemplo, o seguinte exemplo de saída JSON pode ser usado para extrair informações de um conjunto de artigos de notícias:
JSON{
"title": "Economy Slides to Recession",
"category": "Politics",
"paragraphs": [
{
"summary": "GDP fell by 0.1% in the last three months of 2004.",
"word_count": 38
},
{
"summary": "Consumer spending had been depressed by one-off factors such as the unseasonably mild winter.",
"word_count": 42
}
],
"tags": ["Recession", "Economy", "Consumer Spending"],
"estimate_time_to_read_min": 1,
"published_date": "2005-01-15",
"needs_review": false
} -
Clique em Criar agente .
Formatos de documentos suportados
A tabela a seguir mostra os tipos de arquivos de documentos suportados para seus documentos de origem se o senhor fornecer um volume do Unity Catalog.
Arquivos de código | Arquivos de documentos | arquivos de registro |
---|---|---|
|
|
|
Formatos de dados suportados
Agent Bricks: a extração de informações é compatível com os seguintes tipos de dados e esquemas para os documentos de origem se o senhor fornecer uma tabela Unity Catalog. O Agent Bricks também pode extrair esses tipos de dados de cada documento.
str
int
float
boolean
enum
(usado para tarefas de classificação onde o agente deve selecionar apenas categorias predefinidas)- Objeto
- Matrizes
enum (adequado para tarefas de classificação onde queremos que o agente produza apenas um conjunto de categorias predefinidas) objeto (no lugar de "campos aninhados personalizados") variedade
o passo 2: Melhore seu agente
Na tab Melhorar qualidade , revise as saídas de amostra para ajudar a refinar sua definição de esquema e adicionar instruções para obter melhores resultados.
-
No lado esquerdo, em Melhorar qualidade , revise os exemplos de saída. Estas são entradas e respostas de exemplo baseadas na configuração atual do seu agente. Use as setas para navegar entre as respostas ou clique em ver tudo .
-
Na tab Diretrizes do painel Configuração do Agente , no lado direito, refine as descrições dos campos do esquema. Essas descrições são o que o agente utiliza para entender o que você deseja extrair.
-
Revise as recomendações para melhorar seu agente. Elas aparecem em uma caixa colorida.
-
Use estas sugestões para ajudar você a editar descrições de campos para obter melhores resultados.
-
Clique em Concluído para descartar a recomendação.
-
Edite as outras descrições de campo conforme necessário. Use as saídas de exemplo à esquerda para ajudar a refinar a definição do esquema.
-
Você também pode adicionar novos campos, editar campos e remover campos.
-
(Opcional) No painel Configuração do agente , alterne para a tab Instruções e insira quaisquer instruções globais para seu agente. Estas instruções serão aplicadas a todos os elementos extraídos.
-
Clique em Salvar e atualizar para atualizar seu agente.
-
Novas respostas de amostra são geradas no lado esquerdo. Revise essas respostas atualizadas e continue a refinar a configuração do seu agente até que as respostas sejam satisfatórias.
o passo 3: Avalie seu agente
Para garantir que você criou um agente de alta qualidade, execute uma avaliação e revise o relatório de qualidade resultante.
-
No lado esquerdo, alterne para a tab Relatório de qualidade .
-
Clique em avaliação de execução .
-
No painel Nova Avaliação que desliza para fora, configure a avaliação:
-
Selecione o nome da execução de avaliação. Você pode escolher usar um nome gerado ou fornecer um nome personalizado.
-
Selecione se deseja executar a avaliação no agente de base ou em um agente otimizado.
-
Selecione o dataset de avaliação. Você pode escolher usar o mesmo dataset de origem usado para criar seu agente ou fornecer um dataset de avaliação personalizado usando dados rotulados ou não rotulados.
-
Clique para iniciar a avaliação .
-
Após a conclusão da execução da avaliação, revise o relatório de qualidade com as pontuações da avaliação.
-
Clique em uma solicitação para view mais detalhes.
-
À esquerda, revise as guias Resumo , Detalhes e cronograma e Prompts vinculados .
-
À direita, revise as avaliações. Clique
ao lado de uma avaliação para editar a pontuação e fornecer feedback. Você também pode rolar até o final para adicionar uma nova avaliação.
Se estiver satisfeito com os resultados, prossiga para o passo 4: Use seu agente. Caso contrário, consulte (Opcional) Otimizar seu agente.
o passo 4: Use seu agente
O senhor pode usar seu agente em fluxo de trabalho em Databricks. Em default, o ponto de extremidade do Agent Bricks é zerado após 3 dias de inatividade, portanto, o senhor só será cobrado pelo tempo de atividade.
Para começar a usar seu agente, clique em Usar . Você pode escolher usar seu agente de várias maneiras:
- extração de dados para todos os documentos : Clique em iniciar extração para abrir o editor SQL e use
ai_query
para enviar solicitações ao seu novo agente de extração de informações. - Criar pipeline ETL : clique em Criar pipeline para gerar um pipeline que será executado em intervalos agendados para usar seu agente em novos dados. Consulte Pipeline declarativoLakeFlow para obter mais informações sobre pipeline.
- Teste seu agente : clique em Abrir no Playground para testar seu agente em um ambiente de teste e ver como ele funciona. Veja Bate-papo com LLMs e protótipos de aplicativos AI generativa usando AI Playground para saber mais sobre AI Playground.
(Opcional) Otimize seu agente
Quando você usa o Databricks para otimizar seu agente, o Databricks compara diversas estratégias de otimização diferentes para criar e recomendar um agente otimizado. Essas estratégias incluem o ajuste fino do modelo de fundação, que usa o Databricks Geos.
Para otimizar seu agente:
- Clique
Otimize no topo. Você também pode navegar até a tab Otimizações e clicar
começar Otimização . A otimização requer pelo menos 75 arquivos.
- Clique em Iniciar Otimização para confirmar. A otimização pode levar várias horas. As alterações no seu agente são bloqueadas quando a otimização está em andamento.
- Depois que seu agente otimizado estiver pronto, você pode executar uma avaliação com ele na tab Relatório de qualidade e, em seguida, comparar os resultados com o agente de base. Veja o passo 3: Avalie seu agente.
- Se o agente otimizado atender às suas necessidades, comece a usá-lo. Veja o passo 4: Use seu agente.
Consultar o agente endpoint
Há várias maneiras de consultar o assistente de conhecimento criado endpoint. Use os exemplos de código fornecidos no AI Playground como ponto de partida.
- No site Configure tab, clique em Open in playground (Abrir no playground ).
- No Playground, clique em Obter código .
- Escolha como o senhor deseja usar o endpoint:
- Selecione Aplicar nos dados para criar uma consulta SQL que aplique o agente a uma coluna específica da tabela.
- Selecione Curl API para obter um exemplo de código para consultar o endpoint usando curl.
- Selecione Python API para obter um exemplo de código para interagir com o endpoint usando Python.
Use PDFs no Agent Bricks
Os PDFs ainda não são suportados nativamente no Agent Bricks: information Extraction e Custom LLM. No entanto, o senhor pode usar o fluxo de trabalho da interface do usuário do Agent Brick para converter uma pasta de arquivos PDF em markdown e, em seguida, usar a tabela resultante do Unity Catalog como entrada ao criar seu agente. Esse fluxo de trabalho usa ai_parse_document
para a conversão. Siga estas etapas:
-
Clique em Agents no painel de navegação esquerdo para abrir o Agent Bricks no Databricks.
-
Nos casos de uso de Extração de informações ou LLM personalizado, clique em Usar PDFs .
-
No painel lateral que se abre, preencha os seguintes campos para criar um novo fluxo de trabalho para converter seus PDFs:
- Selecione a pasta com PDFs ou imagens : selecione a pasta Unity Catalog que contém os PDFs que você deseja usar.
- Selecione a tabela de destino : Selecione o esquema de destino para a tabela de remarcação para baixo convertida e, opcionalmente, ajuste o nome da tabela no campo abaixo.
- Select active SQL warehouse : Selecione o site SQL warehouse para executar o fluxo de trabalho.
-
Clique em começar a importar .
-
O senhor será redirecionado para o All fluxo de trabalho tab, que lista todos os seus fluxos de trabalho em PDF. Use o site tab para monitorar o status do seu trabalho.
Se o fluxo de trabalho falhar, clique no nome do trabalho para abri-lo e view mensagens de erro para ajudá-lo a depurar.
-
Quando o fluxo de trabalho for concluído com êxito, clique no nome do trabalho para abrir a tabela no Catalog Explorer e explorar e entender as colunas.
-
Use a tabela do Unity Catalog como dados de entrada no Agent Bricks ao configurar seu agente.
Limitações
- A Databricks exige pelo menos 75 documentos para otimizar seu agente. Para obter melhores resultados de otimização, recomenda-se pelo menos 1000 documentos. Quando você adiciona mais documentos, a base de conhecimento com a qual o agente pode aprender aumenta, o que melhora a qualidade do agente e sua precisão de extração.
- informação Os agentes de extração possuem um comprimento máximo de contexto de 128k tokens.
- Os espaços de trabalho que possuem Segurança Avançada e conformidade ativadas não são suportados.
- A otimização pode falhar em espaços de trabalho que tenham políticas de rede de controle de saídaserverless com modo de acesso restrito.
- Não há suporte para tipos de esquema de união.