Pular para o conteúdo principal

Use Agent Bricks: extração de informações

info

Beta

Esse recurso está na versão beta.

Este artigo descreve como criar um agente generativo AI para extração de informações usando o Agent Bricks: Information Extraction.

O Agent Bricks oferece uma abordagem simples para construir e otimizar sistemas de agentes de inteligência artificial ( AI ) específicos para cada domínio e de alta qualidade para casos de uso comuns de inteligência artificial ( AI ).

O que é o Agent Bricks: information Extraction?

O Agent Bricks oferece suporte à extração de informações e simplifica o processo de transformação de um grande volume de documentos de texto não rotulados em uma tabela estruturada com informações extraídas para cada documento.

Exemplos de extração de informações incluem:

  • Extração de preços e informações de arrendamento de contratos.
  • Organizar dados a partir de notas de clientes.
  • Obter detalhes importantes de artigos de notícias.

O Agent Bricks: information Extraction aproveita os recursos de avaliação automatizada, incluindo MLflow e Agent Evaluation, para permitir uma avaliação rápida da relação custo-qualidade para sua tarefa de extração específica. Essa avaliação permite que o senhor tome decisões informadas sobre o equilíbrio entre precisão e investimento em recursos.

Requisitos

Criar um agente de extração de informações

Acesse Ícone de agentes. Agents no painel de navegação esquerdo do site workspace e clique em information Extraction (Extração de informações) .

Agent Bricks: extração de informações

Etapa 1: configurar seu agente

Em Configure (Configurar ) tab, clique em Show an example (Mostrar um exemplo ) > para expandir um exemplo de entrada e resposta do modelo para um agente de extração de informações.

No painel abaixo, configure seu agente:

  1. No campo Nome , insira um nome para seu agente.

  2. Selecione o tipo de dados que você deseja fornecer. O senhor pode escolher entre Unlabeled dataset (conjunto de dados sem rótulo ) ou Labeled dataset (conjunto de dados com rótulo ).

  3. Selecione o endereço dataset para fornecer.

Se você selecionar Sem rótulo dataset :

  1. No campo de localização do conjunto de dados , selecione a pasta ou tabela que deseja usar no volume Unity Catalog. Se você selecionar uma pasta, ela deverá conter documentos em um formato de documento compatível.

  2. Se o senhor estiver fornecendo uma tabela, selecione a coluna que contém os dados de texto no site dropdown. A coluna da tabela deve conter dados em um formato de dados compatível.

Se o senhor quiser usar PDFs, primeiro converta-os em uma tabela do Unity Catalog. Consulte Usar PDFs no Agent Bricks.

Veja a seguir um exemplo de volume:

/Volumes/main/info-extraction/bbc_articles/

  1. Se o senhor forneceu um dataset não rotulado, o Agent Bricks automaticamente infere e gera uma saída de amostra JSON contendo dados extraídos do seu dataset no campo de saída Sample JSON . O senhor pode aceitar a saída de amostra, editá-la ou substituí-la por um exemplo da saída JSON desejada. O agente retorna as informações extraídas usando esse formato.

    Se o senhor forneceu um rótulo dataset, o campo de saída Sample JSON mostra a primeira linha de dados da coluna de resposta do rótulo. Verifique se essa saída JSON corresponde ao formato esperado.

    Por exemplo, o seguinte exemplo de saída JSON pode ser usado para extrair informações de um conjunto de artigos de notícias:

    JSON
    {
    "title": "Economy Slides to Recession",
    "category": "Politics",
    "paragraphs": [
    {
    "summary": "GDP fell by 0.1% in the last three months of 2004.",
    "word_count": 38
    },
    {
    "summary": "Consumer spending had been depressed by one-off factors such as the unseasonably mild winter.",
    "word_count": 42
    }
    ],
    "tags": ["Recession", "Economy", "Consumer Spending"],
    "estimate_time_to_read_min": 1,
    "published_date": "2005-01-15",
    "needs_review": false
    }
  2. Clique em Criar agente .

Formatos de documentos suportados

A tabela a seguir mostra os tipos de arquivos de documentos suportados para seus documentos de origem se o senhor fornecer um volume do Unity Catalog.

Arquivos de código

Arquivos de documentos

arquivos de registro

  • .c
  • .cc
  • .cpp
  • .cs
  • .css
  • .cxx
  • .go
  • .h
  • .hpp
  • .htm
  • .html
  • .java
  • .js
  • .json
  • .jsonl
  • .jsx
  • .lua
  • .md
  • .php
  • .pl
  • .py
  • .rb
  • .sh
  • .swift
  • .tex
  • .ts
  • .tsx
  • .md
  • .rst
  • .tex
  • .txt
  • .xml
  • .xsd
  • .xsl
  • .diff
  • .err
  • .log
  • .out
  • .patch

Formatos de dados suportados

Agent Bricks: a extração de informações é compatível com os seguintes tipos de dados e esquemas para os documentos de origem se o senhor fornecer uma tabela Unity Catalog. O Agent Bricks também pode extrair esses tipos de dados de cada documento.

  • str
  • int
  • float
  • boolean
  • Campos aninhados personalizados
  • Matrizes dos tipos de dados acima

Etapa 2: Crie e melhore seu agente

No site Build tab, no painel Agent configuration (Configuração do agente ), refine a definição do esquema para obter melhores resultados.

  1. (Opcional) Adicione instruções globais para seu agente, como uma solicitação que possa ser aplicada a todos os campos.

  2. Ajuste as descrições dos campos do esquema que você deseja que seu agente use para respostas de saída. Essas descrições são as que o agente usa para entender o que você deseja extrair.

    Painel de configuração do agente no site Build tab da ABIE

  3. Clique em Atualizar agente .

No lado esquerdo da página Build tab, veja as recomendações e exemplos de resultados.

  1. Analise os exemplos de saída do modelo com base nas especificações fornecidas para cada campo.

  2. Analise as recomendações da Databricks para otimizar o desempenho do agente.

  3. Aplique recomendações e ajuste suas descrições e instruções no painel de configuração do agente conforme necessário.

    Melhore o painel do agente no site Build tab da ABIE

  4. Depois de aplicar as alterações e recomendações, selecione Atualizar agente para salvar essas alterações em seu agente. O painel Melhore seu agente é atualizado para mostrar um novo exemplo de saída de modelo. As recomendações nesse painel não são atualizadas.

Agora o senhor tem um agente para extração de informações.

Etapa 3: use seu agente

O senhor pode usar seu agente em fluxo de trabalho em Databricks. Em default, o ponto de extremidade do Agent Bricks é zerado após 3 dias de inatividade, portanto, o senhor só será cobrado pelo tempo de atividade.

Em Use tab,

  1. Selecione começar extraction para abrir o editor SQL e use ai_query para enviar solicitações ao seu novo agente de extração de informações.

  2. (Opcional) Selecione Otimizar se quiser otimizar o custo do seu agente.

    • A otimização requer pelo menos 75 arquivos.
    • A otimização pode levar cerca de uma hora.
    • Fazer alterações em seu agente atualmente ativo é bloqueado quando a otimização está em andamento.

Quando a otimização for concluída, o senhor será direcionado para o site Review tab para view uma comparação entre o agente atualmente ativo e um agente otimizado para custo. Consulte (Opcional) Etapa 4: Revisar e implantar um agente otimizado.

  1. (Opcional) Selecione Create pipeline para implantar um pipeline que será executado em intervalos programados para usar seu agente em novos dados. Consulte LakeFlow Declarative pipeline para obter mais informações sobre o pipeline.

extração de dados para todos os documentos e o bloco Otimizar o desempenho do agente no site Use tab da ABIE

(Opcional) Etapa 4: Revisar e implantar um agente otimizado

Quando o senhor seleciona Optimize em Use tab, Databricks compara várias estratégias de otimização diferentes para criar e recomendar um agente otimizado. Essas estratégias incluem o ajuste fino do Foundation Model, que usa o Databricks Geos.

No site Review tab,

  1. Nos resultados da avaliação , você pode comparar visualmente o agente otimizado e seu agente ativo. Para realizar a avaliação, o site Databricks escolhe uma métrica com base no tipo de dados de cada campo e usa um conjunto de dados de avaliação para comparar seu agente ativo e o agente otimizado para custo. Esse conjunto de avaliação é baseado em um subconjunto dos dados que você usou para criar seu agente original.

    1. métricas são registros para sua MLflow execução por campo (agregados ao campo de nível superior).
    2. Selecione as colunas overall_score e is_schema_match no menu suspenso Colunas .
  2. Depois de analisar esses resultados, clique em implantado se quiser implantar esse agente otimizado em vez do agente ativo no momento.

Consultar o agente endpoint

Há várias maneiras de consultar o assistente de conhecimento criado endpoint. Use os exemplos de código fornecidos no AI Playground como ponto de partida.

  1. No site Configure tab, clique em Open in playground (Abrir no playground ).
  2. No Playground, clique em Obter código .
  3. Escolha como o senhor deseja usar o endpoint:
    • Selecione Aplicar nos dados para criar uma consulta SQL que aplique o agente a uma coluna específica da tabela.
    • Selecione Curl API para obter um exemplo de código para consultar o endpoint usando curl.
    • Selecione Python API para obter um exemplo de código para interagir com o endpoint usando Python.

Use PDFs no Agent Bricks

Os PDFs ainda não são suportados nativamente no Agent Bricks: information Extraction e Custom LLM. No entanto, o senhor pode usar o fluxo de trabalho da interface do usuário do Agent Brick para converter uma pasta de arquivos PDF em markdown e, em seguida, usar a tabela resultante do Unity Catalog como entrada ao criar seu agente. Esse fluxo de trabalho usa ai_parse_document para a conversão. Siga estas etapas:

  1. Clique em Agents no painel de navegação esquerdo para abrir o Agent Bricks no Databricks.

  2. Nos casos de uso Extração de informações ou Personalizado ( LLM ), clique em Usar PDFs .

    Use PDFs no Agent Bricks

  3. No painel lateral que se abre, preencha os seguintes campos para criar um novo fluxo de trabalho para converter seus PDFs:

    1. Selecione a pasta com os PDFs : Selecione a pasta do Unity Catalog que contém os PDFs que o senhor deseja usar.
    2. Selecione a tabela de destino : Selecione o esquema de destino para a tabela de remarcação para baixo convertida e, opcionalmente, ajuste o nome da tabela no campo abaixo.
    3. Select active SQL warehouse : Selecione o site SQL warehouse para executar o fluxo de trabalho.

    Configurar o fluxo de trabalho para usar PDFs no Agent Bricks.

  4. Clique em começar a importar .

  5. O senhor será redirecionado para o All fluxo de trabalho tab, que lista todos os seus fluxos de trabalho em PDF. Use o site tab para monitorar o status do seu trabalho.

    Revisar o status do fluxo de trabalho para usar PDFs no Agent Bricks.

    Se o fluxo de trabalho falhar, clique no nome do trabalho para abri-lo e view mensagens de erro para ajudá-lo a depurar.

  6. Quando o fluxo de trabalho for concluído com êxito, clique no nome do trabalho para abrir a tabela no Catalog Explorer e explorar e entender as colunas.

  7. Use a tabela do Unity Catalog como dados de entrada no Agent Bricks ao configurar seu agente.

Limitações

  • A Databricks exige pelo menos 75 documentos para otimizar seu agente. Para obter melhores resultados de otimização, recomenda-se pelo menos 1000 documentos. Quando você adiciona mais documentos, a base de conhecimento com a qual o agente pode aprender aumenta, o que melhora a qualidade do agente e sua precisão de extração.
  • informação Os agentes de extração possuem um comprimento máximo de contexto de 128k tokens.
  • Os espaços de trabalho que possuem Segurança Avançada e conformidade ativadas não são suportados.
  • A otimização pode falhar em espaços de trabalho que tenham políticas de rede de controle de saídaserverless com modo de acesso restrito.
  • Não há suporte para tipos de esquema de união.