Pular para o conteúdo principal

AI Builder: extração de informações

info

Beta

Esse recurso está na versão beta.

Este artigo descreve como criar um agente generativo AI para extração de informações usando o AI Builder: extração de informações.

O que é o AI Builder: extração de informações?

AI O Builder oferece uma abordagem simples e sem código para criar e otimizar sistemas de agentes AI de alta qualidade e específicos do domínio para casos de uso comuns do AI. AI O Builder suporta a extração de informações e simplifica o processo de transformação de um grande volume de documentos de texto não rotulados em uma tabela estruturada com informações extraídas para cada documento.

Exemplos de extração de informações incluem:

  • Extração de preços e informações de arrendamento de contratos.
  • Organizar dados a partir de notas de clientes.
  • Obter detalhes importantes de artigos de notícias.

AI Builder: a extração de informações aproveita os recursos de avaliação automatizada, incluindo MLflow e Agent Evaluation, para permitir uma avaliação rápida da relação custo-qualidade para sua tarefa de extração específica. Essa avaliação permite que o senhor tome decisões informadas sobre o equilíbrio entre precisão e investimento em recursos.

Requisitos

  • sem suporte de servidor workspace que inclui o seguinte:

    • Unity Catalog habilitado em seu site workspace.
    • Um workspace em uma das regiões compatíveis: us-east-1 ou us-west-2.
  • Arquivos dos quais o senhor deseja extrair dados. Os arquivos devem estar em um volume do Unity Catalog.

Criar um agente de extração de informações

Acesse AI Builder no painel de navegação esquerdo do site workspace e clique em information Extraction (Extração de informações) .

AI Builder: extração de informações-chave

Etapa 1: Adicionar dados de entrada e exemplo de saída

Em Configure (Configurar ) tab, clique em Show an example (Mostrar um exemplo ) > para expandir um exemplo de entrada e resposta do modelo para um agente de extração de informações.

No painel abaixo, configure seu agente:

  1. No campo Source documents (Documentos de origem ), selecione a pasta que o senhor deseja usar no volume do Unity Catalog. Esse endereço dataset é usado para criar seu agente. Consulte Formatos de dados compatíveis para ver os esquemas e tipos de arquivos de dados compatíveis.

    Veja a seguir um exemplo:

    /Volumes/main/info-extraction/bbc_articles/

  2. No campo Exemplo de saída , forneça um exemplo de resposta:

    JSON
    {
    "title": "A fun and catchy title",
    "category": "SPORTS",
    "summary": "The article was about foo, bar and baz."
    }
  3. Forneça um nome para seu agente. O senhor pode deixar o nome default se não quiser alterá-lo.

  4. Selecione Criar agente .

Formatos de dados suportados

A tabela a seguir mostra os tipos de arquivos de dados suportados. O AI Builder suporta os seguintes tipos de dados e esquemas nos tipos de arquivos suportados.

  • str
  • int
  • float
  • boolean
  • Campos aninhados personalizados
  • Matrizes dos tipos de dados acima

Arquivos de código

Arquivos de documentos

arquivos de registro

  • .c
  • .cc
  • .cpp
  • .cs
  • .css
  • .cxx
  • .go
  • .h
  • .hpp
  • .htm
  • .html
  • .java
  • .js
  • .json
  • .jsonl
  • .jsx
  • .lua
  • .md
  • .php
  • .pl
  • .py
  • .rb
  • .sh
  • .swift
  • .tex
  • .ts
  • .tsx
  • .md
  • .rst
  • .tex
  • .txt
  • .xml
  • .xsd
  • .xsl
  • .diff
  • .err
  • .log
  • .out
  • .patch

Etapa 2: Crie e melhore seu agente

No painel de configuração do agente ,

  1. (Opcional) Adicione instruções globais para seu agente, como uma solicitação que possa ser aplicada a todos os campos.
  2. Ajuste as descrições dos campos do esquema que você deseja que seu agente use para respostas de saída. Essas descrições são as que o agente usa para entender o que você deseja extrair.

Painel de configuração do agente no Build tab do AI Builder: extração de informações.

No painel Melhore seu agente ,

  1. Analise os exemplos de saída do modelo com base nas especificações fornecidas para cada campo.

  2. Analise as recomendações da Databricks para otimizar o desempenho do agente.

  3. Aplique recomendações e ajuste suas descrições e instruções no painel de configuração do agente conforme necessário.

    Melhore o painel do agente no Build tab do AI Builder: extração de informações.

  4. Depois de aplicar as alterações e recomendações, selecione Atualizar agente para salvar essas alterações em seu agente. O painel Melhore seu agente é atualizado para mostrar um novo exemplo de saída de modelo. As recomendações nesse painel não são atualizadas.

Agora o senhor tem um agente para extração de informações.

Etapa 3: use seu agente

O senhor pode usar seu agente em fluxo de trabalho em Databricks.

Em Use tab,

  1. Selecione começar extraction para abrir o editor SQL e use ai_query para enviar solicitações ao seu novo agente de extração de informações.

  2. (Opcional) Selecione Otimizar se quiser otimizar o custo do seu agente.

    • A otimização pode levar cerca de uma hora.
    • Fazer alterações em seu agente atualmente ativo é bloqueado quando a otimização está em andamento.

Quando a otimização for concluída, o senhor será direcionado para o site Review tab para view uma comparação entre o agente atualmente ativo e um agente otimizado para custo. Consulte (Opcional) Etapa 4: Revisar e implantar um agente otimizado.

extração de dados para todos os documentos e o bloco Otimizar o desempenho do agente no site Use tab do AI Builder: extração de informações

(Opcional) Etapa 4: Revisar e implantar um agente otimizado

Quando o senhor seleciona Optimize em Use tab, Databricks compara várias estratégias de otimização diferentes para criar e recomendar um agente otimizado. Essas estratégias incluem o ajuste fino do Foundation Model, que usa o Databricks Geos.

No site Review tab,

  1. Nos resultados da avaliação , você pode comparar visualmente o agente otimizado e seu agente ativo. Para realizar a avaliação, o site Databricks escolhe uma métrica com base no tipo de dados de cada campo e usa um conjunto de dados de avaliação para comparar seu agente ativo e o agente otimizado para custo. Esse conjunto de avaliação é baseado em um subconjunto dos dados que você usou para criar seu agente original.

    1. métricas são registros para sua MLflow execução por campo (agregados ao campo de nível superior).
    2. Selecione as colunas overall_score e is_schema_match no menu suspenso Colunas .
  2. Depois de analisar esses resultados, clique em implantado se quiser implantar esse agente otimizado em vez do agente ativo no momento.

Limitações

  • A Databricks recomenda pelo menos 1.000 documentos para otimizar seu agente. Quando você adiciona mais documentos, a base de conhecimento com a qual o agente pode aprender aumenta, o que melhora a qualidade do agente e sua precisão de extração.
  • Se seus documentos de origem incluírem um arquivo maior que 3 MB, a criação do agente falhará.
  • Documentos maiores que 64 KB podem ser ignorados durante a criação do agente.
  • que usam o PrivateLink, incluindo o armazenamento por trás do PrivateLink, não são suportados.
  • Não há suporte para tipos de esquema de união.
  • Não há suporte para as tabelas do Unity Catalog.