Pular para o conteúdo principal

Extração de Informações

nota

Esta página aborda a nova versão da Extração de Informações. Para obter informação sobre a versão anterior, consulte Use a Extração de Informações (legado)

A Extração de Informação transforma documentos e textos não estruturados em informações-key e percepções estruturadas, usando um esquema definido. Isso permite o uso de informações incorporadas em textos não estruturados, PDFs, imagens ou tabelas, diretamente para análise, relatórios ou agentes e aplicativos subsequentes.

Exemplos de Extração de Informações incluem:

  • Extraindo partes legais e termos de contratos.
  • Extraindo itens de linha e termos de pagamento de faturas.
  • Extraindo detalhes chave de prontuários e anotações médicas.

A Extração de informações é construída sobre a função de AI ai_extract. A Extração de informações tem uma interface de usuário visual para personalizar e otimizar a função com um esquema definido para extração.

Extração de Informação usa armazenamento default para armazenar transformações de dados temporários, pontos de verificação de modelo e metadados internos que alimentam cada agente. Quando um agente é excluído, o Databricks remove todos os dados associados ao agente do armazenamento default.

Requisitos

Criar um agente de Extração de Informações

Vá para Ícone de Agentes. Agentes no painel de navegação esquerdo do seu workspace. Clique em Criar agente > Extração de informações .

O passo 1. Selecione os dados para extrair informações

  1. Na página Comece com seus dados , selecione os arquivos ou dados dos quais você deseja extrair informações. Você pode fazer qualquer um dos seguintes:

    • Arraste e solte um ou mais arquivos na área de upload ou clique para procurar arquivos para fazer upload.
    • Clique em Selecionar volume para selecionar um volume do Unity Catalog com tipos de arquivo compatíveis.
    • Clique em Selecionar tabela para selecionar uma tabela do Unity Catalog que contém dados de texto.
  2. Se você selecionar uma tabela, selecione a coluna que contém os dados a serem extraídos. É necessário selecionar uma coluna com um tipo compatível, como STRING ou VARIANT, antes de prosseguir. Se a tabela não tiver colunas suportadas, selecione uma tabela diferente.

  3. Clique em Criar Agente . Este botão é ativado somente depois de selecionar uma fonte de dados válida e, para uma tabela, uma coluna suportada.

O passo 2. Configure e refine seu esquema de extração

Depois que a Extração de Informação processar seus dados, configure e refine quais dados deseja extrair de seus documentos.

  1. Em Configuração, defina seu esquema de extração. Existem várias maneiras de fazer isso:

    • Insira linguagem natural que descreva as informações que você deseja extrair e clique em Gerar Esquema . A Extração de Informações gera automaticamente um esquema JSON com nomes de campos e definições para você. Edite essas descrições conforme necessário.

    • Alternativamente, clique em Ou, defina manualmente para definir o seu esquema manualmente:

      1. Clique em Adicionar campo .
      2. Insira o nome, o tipo e a descrição do campo.
      3. Clique em Confirmar .
      4. Repita para cada campo que deseja extrair.
      5. Clique em Salvar e Executar extração .
    • Você também pode clicar em JSON para editar o esquema JSON diretamente. Clique em Aplicar alterações quando concluir.

    Cada vez que você atualiza seu esquema e clica em Salvar e execução de extração , a Extração de informação atualiza o agente de extração, executa a extração e mostra os resultados para cada entrada.

  2. À esquerda, examine o documento analisado e a extração do agente. Itere os resultados da extração de duas maneiras. Primeiro, forneça feedback em linguagem natural sobre uma ou mais entradas, o que ajusta automaticamente suas descrições ao pressionar Salvar e execução de extração . Segundo, revise manualmente as descrições do esquema, que entram em vigor ao pressionar Salvar e execução de extração .

  3. Utilize as versões para comparar ou reverter para uma configuração anterior. Clique em Versões e, em seguida, clique em Comparar para comparar a definição de esquema de uma versão anterior com a versão atual. Clique em Restaurar para restaurar uma versão anterior.

O passo 3. Use seu agente de extração

Depois de estar satisfeito com o desempenho do agente, use-o para extrair informações.

Clique em Usar Agente no canto superior direito. Você pode selecionar uma das opções a seguir:

  • Execução em SQL para usar o agente para extrair informação de todos os seus dados. Isso abre uma consulta SQL que usa ai_extract para extrair informações do seu volume ou tabela usando o esquema definido. Para obter mais informações sobre como usar ai_extract em consultas SQL, consulte a função ai_extract.
  • Crie um pipeline declarativo do Spark para implantado um pipeline de ETL que fica em execução em intervalos programados para invocar seu agente em novos dados. Isso cria pipelines declarativos LakeFlow Spark que atualiza uma tabela de transmissão com sua extração de dados. Você pode programar o pipeline para execução quando novos dados chegam. Para obter mais informações sobre os Pipelines Declarativos do Lakeflow Spark, consulte Pipelines Declarativos do Lakeflow Spark.

Limitações

  • Consulte Limitações

  • Agentes de extração de informações têm um comprimento máximo de contexto de 128 mil tokens.

  • Tipos de esquema de união não são suportados.