Extração de informações

nota

Esta página aborda a nova versão da Extração de informação. Para informações sobre a versão anterior, consulte Usar extração de informação (legado)

Extração de Informações transforma documentos e textos não estruturados em percepções-chave e estruturadas usando um esquema definido. Isso possibilita o uso de informações incorporadas em texto não estruturado, PDFs, imagens ou tabelas diretamente para análise, relatórios ou agentes e aplicativos downstream.

Exemplos de Extração de informações incluem:

Extraindo partes e termos legais de contratos.
Extraindo itens e condições de pagamento de faturas.
Extraindo informações key de prontuários e anotações médicas.

A Extração de Informações é desenvolvida com base na função de IA ai_extract. Extração de Informações possui uma UI visual para personalizar e otimizar a função com um esquema de extração definido.

A Extração de Informações usa armazenamento default para armazenar transformações temporárias de dados, pontos de verificação de modelo e metadados internos que impulsionam cada agente. Ao excluir um agente, o Databricks remove todos os dados associados ao agente do armazenamento default.

Requisitos

Criar agente de extração de informações

Vá para Agentes no painel de navegação à esquerda do seu workspace. Clique em Criar Agente > Extração de informações .

o passo 1. Selecione os dados dos quais extrair informações

Na página **Começar com seus dados**, selecione os arquivos ou dados dos quais você deseja extrair informações. Você pode fazer qualquer um dos seguintes:
- Arraste e solte um ou mais arquivos na área de upload, ou clique para procurar e fazer upload de arquivos.
- Clique em Select volume para selecionar um volume do Unity Catalog com tipos de arquivo compatíveis.
- Clique em Selecionar tabela para selecionar uma tabela do Unity Catalog que contém dados de texto.
Se selecionar uma tabela, selecione a coluna que contém os dados dos quais extrair. Selecione uma coluna com um tipo suportado, como STRING ou VARIANT, antes de continuar. Se a tabela não tiver colunas compatíveis, selecione uma tabela diferente.
Clique em **Criar agente**. Este botão é habilitado somente após a seleção de uma fonte de dados válida e, para uma tabela, uma coluna compatível.

o passo 2. Configure e refine seu esquema de extração

Após o processamento da extração de informações, configure e refine quais dados você deseja extrair de seus documentos.

Em Configuração, defina seu esquema de extração. Existem várias maneiras de fazer isso:
- Insira linguagem natural que descreva a informação que deseja extrair e clique em **Gerar Esquema**. A Extração de Informações gera automaticamente um esquema JSON com nomes de campo e definições. Edite estas descrições conforme necessário.
- Alternativamente, clique em "Ou, definir manualmente" para definir seu esquema manualmente:
  1. Clique em Adicionar campo .
  2. Insira o nome, o tipo e a descrição do campo.
  3. Clique em Confirmar .
  4. Repita o processo para cada campo que deseja extrair.
  5. Clique em Salvar e executar extração .
- Você também pode clicar em JSON para editar o esquema JSON diretamente. Clique em Aplicar alterações quando terminar.
Cada vez que seu esquema é atualizado e se clica em Salvar e executar extração , o Information Extraction atualiza o agente de extração, executa a extração e exibe os resultados para cada entrada.
À esquerda, analise o documento analisado e a extração do agente. Itere os resultados da extração de duas formas. Primeiro, forneça feedback em linguagem natural em uma ou mais entradas, o que ajusta automaticamente suas descrições ao pressionar Salvar e executar extração . Segundo, revise manualmente as descrições do esquema, que entram em vigor quando você pressiona **Salvar e executar extração**.
Utilize versões para comparar ou reverter para uma configuração anterior. Clique em Versões e, em seguida, clique em Comparar para comparar a definição do esquema de uma versão anterior com a versão atual. Clique em Restaurar para restaurar uma versão anterior.

o passo 3. Use seu agente de extração

Depois de estar satisfeito com o desempenho do agente, utilize-o para extrair informações.

Clique em **Usar Agente** no canto superior direito. Você pode selecionar:

Execução em SQL para usar o agente para extrair informações de todos os seus dados. Isso abre uma consulta SQL que usa ai_extract para extrair informações do seu volume ou tabela usando o esquema definido. Para obter mais informações sobre como usar ai_extract em consultas SQL , consulte a funçãoai_extract.
Crie um pipeline declarativo Spark para implantar um pipeline ETL que seja executado em intervalos agendados para invocar seu agente em novos dados. Isso cria o pipeline declarativo LakeFlow Spark que atualiza uma tabela de transmissão com sua extração de dados. Você pode configurar o programador do pipeline para ser executado quando novos dados chegarem. Para obter mais informações sobre o pipeline declarativo LakeFlow Spark , consulte Pipeline declarativo doLakeFlow Spark.

Limitações

Ver Limitações

Requisitos​

Criar agente de extração de informações​

o passo 1. Selecione os dados dos quais extrair informações​

o passo 2. Configure e refine seu esquema de extração​

o passo 3. Use seu agente de extração​

Limitações​