Pular para o conteúdo principal
Página não listada
Esta página não está listada. Mecanismos de busca não armazenarão nenhuma informação, e somente usuários que possuam o link direto poderão acessá-la

Extração de informações

info

Visualização

Este recurso está em versão prévia pública e está em conformidade com a HIPAA.

Esta página aborda a nova versão da Extração de informação. Para informações sobre a versão anterior, consulte Usar extração de informação (legado)

Extração de Informações transforma documentos e textos não estruturados em percepções-chave e estruturadas usando um esquema definido. Isso possibilita o uso de informações incorporadas em texto não estruturado, PDFs, imagens ou tabelas diretamente para análise, relatórios ou agentes e aplicativos downstream.

Exemplos de Extração de informações incluem:

  • Extraindo partes e termos legais de contratos.
  • Extraindo itens e condições de pagamento de faturas.
  • Extraindo informações key de prontuários e anotações médicas.

A Extração de Informações é desenvolvida com base na função de IA ai_extract. Extração de Informações possui uma UI visual para personalizar e otimizar a função com um esquema de extração definido.

A Extração de Informações usa armazenamento default para armazenar transformações temporárias de dados, pontos de verificação de modelo e metadados internos que impulsionam cada agente. Ao excluir um agente, o Databricks remove todos os dados associados ao agente do armazenamento default.

Requisitos

Criar agente de extração de informações

Vá para Ícone de agentes. Agentes no painel de navegação à esquerda do seu workspace. Clique em Criar Agente > Extração de informações .

o passo 1. Selecione os dados dos quais extrair informações

  1. Na página **Começar com seus dados**, selecione os arquivos ou dados dos quais você deseja extrair informações. Você pode fazer qualquer um dos seguintes:

    • Arraste e solte um ou mais arquivos na área de upload, ou clique para procurar e fazer upload de arquivos.
    • Clique em Select volume para selecionar um volume do Unity Catalog com tipos de arquivo compatíveis.
    • Clique em Selecionar tabela para selecionar uma tabela do Unity Catalog que contém dados de texto.
  2. Se selecionar uma tabela, selecione a coluna que contém os dados dos quais extrair. Selecione uma coluna com um tipo suportado, como STRING ou VARIANT, antes de continuar. Se a tabela não tiver colunas compatíveis, selecione uma tabela diferente.

  3. Clique em **Criar agente**. Este botão é habilitado somente após a seleção de uma fonte de dados válida e, para uma tabela, uma coluna compatível.

o passo 2. Configure e refine seu esquema de extração

Após o processamento da extração de informações, configure e refine quais dados você deseja extrair de seus documentos.

  1. Em Configuração, defina seu esquema de extração. Existem várias maneiras de fazer isso:

    • Insira linguagem natural que descreva a informação que deseja extrair e clique em **Gerar Esquema**. A Extração de Informações gera automaticamente um esquema JSON com nomes de campo e definições. Edite estas descrições conforme necessário.

    • Alternativamente, clique em "Ou, definir manualmente" para definir seu esquema manualmente:

      1. Clique em Adicionar campo .
      2. Insira o nome, o tipo e a descrição do campo.
      3. Clique em Confirmar .
      4. Repita o processo para cada campo que deseja extrair.
      5. Clique em Salvar e executar extração .
    • Você também pode clicar em JSON para editar o esquema JSON diretamente. Clique em Aplicar alterações quando terminar.

    Cada vez que seu esquema é atualizado e se clica em Salvar e executar extração , o Information Extraction atualiza o agente de extração, executa a extração e exibe os resultados para cada entrada.

  2. À esquerda, analise o documento analisado e a extração do agente. Itere os resultados da extração de duas formas. Primeiro, forneça feedback em linguagem natural em uma ou mais entradas, o que ajusta automaticamente suas descrições ao pressionar Salvar e executar extração . Segundo, revise manualmente as descrições do esquema, que entram em vigor quando você pressiona **Salvar e executar extração**.

  3. Utilize versões para comparar ou reverter para uma configuração anterior. Clique em Versões e, em seguida, clique em Comparar para comparar a definição do esquema de uma versão anterior com a versão atual. Clique em Restaurar para restaurar uma versão anterior.

o passo 3. Use seu agente de extração

Depois de estar satisfeito com o desempenho do agente, utilize-o para extrair informações.

Clique em **Usar Agente** no canto superior direito. Você pode selecionar:

  • Execução em SQL para usar o agente para extrair informações de todos os seus dados. Isso abre uma consulta SQL que usa ai_extract para extrair informações do seu volume ou tabela usando o esquema definido. Para obter mais informações sobre como usar ai_extract em consultas SQL , consulte a funçãoai_extract.
  • Crie um pipeline declarativo Spark para implantar um pipeline ETL que seja executado em intervalos agendados para invocar seu agente em novos dados. Isso cria o pipeline declarativo LakeFlow Spark que atualiza uma tabela de transmissão com sua extração de dados. Você pode configurar o programador do pipeline para ser executado quando novos dados chegarem. Para obter mais informações sobre o pipeline declarativo LakeFlow Spark , consulte Pipeline declarativo doLakeFlow Spark.

Limitações