Extração de informações
Visualização
Este recurso está em versão prévia pública e está em conformidade com a HIPAA.
Esta página aborda a nova versão da Extração de informação. Para informações sobre a versão anterior, consulte Usar extração de informação (legado)
Extração de Informações transforma documentos e textos não estruturados em percepções-chave e estruturadas usando um esquema definido. Isso possibilita o uso de informações incorporadas em texto não estruturado, PDFs, imagens ou tabelas diretamente para análise, relatórios ou agentes e aplicativos downstream.
Exemplos de Extração de informações incluem:
- Extraindo partes e termos legais de contratos.
- Extraindo itens e condições de pagamento de faturas.
- Extraindo informações key de prontuários e anotações médicas.
A Extração de Informações é desenvolvida com base na função de IA ai_extract. Extração de Informações possui uma UI visual para personalizar e otimizar a função com um esquema de extração definido.
A Extração de Informações usa armazenamento default para armazenar transformações temporárias de dados, pontos de verificação de modelo e metadados internos que impulsionam cada agente. Ao excluir um agente, o Databricks remove todos os dados associados ao agente do armazenamento default.
Requisitos
Criar agente de extração de informações
Vá para Agentes no painel de navegação à esquerda do seu workspace. Clique em Criar Agente > Extração de informações .
o passo 1. Selecione os dados dos quais extrair informações
-
Na página **Começar com seus dados**, selecione os arquivos ou dados dos quais você deseja extrair informações. Você pode fazer qualquer um dos seguintes:
- Arraste e solte um ou mais arquivos na área de upload, ou clique para procurar e fazer upload de arquivos.
- Clique em Select volume para selecionar um volume do Unity Catalog com tipos de arquivo compatíveis.
- Clique em Selecionar tabela para selecionar uma tabela do Unity Catalog que contém dados de texto.
-
Se selecionar uma tabela, selecione a coluna que contém os dados dos quais extrair. Selecione uma coluna com um tipo suportado, como STRING ou VARIANT, antes de continuar. Se a tabela não tiver colunas compatíveis, selecione uma tabela diferente.
-
Clique em **Criar agente**. Este botão é habilitado somente após a seleção de uma fonte de dados válida e, para uma tabela, uma coluna compatível.
o passo 2. Configure e refine seu esquema de extração
Após o processamento da extração de informações, configure e refine quais dados você deseja extrair de seus documentos.
-
Em Configuração, defina seu esquema de extração. Existem várias maneiras de fazer isso:
-
Insira linguagem natural que descreva a informação que deseja extrair e clique em **Gerar Esquema**. A Extração de Informações gera automaticamente um esquema JSON com nomes de campo e definições. Edite estas descrições conforme necessário.
-
Alternativamente, clique em "Ou, definir manualmente" para definir seu esquema manualmente:
- Clique em Adicionar campo .
- Insira o nome, o tipo e a descrição do campo.
- Clique em Confirmar .
- Repita o processo para cada campo que deseja extrair.
- Clique em Salvar e executar extração .
-
Você também pode clicar em JSON para editar o esquema JSON diretamente. Clique em Aplicar alterações quando terminar.
Cada vez que seu esquema é atualizado e se clica em Salvar e executar extração , o Information Extraction atualiza o agente de extração, executa a extração e exibe os resultados para cada entrada.
-
-
À esquerda, analise o documento analisado e a extração do agente. Itere os resultados da extração de duas formas. Primeiro, forneça feedback em linguagem natural em uma ou mais entradas, o que ajusta automaticamente suas descrições ao pressionar Salvar e executar extração . Segundo, revise manualmente as descrições do esquema, que entram em vigor quando você pressiona **Salvar e executar extração**.
-
Utilize versões para comparar ou reverter para uma configuração anterior. Clique em Versões e, em seguida, clique em Comparar para comparar a definição do esquema de uma versão anterior com a versão atual. Clique em Restaurar para restaurar uma versão anterior.
o passo 3. Use seu agente de extração
Depois de estar satisfeito com o desempenho do agente, utilize-o para extrair informações.
Clique em **Usar Agente** no canto superior direito. Você pode selecionar:
- Execução em SQL para usar o agente para extrair informações de todos os seus dados. Isso abre uma consulta SQL que usa
ai_extractpara extrair informações do seu volume ou tabela usando o esquema definido. Para obter mais informações sobre como usarai_extractem consultas SQL , consulte a funçãoai_extract. - Crie um pipeline declarativo Spark para implantar um pipeline ETL que seja executado em intervalos agendados para invocar seu agente em novos dados. Isso cria o pipeline declarativo LakeFlow Spark que atualiza uma tabela de transmissão com sua extração de dados. Você pode configurar o programador do pipeline para ser executado quando novos dados chegarem. Para obter mais informações sobre o pipeline declarativo LakeFlow Spark , consulte Pipeline declarativo doLakeFlow Spark.
Limitações
- Ver Limitações