Pular para o conteúdo principal

Análise de Documentos

A Análise de Documentos usa técnicas de pesquisa de última geração para extrair e visualizar dados estruturados de uma ampla gama de tipos de documentos, incluindo, mas não se limitando a PDFs, imagens, documentos do Word (DOC/DOCX) e arquivos do PowerPoint (PPT/PPTX). Ele é projetado para lidar com disposições complexas, como tabelas, gráficos e conteúdo misto de texto e imagem.

A Análise de Documentos é construída sobre a função ai_parse_document e inclui uma interface de usuário que permite analisar documentos e inspecionar imediatamente sua estrutura através de texto formatado ou saídas JSON estruturadas.

Requisitos

Analisar documentos

Use a Análise de Documentos para analisar seus documentos e visualizar sua estrutura.

  1. Vá para Ícone de Agentes. **Agentes** no painel de navegação esquerdo do seu workspace.
  2. Clique em Criar Agente > Análise de Documentos .
  3. Selecione seu documento de origem. É possível optar por fazer o upload de um arquivo ou selecionar um de um catálogo existente do Unity Catalog. Formatos compatíveis incluem: PDF, imagens, DOC/DOCX e PPT/PPTX.
  4. Clique em **Analisar documento**.

A análise do seu documento pode levar alguns minutos. Quando concluído, a Análise de Documentos mostra o documento de origem à esquerda e o documento analisado à direita. É possível escolher visualizar o documento analisado como texto Formatado ou JSON Bruto .

Interface do usuário de análise de documentos mostrando documento de origem e analisado lado a lado

Processar e consultar resultados

Para visualizar a consulta ai_parse_document e executá-la em mais documentos, clique em Usar Agente e escolha entre executar a consulta do Editor SQL ou do Notebook. Você pode editar a consulta para apontar para o volume ou tabela em que seus documentos estão.

Análise de documentos fornece uma interface de IU para a função SQL ai_parse_document. Consulte a página de referência ai_parse_document para mais exemplos e detalhes avançados.

Para preparar a saída analisada para recuperação (RAG), use ai_prep_search (Beta) downstream.

Limitações

Consulte limitações deai_parse_document.