Processamento inteligente de documentos

O Processamento Inteligente de Documentos (IDP) converte conteúdo não estruturado — como PDFs, arquivos DOCX, imagens e apresentações — em dados estruturados e enriquecidos que alimentam agentes, aplicativos e análises subsequentes.

Com o Databricks, você pode construir um pipeline IDP de ponta a ponta diretamente no lakehouse usando AI Functions nativamente componíveis, incluindo ai_parse_document, ai_extract, ai_classify e ai_prep_search (Beta). Essas funções, desenvolvidas por meio de pesquisa, são projetadas especificamente para o processamento de documentos de alto desempenho. Como todo o processamento é executado dentro do Unity Catalog, seu pipeline IDP de nível de produção permanece seguro, controlado e totalmente gerenciado.

- Análise de documentos
- Converta PDFs, DOCX, imagens e PPTs em texto estruturado, tabelas e descrições de figuras.
- extração de informações
- Extraia campos estruturados de documentos ou texto simples usando um esquema definido por você.
- Classificar conteúdo
- Atribua categorias predefinidas a documentos ou textos, com suporte para mais de 500 etiquetas.
- Preparar para recuperação (Beta)
- Transformar documentos analisados em blocos semânticos prontos para indexação de busca vetorial e RAG.

Casos de uso comuns

O IDP no Databricks alimenta uma ampla gama de aplicações downstream:

Geração aumentada por recuperação (RAG) : Analisa e estrutura documentos para melhorar o agrupamento, a qualidade da recuperação e a fundamentação para aplicações de gestão de conhecimento em nível de aprendizagem (LLM).
Extração e análise de conhecimento : Extraia campos- key e metadados para permitir buscas, geração de relatórios e Business Intelligence em dados de documentos.
Fluxo de trabalho orientado por agentes : Direcionar, classificar e enriquecer documentos para apoiar a tomada de decisões automatizada e a execução de tarefas.
Compreensão e classificação de documentos : Organize grandes conjuntos de documentos por tipo, tópico ou conteúdo para processamento posterior.

Como funciona

Databricks permite o processamento inteligente de documentos como um fluxo de trabalho unificado e completo na casa do lago. A ingestão, a análise sintática, o enriquecimento e a análise subsequente são realizados em uma única plataforma, de modo que cada etapa funciona perfeitamente em conjunto, sem exigir integração complexa ou movimentação de dados.

Ingerir e orquestrar

Utilize o pipeline declarativo LakeFlow Spark para ingerir documentos brutos (como PDFs, imagens e arquivos DOCX) e orquestrar seu pipeline. Como a ingestão e a orquestração estão integradas nativamente ao lakehouse, os documentos fluem diretamente para o processamento subsequente sem infraestrutura adicional.
Analisar documentos (Nível Bronze)

Aplique ai_parse_document para converter arquivos brutos em representações estruturadas. Isso cria uma camada padronizada de base que captura texto, descrições de tabelas/imagens e estrutura do documento, formando uma base consistente para todos os casos de uso subsequentes.
Extrair e classificar

Use ai_extract e ai_classify para enriquecer documentos analisados com campos estruturados e metadados. Essas funções operam diretamente nas saídas analisadas, permitindo extrair informações key , classificar documentos e encaminhá-los pelo fluxo de trabalho sem transformações os passos adicionais.
Preparar para recuperação (RAG)

Aplique ai_prep_search (Beta) para transformar documentos analisados em blocos semânticos enriquecidos com contexto de nível de documento, como títulos, cabeçalhos de seção e referências de página. O resultado é formatado para indexação de busca vetorial, fornecendo uma base consistente para cargas de trabalho de RAG (Random Access Groups) e recuperação de dados.
Analisar e operacionalizar

Aproveite AI Functions ou outras ferramentas (painéis de AI/BI , aplicativos, pesquisa de vetores) para análise downstream, recuperação (RAG) e fluxo de trabalho orientado por agente. Como todos os dados permanecem no servidor dedicado, os dados estruturados dos documentos podem ser usados imediatamente para pesquisa, painéis de controle e aplicativos.

Casos de uso comuns​

Como funciona​

Casos de uso comuns

Como funciona