Processamento inteligente de documentos

O Processamento Inteligente de Documentos (IDP) converte conteúdo não estruturado — como PDFs, arquivos DOCX, imagens e apresentações — em dados estruturados e enriquecer dados que impulsionam agentes, aplicativos e analítica downstream.

Com o Databricks, é possível criar pipelines IDP de ponta a ponta diretamente no lakehouse usando AI Functions nativamente combináveis, incluindo ai_parse_document, ai_extract, ai_classify e ai_prep_search (Beta). Essas funções desenvolvidas por pesquisa são desenvolvidas especificamente para processamento de documentos de alto desempenho. Como todo o processamento é executado dentro do Unity Catalog, seus pipelines IDP de nível de produção permanecem seguros, governados e totalmente gerenciados no local.

- Análise de documentos
- Converta PDFs, DOCX, imagens e PPTs em texto estruturado, tabelas e descrições de figuras.
- Extração de informações
- Extraia campos estruturados de documentos ou texto simples usando um esquema que você define.
- Classificar conteúdo
- Atribua categorias predefinidas a documentos ou textos, suportando mais de 500 rótulos.
- Prepare-se para recuperação (Beta)
- Transformar documentos analisados em fragmentos semânticos prontos para RAG e indexação de Pesquisa de AI.

Casos de uso comuns

O IDP na Databricks oferece suporte a uma ampla gama de aplicativos downstream:

Geração aumentada por recuperação (RAG) : Analise e estruture documentos para melhorar a divisão em chunks, a qualidade da recuperação e a fundamentação para aplicações LLM.
**Extração de conhecimento e analítica**: Extraia campos key e metadados para habilitar pesquisa, relatórios e Business Intelligence em dados de documentos.
Fluxos de trabalho controlados por agentes : Encaminhe, classifique e enriqueça documentos para apoiar a tomada de decisões automatizada e a execução de tarefas.
Compreensão e classificação de documentos : Organize grandes corpora de documentos por tipo, tópico ou conteúdo para processamento posterior.

Como funciona

A Databricks possibilita o processamento inteligente de documentos como um fluxo de trabalho unificado e de ponta a ponta no Lakehouse. A ingestão, a análise sintática, o enriquecimento e a análise downstream são construídos em uma única plataforma, para que cada estágio funcione perfeitamente em conjunto, sem exigir integração complexa ou movimentação de dados.

Ingerir e orquestrar

Use LakeFlow Pipelines para ingerir documentos brutos (como PDFs, imagens e arquivos DOCX) e orquestrar seus pipelines. Como a ingestão e a orquestração são nativamente integradas ao Lakehouse, os documentos fluem diretamente para o processamento subsequente sem infraestrutura adicional.
Analisar documentos (camada Bronze)

Aplique ai_parse_document para converter arquivos brutos em representações estruturadas. Isso cria uma camada bronze padronizada que captura texto, descrições de tabelas/imagens e estrutura de documentos, formando uma base consistente para todos os casos de uso posteriores.
Extrair e classificar

Use ai_extract e ai_classify para enriquecer documentos analisados com campos estruturados e metadados. Essas funções operam diretamente nas saídas analisadas, permitindo extrair informação-key, classificar documentos e roteá-los por fluxo de trabalho sem os passos de transformações adicionais.
Prepare-se para recuperação (RAG)

Aplique ai_prep_search (Beta) para transformar documentos analisados em fragmentos semânticos enriquecidos com contexto de nível de documento, como títulos, cabeçalhos de seção e referências de página. A saída é formatada para indexação de Pesquisa de AI, fornecendo uma base consistente para cargas de trabalho de RAG e recuperação.
Analisar e operacionalizar

Utilize AI Functions adicionais ou outras ferramentas (Dashboards de AI/BI, Apps, AI Search) para analítica downstream, recuperação (RAG) e fluxos de trabalho orientados por agentes. Como todos os dados permanecem no Lakehouse, os dados de documentos estruturados podem ser imediatamente usados para pesquisa, dashboards e aplicativos.

Casos de uso comuns​

Como funciona​

Casos de uso comuns

Como funciona