Processamento inteligente de documentos
O Processamento Inteligente de Documentos (IDP) converte conteúdo não estruturado — como PDFs, arquivos DOCX, imagens e apresentações — em dados estruturados e enriquecer dados que impulsionam agentes, aplicativos e analítica downstream.
Com o Databricks, é possível criar pipelines IDP de ponta a ponta diretamente no lakehouse usando AI Functions nativamente combináveis, incluindo ai_parse_document, ai_extract, ai_classify e ai_prep_search (Beta). Essas funções desenvolvidas por pesquisa são desenvolvidas especificamente para processamento de documentos de alto desempenho. Como todo o processamento é executado dentro do Unity Catalog, seus pipelines IDP de nível de produção permanecem seguros, governados e totalmente gerenciados no local.
-
- Análise de documentos
- Converta PDFs, DOCX, imagens e PPTs em texto estruturado, tabelas e descrições de figuras.
-
- Extração de informações
- Extraia campos estruturados de documentos ou texto simples usando um esquema que você define.
-
- Classificar conteúdo
- Atribua categorias predefinidas a documentos ou textos, suportando mais de 500 rótulos.
-
- Prepare-se para recuperação (Beta)
- Transformar documentos analisados em fragmentos semânticos prontos para RAG e indexação de Pesquisa de AI.
Casos de uso comuns
O IDP na Databricks oferece suporte a uma ampla gama de aplicativos downstream:
- Geração aumentada por recuperação (RAG) : Analise e estruture documentos para melhorar a divisão em chunks, a qualidade da recuperação e a fundamentação para aplicações LLM.
- **Extração de conhecimento e analítica**: Extraia campos key e metadados para habilitar pesquisa, relatórios e Business Intelligence em dados de documentos.
- Fluxos de trabalho controlados por agentes : Encaminhe, classifique e enriqueça documentos para apoiar a tomada de decisões automatizada e a execução de tarefas.
- Compreensão e classificação de documentos : Organize grandes corpora de documentos por tipo, tópico ou conteúdo para processamento posterior.
Como funciona
A Databricks possibilita o processamento inteligente de documentos como um fluxo de trabalho unificado e de ponta a ponta no Lakehouse. A ingestão, a análise sintática, o enriquecimento e a análise downstream são construídos em uma única plataforma, para que cada estágio funcione perfeitamente em conjunto, sem exigir integração complexa ou movimentação de dados.
-
Ingerir e orquestrar
Use Lakeflow Spark Declarative Pipelines para ingerir documentos brutos (como PDFs, imagens e arquivos DOCX) e orquestrar seus pipelines. Como a ingestão e a orquestração são nativamente integradas ao Lakehouse, os documentos fluem diretamente para o processamento downstream sem infraestrutura adicional.
-
Analisar documentos (camada Bronze)
Aplique
ai_parse_documentpara converter arquivos brutos em representações estruturadas. Isso cria uma camada bronze padronizada que captura texto, descrições de tabelas/imagens e estrutura de documentos, formando uma base consistente para todos os casos de uso posteriores. -
Extrair e classificar
Use
ai_extracteai_classifypara enriquecer documentos analisados com campos estruturados e metadados. Essas funções operam diretamente nas saídas analisadas, permitindo extrair informação-key, classificar documentos e roteá-los por fluxo de trabalho sem os passos de transformações adicionais. -
Prepare-se para recuperação (RAG)
Aplique
ai_prep_search(Beta) para transformar documentos analisados em fragmentos semânticos enriquecidos com contexto de nível de documento, como títulos, cabeçalhos de seção e referências de página. A saída é formatada para indexação de Pesquisa de AI, fornecendo uma base consistente para cargas de trabalho de RAG e recuperação. -
Analisar e operacionalizar
Utilize AI Functions adicionais ou outras ferramentas (Dashboards de AI/BI, Apps, AI Search) para analítica downstream, recuperação (RAG) e fluxos de trabalho orientados por agentes. Como todos os dados permanecem no Lakehouse, os dados de documentos estruturados podem ser imediatamente usados para pesquisa, dashboards e aplicativos.