Pular para o conteúdo principal

Processamento inteligente de documentos

O Processamento Inteligente de Documentos (IDP) converte conteúdo não estruturado — como PDFs, arquivos DOCX, imagens e apresentações — em dados estruturados e enriquecer dados que impulsionam agentes, aplicativos e analítica downstream.

Com o Databricks, é possível criar pipelines IDP de ponta a ponta diretamente no lakehouse usando AI Functions nativamente combináveis, incluindo ai_parse_document, ai_extract, ai_classify e ai_prep_search (Beta). Essas funções desenvolvidas por pesquisa são desenvolvidas especificamente para processamento de documentos de alto desempenho. Como todo o processamento é executado dentro do Unity Catalog, seus pipelines IDP de nível de produção permanecem seguros, governados e totalmente gerenciados no local.

Casos de uso comuns

O IDP na Databricks oferece suporte a uma ampla gama de aplicativos downstream:

  • Geração aumentada por recuperação (RAG) : Analise e estruture documentos para melhorar a divisão em chunks, a qualidade da recuperação e a fundamentação para aplicações LLM.
  • **Extração de conhecimento e analítica**: Extraia campos key e metadados para habilitar pesquisa, relatórios e Business Intelligence em dados de documentos.
  • Fluxos de trabalho controlados por agentes : Encaminhe, classifique e enriqueça documentos para apoiar a tomada de decisões automatizada e a execução de tarefas.
  • Compreensão e classificação de documentos : Organize grandes corpora de documentos por tipo, tópico ou conteúdo para processamento posterior.

Como funciona

A Databricks possibilita o processamento inteligente de documentos como um fluxo de trabalho unificado e de ponta a ponta no Lakehouse. A ingestão, a análise sintática, o enriquecimento e a análise downstream são construídos em uma única plataforma, para que cada estágio funcione perfeitamente em conjunto, sem exigir integração complexa ou movimentação de dados.

  1. Ingerir e orquestrar

    Use Lakeflow Spark Declarative Pipelines para ingerir documentos brutos (como PDFs, imagens e arquivos DOCX) e orquestrar seus pipelines. Como a ingestão e a orquestração são nativamente integradas ao Lakehouse, os documentos fluem diretamente para o processamento downstream sem infraestrutura adicional.

  2. Analisar documentos (camada Bronze)

    Aplique ai_parse_document para converter arquivos brutos em representações estruturadas. Isso cria uma camada bronze padronizada que captura texto, descrições de tabelas/imagens e estrutura de documentos, formando uma base consistente para todos os casos de uso posteriores.

  3. Extrair e classificar

    Use ai_extract e ai_classify para enriquecer documentos analisados com campos estruturados e metadados. Essas funções operam diretamente nas saídas analisadas, permitindo extrair informação-key, classificar documentos e roteá-los por fluxo de trabalho sem os passos de transformações adicionais.

  4. Prepare-se para recuperação (RAG)

    Aplique ai_prep_search (Beta) para transformar documentos analisados em fragmentos semânticos enriquecidos com contexto de nível de documento, como títulos, cabeçalhos de seção e referências de página. A saída é formatada para indexação de Pesquisa de AI, fornecendo uma base consistente para cargas de trabalho de RAG e recuperação.

  5. Analisar e operacionalizar

    Utilize AI Functions adicionais ou outras ferramentas (Dashboards de AI/BI, Apps, AI Search) para analítica downstream, recuperação (RAG) e fluxos de trabalho orientados por agentes. Como todos os dados permanecem no Lakehouse, os dados de documentos estruturados podem ser imediatamente usados para pesquisa, dashboards e aplicativos.