Pular para o conteúdo principal
Página não listada
Esta página não está listada. Mecanismos de busca não armazenarão nenhuma informação, e somente usuários que possuam o link direto poderão acessá-la

Processamento inteligente de documentos

O Processamento Inteligente de Documentos (IDP) converte conteúdo não estruturado — como PDFs, arquivos DOCX, imagens e apresentações — em dados estruturados e enriquecidos que alimentam agentes, aplicativos e análises subsequentes.

Com o Databricks, você pode construir um pipeline IDP de ponta a ponta diretamente no lakehouse usando AI Functions nativamente componíveis, incluindo ai_parse_document, ai_extract e ai_classify. Essas funções, desenvolvidas por meio de pesquisa, são projetadas especificamente para o processamento de documentos de alto desempenho. Como todo o processamento é executado dentro do Unity Catalog, seu pipeline IDP de nível de produção permanece seguro, controlado e totalmente gerenciado.

    • Análise de documentos
    • Converta PDFs, DOCX, imagens e PPTs em texto estruturado, tabelas e descrições de figuras.
    • Classificar conteúdo
    • Atribua categorias predefinidas a documentos ou textos, com suporte para mais de 500 etiquetas.

Casos de uso comuns

O IDP no Databricks alimenta uma ampla gama de aplicações downstream:

  • Geração aumentada por recuperação (RAG) : Analisa e estrutura documentos para melhorar o agrupamento, a qualidade da recuperação e a fundamentação para aplicações de gestão de conhecimento em nível de aprendizagem (LLM).
  • Extração e análise de conhecimento : Extraia campos- key e metadados para permitir buscas, geração de relatórios e Business Intelligence em dados de documentos.
  • Fluxo de trabalho orientado por agentes : Direcionar, classificar e enriquecer documentos para apoiar a tomada de decisões automatizada e a execução de tarefas.
  • Compreensão e classificação de documentos : Organize grandes conjuntos de documentos por tipo, tópico ou conteúdo para processamento posterior.

Como funciona

Databricks permite o processamento inteligente de documentos como um fluxo de trabalho unificado e completo na casa do lago. A ingestão, a análise sintática, o enriquecimento e a análise subsequente são realizados em uma única plataforma, de modo que cada etapa funciona perfeitamente em conjunto, sem exigir integração complexa ou movimentação de dados.

  1. Ingerir e orquestrar

    Utilize o pipeline declarativo LakeFlow Spark para ingerir documentos brutos (como PDFs, imagens e arquivos DOCX) e orquestrar seu pipeline. Como a ingestão e a orquestração estão integradas nativamente ao lakehouse, os documentos fluem diretamente para o processamento subsequente sem infraestrutura adicional.

  2. Analisar documentos (Nível Bronze)

    Aplique ai_parse_document para converter arquivos brutos em representações estruturadas. Isso cria uma camada padronizada de base que captura texto, descrições de tabelas/imagens e estrutura do documento, formando uma base consistente para todos os casos de uso subsequentes.

  3. Extrair e classificar

    Use ai_extract e ai_classify para enriquecer documentos analisados com campos estruturados e metadados. Essas funções operam diretamente nas saídas analisadas, permitindo extrair informações key , classificar documentos e encaminhá-los pelo fluxo de trabalho sem transformações os passos adicionais.

  4. Analisar e operacionalizar

    Aproveite AI Functions ou outras ferramentas (painéis de AI/BI , aplicativos, pesquisa de vetores) para análise downstream, recuperação (RAG) e fluxo de trabalho orientado por agente. Como todos os dados permanecem no servidor dedicado, os dados estruturados dos documentos podem ser usados imediatamente para pesquisa, painéis de controle e aplicativos.