メインコンテンツまでスキップ
非公開のページ
このページは非公開です。 検索対象外となり、このページのリンクに直接アクセスできるユーザーのみに公開されます。

インテリジェントな文書処理

Intelligent Document Processing (IDP) は、PDF、DOCX ファイル、画像、プレゼンテーションなどの非構造化コンテンツを、下流のエージェント、アプリケーション、アナリティクスを強化する構造化されたエンリッチ データに変換します。

Databricksを使用すると、 ai_parse_documentai_extractai_classifyなどのネイティブに構成可能なAI Functionsを使用して、レイクハウス上にエンドツーエンドの IDP パイプラインを直接構築できます。 これらの研究開発された機能は、高性能な文書処理のために特別に設計されています。すべての処理はUnity Catalog内で実行されるため、本番運用グレードの IDP パイプラインは安全で管理され、フルマネージドが維持されます。

    • ドキュメントの解析
    • PDF、DOCX、画像、PPTファイルを構造化されたテキスト、表、図の説明に変換します。
    • 情報の抽出
    • 定義したスキーマを使用して、ドキュメントまたはプレーンテキストから構造化フィールドを抽出します。
    • コンテンツを分類する
    • 文書やテキストに定義済みのカテゴリを割り当てることができ、最大500個以上のラベルをサポートします。

一般的な使用例

Databricks上のIDPは、幅広い下流アプリケーションを支えています。

  • 検索拡張生成(RAG) :文書を解析および構造化することで、LLMアプリケーションにおけるチャンキング、検索品質、およびグラウンディングを改善します。
  • ナレッジ抽出とアナリティクス : 主要なフィールドとメタデータを抽出して、ドキュメント データの検索、レポート、ビジネス インテリジェンスを可能にします。
  • エージェント主導型ワークフロー :文書のルーティング、分類、および情報拡充を行い、自動的な意思決定とタスク実行を支援します。
  • 文書の理解と分類 :大規模な文書コーパスを種類、トピック、または内容別に整理し、後続の処理に備えます。

仕組み

Databricks 、レイクハウス上で統合されたエンドツーエンドのワークフローとしてインテリジェントなドキュメント処理を可能にします。 データ取り込み、解析、データ拡充、および下流分析は単一のプラットフォーム上に構築されているため、複雑な統合やデータ移動を必要とせずに、各段階がシームレスに連携して動作します。

  1. 取り込みとオーケストレーション

    LakeFlow Spark宣言型パイプラインを使用して、生のドキュメント (PDF、画像、DOCX ファイルなど) を取り込み、パイプラインを調整します。 取り込みとオーケストレーションはレイクハウスとネイティブに統合されているため、追加のインフラストラクチャなしでドキュメントが下流の処理に直接流れます。

  2. 文書の解析(ブロンズレイヤー)

    ai_parse_documentを適用して、生ファイルを構造化された表現に変換します。これにより、テキスト、表/画像の説明、文書構造をキャプチャする標準化されたブロンズ レイヤーが作成され、下流のすべてのユースケースに一貫した基盤が形成されます。

  3. 抽出と分類

    解析済みのドキュメントに構造化フィールドとメタデータを追加するには、 ai_extractai_classifyを使用します。これらの関数は解析された出力に対して直接動作するため、追加の変換ステップなしで重要な情報を抽出し、文書を分類し、ワークフローを通じてそれらをルーティングすることができます。

  4. 分析および運用

    追加のAI Functionsまたはその他のツール ( AI/BIダッシュボード、アプリ、地下鉄検索) を活用して、ダウンストリームのアナリティクス、検索 (RAG)、およびエージェント駆動のワークフローを実現します。 すべてのデータはレイクハウス上に残るため、構造化文書データをすぐに検索やダッシュボード、アプリケーションに利用できます。