インテリジェントなドキュメント処理
インテリジェントドキュメント処理(IDP)は、PDF、DOCXファイル、画像、プレゼンテーションなどの非構造化コンテンツを、ダウンストリームのエージェント、アプリケーション、アナリティクスを強化する構造化されたエンリッチデータに変換します。
Databricksを使用すると、ai_parse_document、ai_extract、ai_classify、ai_prep_search(ベータ版)など、ネイティブに構成可能なAI Functionsを使用して、レイクハウス上でエンドツーエンドのIDPパイプラインを直接構築できます。これらの研究開発された関数は、高性能ドキュメント処理専用に構築されています。すべての処理がUnity Catalog内で実行されるため、本番運用対応のIDPパイプラインは、安全に、ガバナンスが確保された状態で、かつフルマネージドで維持されます。
-
- ドキュメントの解析
- PDF、DOCX、画像、PPTを構造化されたテキスト、表、図の説明に変換します。
-
- 情報の抽出
- 定義するスキーマを使用して、ドキュメントまたはプレーンテキストから構造化されたフィールドを抽出します。
-
- コンテンツの分類
- ドキュメントやテキストに事前に定義されたカテゴリを割り当て、最大500以上のラベルをサポートします。
-
- 検索の準備(ベータ)
- 解析されたドキュメントを、RAGおよびAIサーチインデックス作成に対応したセマンティックチャンクに変換します。
一般的なユースケース
Databricks の IDP は、幅広いダウンストリーム アプリケーションを強化します:
- 検索拡張生成 (RAG) :チャンキング、検索品質、LLMアプリケーションのグラウンディングを改善するために、ドキュメントを解析し、構造化します。
- ナレッジ抽出とアナリティクス :ドキュメントデータに対する検索、レポート、ビジネスインテリジェンスを可能にするために、主要なフィールドとメタデータを抽出します。
- Agent-driven workflows :ドキュメントをルーティング、分類、拡充して、自動化された意思決定とタスクの実行を支援します。
- **文書の理解と分類**:後続の処理のために、種類、トピック、または内容別に大規模なドキュメントコーパスを整理します。
仕組み
Databricksは、レイクハウス上でインテリジェントなドキュメント処理を統合されたエンドツーエンドのワークフローとして実現します。取り込み、解析、エンリッチメント、およびダウンストリーム分析は単一のプラットフォーム上に構築されているため、各ステージは複雑な統合やデータ移動を必要とせずにシームレスに連携します。
-
取り込みとオーケストレーション
Lakeflow Spark宣言型パイプラインを使用して、生ドキュメント(PDF、画像、DOCXファイルなど)を取り込み、パイプラインをオーケストレーションします。取り込みとオーケストレーションがレイクハウスにネイティブに統合されているため、ドキュメントは追加のインフラストラクチャなしで下流の処理に直接流れます。
-
ドキュメントの解析(ブロンズレイヤー)
生ファイルを構造化表現に変換するために
ai_parse_documentを適用します。これにより、テキスト、テーブル/画像の説明、およびドキュメント構造をキャプチャする標準化されたブロンズレイヤーが作成され、すべてのダウンストリームユースケースに対して一貫した基盤が形成されます。 -
抽出と分類
ai_extractとai_classifyを使用して、解析済みドキュメントを構造化フィールドとメタデータで強化します。これらの関数は解析された出力に直接作用し、追加の変換ステップなしで、主要な情報を抽出し、ドキュメントを分類し、ワークフローを介してルーティングすることを可能にします。 -
検索のための準備 (RAG)
解析されたドキュメントを、タイトル、セクションヘッダー、ページ参照などのドキュメントレベルのコンテキストで強化されたセマンティックチャンクに変換するために、
ai_prep_search(ベータ版)を適用します。出力は AI Search のインデックス作成用にフォーマットされており、RAG および検索ワークロード向けの一貫した基盤を提供します。 -
分析および運用
下流のアナリティクス、検索 (RAG)、エージェント主導のワークフローには、追加のAI Functionsやその他のツール(AI/BIダッシュボード、アプリ、AI検索)を活用できます。すべてのデータがレイクハウス上にあるため、構造化されたドキュメントデータは、検索、ダッシュボード、およびアプリケーションに即座に利用できます。