インテリジェントな文書処理

Intelligent Document Processing (IDP) は、PDF、DOCX ファイル、画像、プレゼンテーションなどの非構造化コンテンツを、下流のエージェント、アプリケーション、アナリティクスを強化する構造化されたエンリッチデータに変換します。

Databricksを使用すると、ネイティブに構成可能なAI Functions ai_parse_document 、 ai_extract 、 ai_classify 、 ai_prep_search (ベータ版) など) を使用して、レイクハウス上にエンドツーエンドの IDP パイプラインを直接構築できます。これらの研究開発された機能は、高性能な文書処理のために特別に設計されています。すべての処理はUnity Catalog内で実行されるため、本番運用グレードの IDP パイプラインは安全で管理され、フルマネージドが維持されます。

- ドキュメントの解析
- PDF、DOCX、画像、PPTファイルを構造化されたテキスト、表、図の説明に変換します。
- 情報の抽出
- 定義したスキーマを使用して、ドキュメントまたはプレーンテキストから構造化フィールドを抽出します。
- コンテンツを分類する
- 文書やテキストに定義済みのカテゴリを割り当てることができ、最大500個以上のラベルをサポートします。
- 回収準備（ベータ版）
- 解析されたドキュメントを、RAGおよびAI検索のインデックス作成に対応できるようセマンティックチャンクに変換します。

一般的な使用例

Databricks上のIDPは、幅広い下流アプリケーションを支えています。

検索拡張生成（RAG） ：文書を解析および構造化することで、LLMアプリケーションにおけるチャンキング、検索品質、およびグラウンディングを改善します。
ナレッジ抽出とアナリティクス : 主要なフィールドとメタデータを抽出して、ドキュメントデータの検索、レポート、ビジネスインテリジェンスを可能にします。
エージェント主導型ワークフロー ：文書のルーティング、分類、および情報拡充を行い、自動的な意思決定とタスク実行を支援します。
文書の理解と分類 ：大規模な文書コーパスを種類、トピック、または内容別に整理し、後続の処理に備えます。

仕組み

Databricks 、レイクハウス上で統合されたエンドツーエンドのワークフローとしてインテリジェントなドキュメント処理を可能にします。データ取り込み、解析、データ拡充、および下流分析は単一のプラットフォーム上に構築されているため、複雑な統合やデータ移動を必要とせずに、各段階がシームレスに連携して動作します。

取り込みとオーケストレーション

LakeFlow Spark宣言型パイプラインを使用して、生のドキュメント (PDF、画像、DOCX ファイルなど) を取り込み、パイプラインを調整します。取り込みとオーケストレーションはレイクハウスとネイティブに統合されているため、追加のインフラストラクチャなしでドキュメントが下流の処理に直接流れます。
文書の解析（ブロンズレイヤー）

ai_parse_documentを適用して、生ファイルを構造化された表現に変換します。これにより、テキスト、表/画像の説明、文書構造をキャプチャする標準化されたブロンズレイヤーが作成され、下流のすべてのユースケースに一貫した基盤が形成されます。
抽出と分類

解析済みのドキュメントに構造化フィールドとメタデータを追加するには、 ai_extractとai_classifyを使用します。これらの関数は解析された出力に対して直接動作するため、追加の変換ステップなしで重要な情報を抽出し、文書を分類し、ワークフローを通じてそれらをルーティングすることができます。
回収準備（RAG）

解析済みドキュメントを、タイトル、セクションヘッダー、ページ参照などのドキュメントレベルのコンテキストで強化されたセマンティックチャンクに変換するには、ai_prep_search（ベータ版）を適用します。出力は AI 検索インデックス作成用にフォーマットされており、RAG および検索ワークロードに一貫した基盤を提供します。
分析および運用

追加のAI Functionsやその他のツール（AI/BIダッシュボード、アプリ、AI検索など）を、ダウンストリームのアナリティクス、検索（RAG）、およびエージェント駆動のワークフローに活用します。すべてのデータはレイクハウス上に残るため、構造化されたドキュメントデータは検索、ダッシュボード、およびアプリケーションにすぐに利用できます。

一般的な使用例​

仕組み​

一般的な使用例

仕組み