ドキュメントの解析

ドキュメント解析は、PDF、画像、Word文書（DOC/DOCX）、PowerPointファイル（PPT/PPTX）など、幅広い種類のドキュメントから構造化データを抽出および視覚化するために、最先端の研究技術を使用しています。テーブル、チャート、テキストと画像の混在コンテンツなど、複雑なレイアウトを処理するように設計されています。

ドキュメント解析はai_parse_document関数に基づいて構築されており、ドキュメントを解析して、フォーマットされたテキストまたは構造化されたJSON出力によってその構造をすぐに検査できるUIが含まれています。

要件

以下を含むワークスペースです。
- サーバレスコンピュートが有効になっていること。サーバレスコンピュートの要件を参照してください。
- Unity Catalogが有効です。「Unity Catalog のワークスペースを有効にする」を参照してください。
- ゼロ以外の予算を持つサーバレス利用ポリシーへのアクセス。
この機能は一部のリージョンでのみ利用可能です。AI 機能の利用可能性を参照してください。
- ai_parse_document 機能は、強化されたセキュリティとコンプライアンスアドオンが適用されたワークスペースでもご利用いただけます。

ドキュメントを解析

ドキュメントの解析を使用してドキュメントを解析し、その構造を視覚化します。

ワークスペースの左側のナビゲーションペインにある エージェント に移動します。
「 エージェントの作成 」＞「 ドキュメントの解析 」をクリックします。
ソースドキュメントを選択します。ファイルをアップロードするか、既存のUnity Catalogカタログからファイルを選択できます。サポートされている形式には、PDF、画像、DOC/DOCX、PPT/PPTXが含まれます。
ドキュメントを解析 をクリックします。

ドキュメントの解析には数分かかる場合があります。完了すると、「ドキュメントの解析」により、ソースドキュメントが左側に、解析されたドキュメントが右側に表示されます。解析されたドキュメントを フォーマット済み テキストまたは Raw JSON として表示することを選択できます。

ソースと解析済みドキュメントを並べて表示するドキュメント解析UI

クエリ結果の処理

ai_parse_documentクエリを表示してより多くのドキュメントで実行するには、 エージェントを使用 をクリックし、SQLエディターまたはノートブックからクエリを実行するかを選択します。ドキュメントが存在するボリュームまたはテーブルを指すようにクエリを編集できます。

ドキュメントの解析は、SQL 関数 ai_parse_document への UI インターフェイスを提供します。より高度な例と詳細については、ai_parse_document リファレンスページを参照してください。

取得（RAG）のために解析済み出力を準備するには、ai_prep_search（ベータ版）をダウンストリームで使用します。

制限事項

ai_parse_documentの制限事項を参照してください。

要件​

ドキュメントを解析​

クエリ結果の処理​

制限事項​

要件

ドキュメントを解析

クエリ結果の処理

制限事項