文書解析

ドキュメント解析は、最先端の研究技術を用いて、PDF、画像、Word文書（DOC/DOCX）、PowerPointファイル（PPT/PPTX）など、幅広い種類のドキュメントから構造化データを抽出し、視覚化します。表、グラフ、テキストと画像が混在するコンテンツなど、複雑なレイアウトを処理できるように設計されています。

ドキュメント解析はai_parse_document関数に基づいて構築されており、ドキュメントを解析し、フォーマットされたテキストまたは構造化されたJSON出力を通じてその構造を即座に検査できるUIが含まれています。

要件

ドキュメントを解析する

ドキュメント解析機能を使用して、ドキュメントを解析し、その構造を視覚化します。

行くワークスペースの左側のナビゲーションペインにある エージェント 。
「エージェントの作成」 > 「ドキュメント解析」 をクリックします。
ソースドキュメントを選択してください。ファイルをアップロードするか、既存のUnity Catalogカタログからファイルを選択できます。対応フォーマットは、PDF、画像、DOC/DOCX、PPT/PPTXです。
「ドキュメントを解析」 をクリックします。

ドキュメントの解析には数分かかる場合があります。ドキュメント解析が完了すると、左側に元のドキュメント、右側に解析済みのドキュメントが表示されます。解析されたドキュメントは、 フォーマット済み テキストまたは 生のJSON として表示できます。

ドキュメント解析UIでは、ソースドキュメントと解析済みドキュメントが並べて表示されます。

処理とクエリ結果

ai_parse_documentクエリを表示して他のドキュメントで実行するには、 [エージェントを使用] をクリックし、SQL エディターまたはノートブックからクエリを実行するかを選択します。クエリを編集して、ドキュメントが格納されているボリュームまたはテーブルを指定できます。

ドキュメント解析は、SQL関数ai_parse_documentへのUIインターフェースを提供します。より高度な例や詳細については、 ai_parse_document参照ページを参照してください。

解析された出力を取得用に準備するには（RAG）、下流でai_prep_search （ベータ）を使用します。

制限事項

ai_parse_document制限事項を参照してください。

要件​

ドキュメントを解析する​

処理とクエリ結果​

制限事項​

要件

ドキュメントを解析する

処理とクエリ結果

制限事項