文書解析
ドキュメント解析は、最先端の研究技術を用いて、PDF、画像、Word文書(DOC/DOCX)、PowerPointファイル(PPT/PPTX)など、幅広い種類のドキュメントから構造化データを抽出し、視覚化します。表、グラフ、テキストと画像が混在するコンテンツなど、複雑なレイアウトを処理できるように設計されています。
ドキュメント解析はai_parse_document関数に基づいて構築されており、ドキュメントを解析し、フォーマットされたテキストまたは構造化されたJSON出力を通じてその構造を即座に検査できるUIが含まれています。
要件
ドキュメントを解析する
ドキュメント解析機能を使用して、ドキュメントを解析し、その構造を視覚化します。
- 行く
ワークスペースの左側のナビゲーションペインにある エージェント 。
- 「エージェントの作成」 > 「ドキュメント解析」 をクリックします。
- ソースドキュメントを選択してください。ファイルをアップロードするか、既存のUnity Catalogカタログからファイルを選択できます。 対応フォーマットは、PDF、画像、DOC/DOCX、PPT/PPTXです。
- 「ドキュメントを解析」 をクリックします。
ドキュメントの解析には数分かかる場合があります。ドキュメント解析が完了すると、左側に元のドキュメント、右側に解析済みのドキュメントが表示されます。 解析されたドキュメントは、 フォーマット済み テキストまたは 生のJSON として表示できます。

処理とクエリ結果
ai_parse_documentクエリを表示して他のドキュメントで実行するには、 [エージェントを使用] をクリックし、SQL エディターまたはノートブックからクエリを実行するかを選択します。クエリを編集して、ドキュメントが格納されているボリュームまたはテーブルを指定できます。
ドキュメント解析は、SQL関数ai_parse_documentへのUIインターフェースを提供します。より高度な例や詳細については、 ai_parse_document参照ページを参照してください。
制限事項
ai_parse_document制限事項を参照してください。