メインコンテンツまでスキップ

ドキュメントの解析

ドキュメント解析は、PDF、画像、Word文書(DOC/DOCX)、PowerPointファイル(PPT/PPTX)など、幅広い種類のドキュメントから構造化データを抽出および視覚化するために、最先端の研究技術を使用しています。テーブル、チャート、テキストと画像の混在コンテンツなど、複雑なレイアウトを処理するように設計されています。

ドキュメント解析はai_parse_document関数に基づいて構築されており、ドキュメントを解析して、フォーマットされたテキストまたは構造化されたJSON出力によってその構造をすぐに検査できるUIが含まれています。

要件

ドキュメントを解析

ドキュメントの解析を使用してドキュメントを解析し、その構造を視覚化します。

  1. ワークスペースの左側のナビゲーションペインにあるエージェントアイコン。 エージェント に移動します。
  2. エージェントの作成 」>「 ドキュメントの解析 」をクリックします。
  3. ソースドキュメントを選択します。ファイルをアップロードするか、既存のUnity Catalogカタログからファイルを選択できます。サポートされている形式には、PDF、画像、DOC/DOCX、PPT/PPTXが含まれます。
  4. ドキュメントを解析 をクリックします。

ドキュメントの解析には数分かかる場合があります。完了すると、「ドキュメントの解析」により、ソースドキュメントが左側に、解析されたドキュメントが右側に表示されます。解析されたドキュメントを フォーマット済み テキストまたは Raw JSON として表示することを選択できます。

ソースと解析済みドキュメントを並べて表示するドキュメント解析UI

クエリ結果の処理

ai_parse_documentクエリを表示してより多くのドキュメントで実行するには、 エージェントを使用 をクリックし、SQLエディターまたはノートブックからクエリを実行するかを選択します。ドキュメントが存在するボリュームまたはテーブルを指すようにクエリを編集できます。

ドキュメントの解析は、SQL 関数 ai_parse_document への UI インターフェイスを提供します。より高度な例と詳細については、ai_parse_document リファレンスページを参照してください。

取得(RAG)のために解析済み出力を準備するには、ai_prep_search(ベータ版)をダウンストリームで使用します。

制限事項

ai_parse_documentの制限事項を参照してください。