メインコンテンツまでスキップ
非公開のページ
このページは非公開です。 検索対象外となり、このページのリンクに直接アクセスできるユーザーのみに公開されます。

文書解析

ドキュメント解析は、最先端の研究技術を用いて、PDF、画像、Word文書(DOC/DOCX)、PowerPointファイル(PPT/PPTX)など、幅広い種類のドキュメントから構造化データを抽出し、視覚化します。表、グラフ、テキストと画像が混在するコンテンツなど、複雑なレイアウトを処理できるように設計されています。

ドキュメント解析はai_parse_document関数に基づいて構築されており、ドキュメントを解析し、フォーマットされたテキストまたは構造化されたJSON出力を通じてその構造を即座に検査できるUIが含まれています。

要件

ドキュメントを解析する

ドキュメント解析機能を使用して、ドキュメントを解析し、その構造を視覚化します。

  1. 行くエージェントのアイコン。ワークスペースの左側のナビゲーションペインにある エージェント
  2. 「エージェントの作成」 > 「ドキュメント解析」 をクリックします。
  3. ソースドキュメントを選択してください。ファイルをアップロードするか、既存のUnity Catalogカタログからファイルを選択できます。 対応フォーマットは、PDF、画像、DOC/DOCX、PPT/PPTXです。
  4. 「ドキュメントを解析」 をクリックします。

ドキュメントの解析には数分かかる場合があります。ドキュメント解析が完了すると、左側に元のドキュメント、右側に解析済みのドキュメントが表示されます。 解析されたドキュメントは、 フォーマット済み テキストまたは 生のJSON として表示できます。

ドキュメント解析UIでは、ソースドキュメントと解析済みドキュメントが並べて表示されます。

処理とクエリ結果

ai_parse_documentクエリを表示して他のドキュメントで実行するには、 [エージェントを使用] をクリックし、SQL エディターまたはノートブックからクエリを実行するかを選択します。クエリを編集して、ドキュメントが格納されているボリュームまたはテーブルを指定できます。

ドキュメント解析は、SQL関数ai_parse_documentへのUIインターフェースを提供します。より高度な例や詳細については、 ai_parse_document参照ページを参照してください。

制限事項

ai_parse_document制限事項を参照してください。