ドキュメントの解析
ドキュメント解析は、PDF、画像、Word文書(DOC/DOCX)、PowerPointファイル(PPT/PPTX)など、幅広い種類のドキュメントから構造化データを抽出および視覚化するために、最先端の研究技術を使用しています。テーブル、チャート、テキストと画像の混在コンテンツなど、複雑なレイアウトを処理するように設計されています。
ドキュメント解析はai_parse_document関数に基づいて構築されており、ドキュメントを解析して、フォーマットされたテキストまたは構造化されたJSON出力によってその構造をすぐに検査できるUIが含まれています。
要件
-
以下を含むワークスペースです。
- サーバレス コンピュートが有効になっていること。 サーバレス コンピュートの要件を参照してください。
- Unity Catalogが有効です。「Unity Catalog のワークスペースを有効にする」を参照してください。
- ゼロ以外の予算を持つサーバレス利用ポリシーへのアクセス。
-
この機能は一部のリージョンでのみ利用可能です。AI 機能の利用可能性を参照してください。
ai_parse_document機能は、強化されたセキュリティとコンプライアンス アドオンが適用されたワークスペースでもご利用いただけます。
ドキュメントを解析
ドキュメントの解析を使用してドキュメントを解析し、その構造を視覚化します。
- ワークスペースの左側のナビゲーションペインにある
エージェント に移動します。
- 「 エージェントの作成 」>「 ドキュメントの解析 」をクリックします。
- ソースドキュメントを選択します。ファイルをアップロードするか、既存のUnity Catalogカタログからファイルを選択できます。サポートされている形式には、PDF、画像、DOC/DOCX、PPT/PPTXが含まれます。
- ドキュメントを解析 をクリックします。
ドキュメントの解析には数分かかる場合があります。完了すると、「ドキュメントの解析」により、ソースドキュメントが左側に、解析されたドキュメントが右側に表示されます。解析されたドキュメントを フォーマット済み テキストまたは Raw JSON として表示することを選択できます。

クエリ結果の処理
ai_parse_documentクエリを表示してより多くのドキュメントで実行するには、 エージェントを使用 をクリックし、SQLエディターまたはノートブックからクエリを実行するかを選択します。ドキュメントが存在するボリュームまたはテーブルを指すようにクエリを編集できます。
ドキュメントの解析は、SQL 関数 ai_parse_document への UI インターフェイスを提供します。より高度な例と詳細については、ai_parse_document リファレンスページを参照してください。
取得(RAG)のために解析済み出力を準備するには、ai_prep_search(ベータ版)をダウンストリームで使用します。
制限事項
ai_parse_documentの制限事項を参照してください。