メインコンテンツまでスキップ

ai_parse_document

バイナリ データ (blob) を含む列を解析し、VariantType を返します。入力 BLOB が無効な場合は例外をスローします。

構文

Python
from pyspark.sql import functions as dbf

dbf.ai_parse_document(col=<col>, options=<options>)

パラメーター

パラメーター

Type

説明

col

pyspark.sql.Column またはバイナリデータ

解析するバイナリ BLOB を含む列または列名。

options

dictオプション

解析動作を制御するオプションの辞書。

戻り値

pyspark.sql.Column:ドキュメントの解析結果を含むVariantTypeの新しい列です。結果には、pagesおよびelements配列を持つdocumentオブジェクト、ならびにerror_statusおよびmetadataが含まれています。各要素は、解析されたドキュメント内の個別のコンテンツ単位を表します。例えば、テキストの段落、表、図、またはレイアウトマーカーなどです。返されるvariantの正確なJSON階層については、ai_parse_document SQL言語マニュアルで完全なスキーマを参照してください。

関連リソース