メインコンテンツまでスキップ

ai_parse_document

バイナリ データ (blob) を含む列を解析し、VariantType を返します。入力 BLOB が無効な場合は例外をスローします。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.ai_parse_document(col=<col>, options=<options>)

パラメーター

パラメーター

Type

説明

col

pyspark.sql.Column またはバイナリデータ

解析するバイナリ BLOB を含む列または列名。

options

dictオプション

解析動作を制御するオプションの辞書。

戻り値

pyspark.sql.Column: ドキュメント解析結果を含む VariantType の新しい列。結果には、 pagesおよびelements配列を含むdocumentオブジェクトと、 error_statusおよびmetadata含まれます。各要素は、テキスト段落、表、図、レイアウト マーカーなど、解析されたドキュメント内の個別のコンテンツ単位を表します。完全な出力スキーマと要素の詳細については、 ai_parse_document を参照してください。