ai_extract

AI/LLM を使用して、ドキュメント列から構造化データを抽出します。

対応するDatabricks SQL関数については、ai_extract関数を参照してください。

構文

Python
from pyspark.sql import functions as dbf

dbf.ai_extract(col=<col>, schema=<schema>, options=<options>)

パラメーター	Type	説明
`col`	`pyspark.sql.Column` または `str`	抽出するドキュメントコンテンツを含む列。
`schema`	`dict` または `list`	Pythonの辞書（フィールド名から`{"type": ..., "description": ...}`への）またはフィールド名文字列のリスト。JSONリテラルに自動的にシリアル化されます。
`options`	`dict`、オプション。	抽出動作を制御するオプションのディクショナリ。

パラメーター	Type	説明
`col`	`pyspark.sql.Column` または `str`	抽出するドキュメントコンテンツを含む列。
`schema`	`dict` または `list`	Pythonの辞書（フィールド名から`{"type": ..., "description": ...}`への）またはフィールド名文字列のリスト。JSONリテラルに自動的にシリアル化されます。
`options`	`dict`、オプション。	抽出動作を制御するオプションのディクショナリ。

pyspark.sql.Column抽出されたフィールドを含む VariantType の新しい列。

Python
df.select(ai_extract("text", {"name": {"type": "string", "description": "Name"}}))
df.select(ai_extract("text", ["name", "age"]))