ai_classify
Classifica o conteúdo do documento em um dos rótulos fornecidos usando AI/LLM.
Para a função correspondente do Databricks SQL, consulte funçãoai_classify.
Sintaxe
from pyspark.sql import functions as dbf
dbf.ai_classify(col=<col>, labels=<labels>, options=<options>)
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
|
| Uma coluna que contém o conteúdo do documento para classificar. |
|
| Um conjunto literal de rótulos (lista Python de strings de rótulo ou dicionário que mapeia nomes de rótulos para descrições, serializado para um literal JSON automaticamente) ou uma expressão de coluna cujo valor por linha é um array JSON de strings de rótulo ou um objeto JSON que mapeia nomes de rótulos para descrições. |
|
| Um dicionário de opções para controlar o comportamento da classificação. |
Devolve
pyspark.sql.Column: Uma nova coluna contendo o resultado da classificação.
O comportamento padrão é classificação de rótulo único. Para habilitar a classificação de múltiplos rótulos e ver o conjunto completo de opções compatíveis, consulte o manual da linguagem SQL.
Exemplos
# Static labels (same set for every row)
df.select(ai_classify("text", ["positive", "negative", "neutral"]))
df.select(ai_classify("text", {"positive": "Happy tone", "negative": "Unhappy tone"}))
# Per-row labels (a column whose value is a JSON array or JSON object string)
df.select(ai_classify("text", col("labels_json")))