メインコンテンツまでスキップ

コル

col1 と col2 のピアソン相関係数の新しい列を返します。

構文

Python
from pyspark.sql import functions as sf

sf.corr(col1, col2)

パラメーター

パラメーター

Type

説明

col1

pyspark.sql.Column または列名

相関関係を計算する最初の列。

col2

pyspark.sql.Column または列名

相関関係を計算する 2 番目の列。

戻り値

pyspark.sql.Column: これら 2 つの列の値のピアソン相関係数。

Python
from pyspark.sql import functions as sf
a = range(20)
b = [2 * x for x in range(20)]
df = spark.createDataFrame(zip(a, b), ["a", "b"])
df.agg(sf.corr("a", df.b)).show()
Output
+----------+
|corr(a, b)|
+----------+
| 1.0|
+----------+