Pular para o conteúdo principal

corr

Retorna uma nova coluna para o coeficiente de correlação de Pearson para col1 e col2.

Sintaxe

Python
from pyspark.sql import functions as sf

sf.corr(col1, col2)

Parâmetros

Parâmetro

Tipo

Descrição

col1

pyspark.sql.Column ou nome da coluna

Primeira coluna para calcular a correlação.

col2

pyspark.sql.Column ou nome da coluna

Segunda coluna para calcular a correlação.

Devoluções

pyspark.sql.ColumnCoeficiente de correlação de Pearson entre os valores dessas duas colunas.

Exemplos

Python
from pyspark.sql import functions as sf
a = range(20)
b = [2 * x for x in range(20)]
df = spark.createDataFrame(zip(a, b), ["a", "b"])
df.agg(sf.corr("a", df.b)).show()
Output
+----------+
|corr(a, b)|
+----------+
| 1.0|
+----------+