corr
Retorna uma nova coluna para o coeficiente de correlação de Pearson para col1 e col2.
Sintaxe
Python
from pyspark.sql import functions as sf
sf.corr(col1, col2)
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
|
| Primeira coluna para calcular a correlação. |
|
| Segunda coluna para calcular a correlação. |
Devoluções
pyspark.sql.ColumnCoeficiente de correlação de Pearson entre os valores dessas duas colunas.
Exemplos
Python
from pyspark.sql import functions as sf
a = range(20)
b = [2 * x for x in range(20)]
df = spark.createDataFrame(zip(a, b), ["a", "b"])
df.agg(sf.corr("a", df.b)).show()
Output
+----------+
|corr(a, b)|
+----------+
| 1.0|
+----------+