クロス集計（データフレーム統計関数）

コンピュートとは、与えられた列のペアワイズ度数表、または分割表とも呼ばれるものです。各行の最初の列にはcol1の異なる値が含まれており、列名はcol2の異なる値です。最初の列の名前は$col1_$col2です。出現回数のないペアは、カウントがゼロとなります。DataFrame.crosstabとDataFrameStatFunctions.crosstabは互いの別名です。

構文

crosstab(col1, col2)

パラメーター

パラメーター	Type	説明
`col1`	str	最初の列の名前。各行の最初の列は、それぞれ異なる項目で構成されています。
`col2`	str	2列目の名前。結果として得られる`DataFrame`の列名は、異なる項目で構成されます。

パラメーター	Type	説明
`col1`	str	最初の列の名前。各行の最初の列は、それぞれ異なる項目で構成されています。
`col2`	str	2列目の名前。結果として得られる`DataFrame`の列名は、異なる項目で構成されます。

戻り値

DataFrame

例

Python
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.stat.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+

構文​

パラメーター​

戻り値​

例​

構文

パラメーター

戻り値

例