メインコンテンツまでスキップ

クロスタブ( DataFrame )

指定された列のペアごとの度数テーブルを計算します。 分割表とも呼ばれます。各行の最初の列はcol1の異なる値となり、列名はcol2の異なる値となります。最初の列の名前は$col1_$col2になります。出現回数がゼロのペアについては、カウントがゼロになります。DataFrame.crosstabDataFrameStatFunctions.crosstabはエイリアスです。

構文

crosstab(col1: str, col2: str)

パラメーター

パラメーター

Type

説明

col1

str

最初の列の名前。異なるアイテムは、各行の最初のアイテムになります。

col2

str

2列目の名前。異なる項目がDataFrameの列名になります。

戻り値

DataFrame2列の頻度行列。

Python
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+
このページの見出し