メインコンテンツまでスキップ

freqItems (DataFrameStatFunctions)

列ごとに頻繁に出現する項目を検出しますが、誤検出が含まれる可能性があります。Karp、Schenker、およびPapadimitriouによって記述された頻出要素数カウントアルゴリズムを使用します。DataFrame.freqItemsDataFrameStatFunctions.freqItemsは互いの別名です。

構文

freqItems(cols, support=None)

パラメーター

パラメーター

Type

説明

cols

リストまたはタプル

頻繁に出現する項目を計算する対象となる列の名前。

support

float、オプション

ある項目を頻繁に目にする頻度。デフォルト値は1%(0.01)です。1e-4より大きい値でなければなりません。

戻り値

DataFrame

注意

この方法は、探索的データ分析を目的としています。結果として得られるDataFrameのスキーマには、後方互換性の保証はありません。

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+