freqItems ( DataFrame )

列に頻繁に出現する項目を見つける（誤検出の可能性あり）。「 https://doi.org/10.1145/762471.762473 」で説明されている頻出要素カウントアルゴリズムを使用して、「Karp、Schenker、およびPapadimitriouによって提案された」。 DataFrame.freqItemsとDataFrameStatFunctions.freqItemsは別名です。

構文

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

パラメーター

パラメーター	Type	説明
`cols`	リストまたはタプル	頻繁に出現する項目を計算する対象となる列の名前を、文字列のリストまたはタプルとして指定します。
`support`	float、オプション	ある項目を「頻繁」とみなす頻度。デフォルト値は1%です。サポート値は1e-4より大きくなければならない。

パラメーター	Type	説明
`cols`	リストまたはタプル	頻繁に出現する項目を計算する対象となる列の名前を、文字列のリストまたはタプルとして指定します。
`support`	float、オプション	ある項目を「頻繁」とみなす頻度。デフォルト値は1%です。サポート値は1e-4より大きくなければならない。

戻り値

DataFrame: 頻繁に出現するアイテムを含むDataFrame 。

注意

この関数は探索的データ分析を目的としており、結果として得られるDataFrameのスキーマの後方互換性については保証しません。

例

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

構文​

パラメーター​

戻り値​

注意​

例​

構文

パラメーター

戻り値

注意

例