メインコンテンツまでスキップ

pandas_api

既存のDataFrameをpandas-on-Spark DataFrameに変換します。

構文

pandas_api(index_col: Optional[Union[str, List[str]]] = None)

パラメーター

パラメーター

Type

説明

index_col

文字列または文字列のリスト(省略可能)

Sparkにおけるテーブルのインデックス列。

戻り値

PandasOnSparkDataFrame

注意

pandas-on-Spark DataFrameをSpark DataFrameに変換し、その後再びpandas-on-Sparkに戻すと、インデックス情報が失われ、元のインデックスが通常の列に変換されます。

これは、Pandasがインストールされ、利用可能な場合にのみ利用できます。

Python
df = spark.createDataFrame(
[(14, "Tom"), (23, "Alice"), (16, "Bob")], ["age", "name"])

df.pandas_api()
# age name
# 0 14 Tom
# 1 23 Alice
# 2 16 Bob

df.pandas_api(index_col="age")
# name
# age
# 14 Tom
# 23 Alice
# 16 Bob