Spark 上の Pandas API
注記
この機能は、 10.0 (EoS)Databricks Runtime以上で実行されるクラスターで使用できます。Databricks Runtime9.1LTS 以下Koalas 実行するクラスターの場合は、代わりに を使用します。
データサイエンティストによって一般的に使用される pandas は、Pythonプログラミング言語用の使いやすいデータ構造とデータ分析ツールを提供するPythonパッケージです。 ただし、pandasは ビッグデータにスケールアウトしません。 Pandas API on Spark は、Apache Spark で動作する pandas と同等の API を提供することで、このギャップを埋めます。 Pandas API on Spark は、PySpark データフレームから直接データをプロットするなど、PySpark では実行が困難な多くのタスクをサポートしているため、Pandas API on Spark は、pandas ユーザーだけでなく PySpark ユーザーにも役立ちます。
必要条件
Spark 上の Pandas API は、Apache Spark 3.2 以降 ( Databricks Runtime 10.0 (EoS) 以降に含まれています) では、次の import
ステートメントを使用して使用できます。
Python
import pyspark.pandas as ps
ノートブック
次のノートブックは、pandas から pandas API on Spark に移行する方法を示しています。