Spark の Pandas API
注
この機能は、 Databricks Runtime 10.0 (サポート対象外) 以降を実行するクラスターで使用できます。 Databricks Runtime 9.1 LTS 以下を実行するクラスターの場合は、代わりに Koalas を使用します。
データサイエンティストによって一般的に使用される pandas は、Pythonプログラミング言語用の使いやすいデータ構造とデータ分析ツールを提供するPythonパッケージです。 ただし、pandasは ビッグデータにスケールアウトしません。 Spark 上の Pandas API は、Apache Spark で動作する pandas と同等の APIs を提供することで、このギャップを埋めます。 Spark 上のpandas API は、PySpark DataFrameから直接データをプロットするなど、PySpark では実行が困難な多くのタスクをサポートしているため、Spark 上の Pandas API は、pandas ユーザーだけでなく PySpark ユーザーにも役立ちます。
要件
Spark の Pandas API は、次の import
ステートメントを使用して、Apache Spark 3.2 (Databricks Runtime 10.0 (サポート対象外) 以降に含まれています) 以降で使用できます。
import pyspark.pandas as ps