Spark の Pandas API

この機能は、 Databricks Runtime 10.0 (サポート対象外) 以降を実行するクラスターで使用できます。 Databricks Runtime 9.1 LTS 以下を実行するクラスターの場合は、代わりに Koalas を使用します。

データサイエンティストによって一般的に使用される pandas は、Pythonプログラミング言語用の使いやすいデータ構造とデータ分析ツールを提供するPythonパッケージです。 ただし、pandasは ビッグデータにスケールアウトしません。 Spark 上の Pandas API は、Apache Spark で動作する pandas と同等の APIs を提供することで、このギャップを埋めます。 Spark 上のpandas API は、PySpark DataFrameから直接データをプロットするなど、PySpark では実行が困難な多くのタスクをサポートしているため、Spark 上の Pandas API は、pandas ユーザーだけでなく PySpark ユーザーにも役立ちます。

要件

Spark の Pandas API は、次の import ステートメントを使用して、Apache Spark 3.2 (Databricks Runtime 10.0 (サポート対象外) 以降に含まれています) 以降で使用できます。

import pyspark.pandas as ps

ノートブック

次のノートブックは、Spark でpandasからpandas API に移行する方法を示しています。

Spark ノートブック の pandas to pandas API

ノートブックを新しいタブで開く