Pandas API on Spark

この機能は、 Databricks Runtime 10.0 (サポート対象外) 以降を実行するクラスターで使用できます。 Databricks Runtime 9.1 LTS 以下を実行するクラスターの場合は、代わりに Koalas を使用します。

データサイエンティストによって一般的に使用される pandas は、Pythonプログラミング言語用の使いやすいデータ構造とデータ分析ツールを提供するPythonパッケージです。 ただし、pandasは ビッグデータにスケールアウトしません。 Pandas API on Spark は、Apache Spark で動作する pandas と同等の API を提供することで、このギャップを埋めます。 Pandas API on Spark は、PySpark DataFrameから直接データをプロットするなど、PySpark では実行が困難な多くのタスクをサポートしているため、Pandas API on Spark は、pandas ユーザーだけでなく PySpark ユーザーにも役立ちます。

要件

Pandas API on Spark は、次の import ステートメントを使用して、Apache Spark 3.2 (Databricks Runtime 10.0 (サポート対象外) 以降に含まれています) 以降で使用できます。

import pyspark.pandas as ps

ノートブック

次のノートブックは、pandas から pandas API on Spark に移行する方法を示しています。

pandas から pandas API on Spark のノートブック

ノートブックを新しいタブで開く