Spark 上の Pandas API

注記

この機能は、Databricks Runtime 10.0以降を実行しているクラスターで利用可能です。Databricks Runtime 9.1 LTS以前のバージョンを実行しているクラスターの場合は、代わりにKoalasを使用してください。

データサイエンティストによって一般的に使用される pandas は、Pythonプログラミング言語用の使いやすいデータ構造とデータ分析ツールを提供するPythonパッケージです。ただし、pandasはビッグデータにスケールアウトしません。 Pandas API on Spark は、Apache Spark で動作する pandas と同等の API を提供することで、このギャップを埋めます。 Pandas API on Spark は、PySpark データフレームから直接データをプロットするなど、PySpark では実行が困難な多くのタスクをサポートしているため、Pandas API on Spark は、pandas ユーザーだけでなく PySpark ユーザーにも役立ちます。

必要条件

Spark 上の Pandas API は、Apache Spark 3.2 (Databricks Runtime 10.0 以降に含まれています) 以降で、次のimportステートメントを使用することで利用できます。

Python
import pyspark.pandas as ps

ノートブック

次のノートブックは、pandas から pandas API on Spark に移行する方法を示しています。

PandasからPandas API on Sparkへの移行ノートブック

ノートブックを新しいタブで開く Open in Databricks

必要条件​

ノートブック​

PandasからPandas API on Sparkへの移行ノートブック

その他のリソース​

必要条件

ノートブック

その他のリソース