Pandas API on Spark
注
この機能は、 Databricks Runtime 10.0 (EoS) 以降を実行するクラスターで使用できます。 Databricks Runtime 9.1 LTS 以下を実行するクラスターの場合は、代わりに Koalas を使用します。
データサイエンティストによって一般的に使用される pandas は、Pythonプログラミング言語用の使いやすいデータ構造とデータ分析ツールを提供するPythonパッケージです。 ただし、pandasは ビッグデータにスケールアウトしません。 Pandas API on Spark は、Apache Spark で動作する pandas と同等の API を提供することで、このギャップを埋めます。 Pandas API on Spark は、PySpark DataFrameから直接データをプロットするなど、PySpark では実行が困難な多くのタスクをサポートしているため、Pandas API on Spark は、pandas ユーザーだけでなく PySpark ユーザーにも役立ちます。
要件
Spark 上の Pandas API は、Apache Spark 3.2 以降 ( Databricks Runtime 10.0 (EoS) 以降に含まれています) では、次の import
ステートメントを使用して使用できます。
import pyspark.pandas as ps