PySparkリファレンス

このページでは、Spark 用の Python API である PySpark で利用可能なリファレンスの概要を説明します。PySparkの詳細については、 DatabricksのPySparkを参照してください。

リファレンス	説明
コアクラス	SparkSession および DataFrame の基礎を含む、PySpark SQL を操作するためのメインクラス。
Sparkセッション	PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリポイント。
構成	実行およびオプティマイザー設定を含む、 Spark SQLのRuntime構成オプション。 Databricksでのみ使用可能な構成に関する情報については、「 DatabricksでのSpark構成プロパティの設定」を参照してください。
データフレーム	リレーショナルデータベースのテーブルと同様に、名前付き列に編成されたデータの分散コレクション。
入力/出力	さまざまなファイル形式およびデータソースからデータを読み書きするためのメソッド。
列	変換や式など、DataFrame 列を操作するための操作。
データの種類	PySpark SQL で使用可能なデータ型 (プリミティブ型、複合型、ユーザー定義型など)。
行	DataFrame 内のデータ行を表し、個々のフィールド値へのアクセスを提供します。
関数	データ操作、変換、集計操作のための組み込み関数。
ウィンドウ	現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。
グループ化	データをグループ化し、グループ化されたDataFramesに対して集計操作を実行するためのメソッド。
カタログ	データベース、テーブル、関数、およびその他のカタログメタデータを管理するためのインターフェイス。
AVRO	Apache Avro 形式でのデータの読み取りと書き込みのサポート。
観察	メトリクスを収集し、モニタリングとデバッグのクエリ実行中にDataFrames観察します。
UDF	DataFrame 列にカスタム Python ロジックを適用するためのユーザー定義関数。
UDTF	入力行ごとに複数の行を返すユーザー定義のテーブル関数。
バリアント値	柔軟なスキーマを使用して半構造化データを処理します。動的な型とネストされた構造をサポートします。
protobuf	プロトコルバッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。
Python データソース	外部システムから読み取るカスタムデータソースを実装するためのAPIs 。カスタムデータソースについては、 PySparkカスタムデータソース」を参照してください。
ステートフルプロセッサ	構造化ストリーミングにおける複雑なステートフル操作のために、ストリーミングバッチ全体の状態を管理します。