メインコンテンツまでスキップ

PySparkリファレンス

このページでは、Spark 用の Python API である PySpark で利用可能なリファレンスの概要を説明します。PySparkの詳細については、 DatabricksのPySparkを参照してください。

リファレンス

説明

コアクラス

SparkSession および DataFrame の基礎を含む、PySpark SQL を操作するためのメイン クラス。

Sparkセッション

PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリ ポイント。

構成

実行およびオプティマイザー設定を含む、 Spark SQLのRuntime構成オプション。

Databricksでのみ使用可能な構成に関する情報については、 「 DatabricksでのSpark構成プロパティの設定」を参照してください。

データフレーム

リレーショナル データベースのテーブルと同様に、名前付き列に編成されたデータの分散コレクション。

入力/出力

さまざまなファイル形式およびデータソースからデータを読み書きするためのメソッド。

変換や式など、DataFrame 列を操作するための操作。

データの種類

PySpark SQL で使用可能なデータ型 (プリミティブ型、複合型、ユーザー定義型など)。

DataFrame 内のデータ行を表し、個々のフィールド値へのアクセスを提供します。

関数

データ操作、変換、集計操作のための組み込み関数。

ウィンドウ

現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。

グループ化

データをグループ化し、グループ化されたDataFramesに対して集計操作を実行するためのメソッド。

カタログ

データベース、テーブル、関数、およびその他のカタログ メタデータを管理するためのインターフェイス。

AVRO

Apache Avro 形式でのデータの読み取りと書き込みのサポート。

観察

メトリクスを収集し、モニタリングとデバッグのクエリ実行中にDataFrames観察します。

UDF

DataFrame 列にカスタム Python ロジックを適用するためのユーザー定義関数。

UDTF

入力行ごとに複数の行を返すユーザー定義のテーブル関数。

バリアント値

柔軟なスキーマを使用して半構造化データを処理します。動的な型とネストされた構造をサポートします。

protobuf

プロトコル バッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。

Python データソース

外部システムから読み取るカスタム データ ソースを実装するためのAPIs 。 カスタム データ ソースについては、 PySparkカスタム データ ソース」を参照してください。

ステートフルプロセッサ

構造化ストリーミングにおける複雑なステートフル操作のために、ストリーミング バッチ全体の状態を管理します。