メインコンテンツまでスキップ

PySparkリファレンス

このページでは、Spark 用の Python API である PySpark で利用可能なリファレンスの概要を説明します。PySparkの詳細については、 DatabricksのPySparkを参照してください。

データ型

PySpark データ型の完全なリストについては、 「PySpark データ型」を参照してください。

クラス

データフレーム

リファレンス

説明

変換や式など、DataFrame 列を操作するための操作。

データフレーム

リレーショナル データベースのテーブルと同様に、名前付き列に編成されたデータの分散コレクション。

データフレームNa関数

DataFrame 内の欠損データを処理するための機能。

データフレームリーダー

外部ストレージ システムから DataFrame をロードするために使用されるインターフェイス。

データフレーム統計関数

DataFrame を使用した統計関数の機能。

データフレームライター

DataFrame を外部ストレージ システムに書き込むために使用されるインターフェイス。

データフレームライターV2

DataFrame を外部ストレージに書き込むために使用されるインターフェース (バージョン 2)。

グループ化されたデータ

データをグループ化し、グループ化されたDataFramesに対して集計操作を実行するためのメソッド。

DataFrame 内のデータ行を表し、個々のフィールド値へのアクセスを提供します。

カスタムデータソース

リファレンス

説明

データソース

外部システムから読み取るカスタム データ ソースを実装するためのAPIs 。 カスタム データ ソースについては、 PySparkカスタム データ ソース」を参照してください。

データソース矢印ライター

PyArrow のRecordBatchを使用してデータを処理するデータ ソース ライターの基本クラス。

データソース登録

データソース登録用のラッパー。

データソースリーダー

データソースリーダーの基本クラス。

データソースストリーム矢印ライター

PyArrow のRecordBatchを使用してデータを処理するデータ ストリーム ライターの基本クラス。

データソースストリームリーダー

ストリーミング データ ソース リーダーの基本クラス。

データソースストリームライター

データ ストリーム ライターの基本クラス。

データソースライター

バッチモードでカスタムデータソースにデータを保存するデータソースライターの基底クラス。

入力パーティション

DataSourceReaderpartitions()メソッドによって返される入力パーティションを表す基底クラス。

SimpleDataSourceStreamReader

ストリーミングデータソースリーダーを簡素化するための基本クラス。データの読み取りと最新のオフセットの計画を同時に行う。

WriterCommitMessage

DataSourceWriter.writeによって返され、 DataSourceWriter.commitまたはDataSourceWriter.abortの入力問題としてドライバーに送り返されるコミット メッセージ。

構造化ストリーミング

リファレンス

説明

データストリームリーダー

外部ストレージ システムからストリーミングDataFrameをロードするために使用されるインターフェイス。

データストリームライター

DataFrame外部ストレージ システムに書き込むために使用されるインターフェイス。

ステートフルプロセッサ

構造化ストリーミングにおける複雑なステートフル操作のために、ストリーミング バッチ全体の状態を管理します。

ストリーミングクエリ

新しいデータが到着するたびにバックグラウンドで継続的に実行されるクエリへのハンドル。

ストリーミングクエリリスナー

ストリーミングクエリのライフサイクルイベントをリッスンするための抽象クラス。

StreamingQueryManager

SparkSessionに関連付けられているすべてのアクティブなStreamingQueryインスタンスを管理します。

ユーザー定義関数

リファレンス

説明

ユーザー定義関数 (UDF)

DataFrame 列にカスタム Python ロジックを適用するためのユーザー定義関数。

UDF登録

ユーザー定義関数登録用のラッパー。このインスタンスはspark.udfからアクセスできます。

ユーザー定義テーブル関数 (UDTF)

入力行ごとに複数の行を返すユーザー定義のテーブル関数。

UDTFRegistration

ユーザー定義テーブル関数登録用のラッパー。このインスタンスはspark.udtfからアクセスできます。

その他のコアクラス

リファレンス

説明

カタログ

データベース、テーブル、関数、およびその他のカタログ メタデータを管理するためのインターフェイス。

地理

Pythonで地理値を表すクラス。

ジオメトリ

Pythonでジオメトリ値を表すクラス。

観察

メトリクスを収集し、モニタリングとデバッグのクエリ実行中にDataFrames観察します。

プロットアクセサ

PySpark の DataFrame プロット機能のアクセサー。

protobuf

プロトコル バッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。

ランタイム構成

実行およびオプティマイザー設定を含む、 Spark SQLのRuntime構成オプション。

Databricksでのみ使用可能な構成に関する情報については、 「 DatabricksでのSpark構成プロパティの設定」を参照してください。

SparkSession

PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリ ポイント。

バリアント値

動的な型とネストされた構造をサポートする柔軟なスキーマを使用して半構造化データを表します。

ウィンドウ

現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。

ウィンドウスペック

現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。

機能

利用可能な組み込み関数の完全なリストについては、 「PySpark 関数」を参照してください。