メインコンテンツまでスキップ

PySparkリファレンス

このページでは、Spark 用の Python API である PySpark で利用可能なリファレンスの概要を説明します。PySparkの詳細については、 DatabricksのPySparkを参照してください。

データ型

PySpark データ型の完全なリストについては、「PySpark データ型」を参照してください。

クラス

データフレーム

リファレンス	説明
列	変換や式など、DataFrame 列を操作するための操作。
データフレーム	リレーショナルデータベースのテーブルと同様に、名前付き列に編成されたデータの分散コレクション。
データフレームNa関数	DataFrame 内の欠損データを処理するための機能。
データフレームリーダー	外部ストレージシステムから DataFrame をロードするために使用されるインターフェイス。
データフレーム統計関数	DataFrame を使用した統計関数の機能。
データフレームライター	DataFrame を外部ストレージシステムに書き込むために使用されるインターフェイス。
データフレームライターV2	DataFrame を外部ストレージに書き込むために使用されるインターフェース (バージョン 2)。
グループ化されたデータ	データをグループ化し、グループ化されたDataFramesに対して集計操作を実行するためのメソッド。
行	DataFrame 内のデータ行を表し、個々のフィールド値へのアクセスを提供します。

カスタムデータソース

リファレンス	説明
データソース	外部システムから読み取るカスタムデータソースを実装するためのAPIs 。カスタムデータソースについては、 PySparkカスタムデータソース」を参照してください。
データソース矢印ライター	PyArrow の`RecordBatch`を使用してデータを処理するデータソースライターの基本クラス。
データソース登録	データソース登録用のラッパー。
データソースリーダー	データソースリーダーの基本クラス。
データソースストリーム矢印ライター	PyArrow の`RecordBatch`を使用してデータを処理するデータストリームライターの基本クラス。
データソースストリームリーダー	ストリーミングデータソースリーダーの基本クラス。
データソースストリームライター	データストリームライターの基本クラス。
データソースライター	バッチモードでカスタムデータソースにデータを保存するデータソースライターの基底クラス。
入力パーティション	`DataSourceReader`の`partitions()`メソッドによって返される入力パーティションを表す基底クラス。
SimpleDataSourceStreamReader	ストリーミングデータソースリーダーを簡素化するための基本クラス。データの読み取りと最新のオフセットの計画を同時に行う。
WriterCommitMessage	`DataSourceWriter.write`によって返され、 `DataSourceWriter.commit`または`DataSourceWriter.abort`の入力問題としてドライバーに送り返されるコミットメッセージ。

構造化ストリーミング

リファレンス	説明
データストリームリーダー	外部ストレージシステムからストリーミングDataFrameをロードするために使用されるインターフェイス。
データストリームライター	DataFrame外部ストレージシステムに書き込むために使用されるインターフェイス。
ステートフルプロセッサ	構造化ストリーミングにおける複雑なステートフル操作のために、ストリーミングバッチ全体の状態を管理します。
ストリーミングクエリ	新しいデータが到着するたびにバックグラウンドで継続的に実行されるクエリへのハンドル。
ストリーミングクエリリスナー	ストリーミングクエリのライフサイクルイベントをリッスンするための抽象クラス。
StreamingQueryManager	`SparkSession`に関連付けられているすべてのアクティブな`StreamingQuery`インスタンスを管理します。

ユーザー定義関数

リファレンス	説明
ユーザー定義関数 (UDF)	DataFrame 列にカスタム Python ロジックを適用するためのユーザー定義関数。
UDF登録	ユーザー定義関数登録用のラッパー。このインスタンスは`spark.udf`からアクセスできます。
ユーザー定義テーブル関数 (UDTF)	入力行ごとに複数の行を返すユーザー定義のテーブル関数。
UDTFRegistration	ユーザー定義テーブル関数登録用のラッパー。このインスタンスは`spark.udtf`からアクセスできます。

その他のコアクラス

リファレンス	説明
カタログ	データベース、テーブル、関数、およびその他のカタログメタデータを管理するためのインターフェイス。
地理	Pythonで地理値を表すクラス。
ジオメトリ	Pythonでジオメトリ値を表すクラス。
観察	メトリクスを収集し、モニタリングとデバッグのクエリ実行中にDataFrames観察します。
プロットアクセサ	PySpark の DataFrame プロット機能のアクセサー。
protobuf	プロトコルバッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。
ランタイム構成	実行およびオプティマイザー設定を含む、 Spark SQLのRuntime構成オプション。 Databricksでのみ使用可能な構成に関する情報については、「 DatabricksでのSpark構成プロパティの設定」を参照してください。
SparkSession	PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリポイント。
バリアント値	動的な型とネストされた構造をサポートする柔軟なスキーマを使用して半構造化データを表します。
ウィンドウ	現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。
ウィンドウスペック	現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。

機能

利用可能な組み込み関数の完全なリストについては、「PySpark 関数」を参照してください。

このページの見出し

データ型
クラス
機能