PySparkリファレンス

このページでは、Spark 用の Python API である PySpark で利用可能なリファレンスの概要を説明します。PySparkの詳細については、 DatabricksのPySparkを参照してください。

データ型

PySpark データ型の完全なリストについては、「PySpark データ型」を参照してください。

クラス

リファレンス	説明
AVRO	Apache Avro 形式でのデータの読み取りと書き込みのサポート。
カタログ	データベース、テーブル、関数、およびその他のカタログメタデータを管理するためのインターフェイス。
列	変換や式など、DataFrame 列を操作するための操作。
データの種類	PySpark SQL で使用可能なデータ型 (プリミティブ型、複合型、ユーザー定義型など)。
データフレーム	リレーショナルデータベースのテーブルと同様に、名前付き列に編成されたデータの分散コレクション。
データフレームNa関数	DataFrame 内の欠損データを処理するための機能。
データフレームリーダー	外部ストレージシステムから DataFrame をロードするために使用されるインターフェイス。
データフレーム統計関数	DataFrame を使用した統計関数の機能。
データフレームライター	DataFrame を外部ストレージシステムに書き込むために使用されるインターフェイス。
データフレームライターV2	DataFrame を外部ストレージに書き込むために使用されるインターフェース (バージョン 2)。
データソース	外部システムから読み取るカスタムデータソースを実装するためのAPIs 。カスタムデータソースについては、 PySparkカスタムデータソース」を参照してください。
データソース矢印ライター	PyArrow の`RecordBatch`を使用してデータを処理するデータソースライターの基本クラス。
データソース登録	データソース登録用のラッパー。
データソースリーダー	データソースリーダーの基本クラス。
データソースストリーム矢印ライター	PyArrow の`RecordBatch`を使用してデータを処理するデータストリームライターの基本クラス。
データソースストリームリーダー	ストリーミングデータソースリーダーの基本クラス。
データソースストリームライター	データストリームライターの基本クラス。
グループ化されたデータ	データをグループ化し、グループ化されたDataFramesに対して集計操作を実行するためのメソッド。
観察	メトリクスを収集し、モニタリングとデバッグのクエリ実行中にDataFrames観察します。
プロットアクセサ	PySpark の DataFrame プロット機能のアクセサー。
protobuf	プロトコルバッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。
行	DataFrame 内のデータ行を表し、個々のフィールド値へのアクセスを提供します。
ランタイム構成	実行およびオプティマイザー設定を含む、 Spark SQLのRuntime構成オプション。 Databricksでのみ使用可能な構成に関する情報については、「 DatabricksでのSpark構成プロパティの設定」を参照してください。
SparkSession	PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリポイント。
ステートフルプロセッサ	構造化ストリーミングにおける複雑なステートフル操作のために、ストリーミングバッチ全体の状態を管理します。
ユーザー定義関数 (UDF)	DataFrame 列にカスタム Python ロジックを適用するためのユーザー定義関数。
UDF登録	ユーザー定義関数登録用のラッパー。このインスタンスは`spark.udf`からアクセスできます。
ユーザー定義テーブル関数 (UDTF)	入力行ごとに複数の行を返すユーザー定義のテーブル関数。
UDTFRegistration	ユーザー定義テーブル関数登録用のラッパー。このインスタンスは`spark.udtf`からアクセスできます。
バリアント値	動的な型とネストされた構造をサポートする柔軟なスキーマを使用して半構造化データを表します。
ウィンドウ	現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。
ウィンドウスペック	現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。

機能

利用可能な組み込み関数の完全なリストについては、「PySpark 関数」を参照してください。

データ型​

クラス​

機能​

データ型

クラス

機能