メインコンテンツまでスキップ

PySparkリファレンス

このページでは、Spark 用の Python API である PySpark で利用可能なリファレンスの概要を説明します。PySparkの詳細については、 DatabricksのPySparkを参照してください。

データ型

PySpark データ型の完全なリストについては、 「PySpark データ型」を参照してください。

クラス

リファレンス

説明

AVRO

Apache Avro 形式でのデータの読み取りと書き込みのサポート。

カタログ

データベース、テーブル、関数、およびその他のカタログ メタデータを管理するためのインターフェイス。

変換や式など、DataFrame 列を操作するための操作。

データの種類

PySpark SQL で使用可能なデータ型 (プリミティブ型、複合型、ユーザー定義型など)。

データフレーム

リレーショナル データベースのテーブルと同様に、名前付き列に編成されたデータの分散コレクション。

データフレームNa関数

DataFrame 内の欠損データを処理するための機能。

データフレームリーダー

外部ストレージ システムから DataFrame をロードするために使用されるインターフェイス。

データフレーム統計関数

DataFrame を使用した統計関数の機能。

データフレームライター

DataFrame を外部ストレージ システムに書き込むために使用されるインターフェイス。

データフレームライターV2

DataFrame を外部ストレージに書き込むために使用されるインターフェース (バージョン 2)。

データソース

外部システムから読み取るカスタム データ ソースを実装するためのAPIs 。 カスタム データ ソースについては、 PySparkカスタム データ ソース」を参照してください。

データソース矢印ライター

PyArrow のRecordBatchを使用してデータを処理するデータ ソース ライターの基本クラス。

データソース登録

データソース登録用のラッパー。

データソースリーダー

データソースリーダーの基本クラス。

データソースストリーム矢印ライター

PyArrow のRecordBatchを使用してデータを処理するデータ ストリーム ライターの基本クラス。

データソースストリームリーダー

ストリーミング データ ソース リーダーの基本クラス。

データソースストリームライター

データ ストリーム ライターの基本クラス。

グループ化されたデータ

データをグループ化し、グループ化されたDataFramesに対して集計操作を実行するためのメソッド。

観察

メトリクスを収集し、モニタリングとデバッグのクエリ実行中にDataFrames観察します。

プロットアクセサ

PySpark の DataFrame プロット機能のアクセサー。

protobuf

プロトコル バッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。

DataFrame 内のデータ行を表し、個々のフィールド値へのアクセスを提供します。

ランタイム構成

実行およびオプティマイザー設定を含む、 Spark SQLのRuntime構成オプション。

Databricksでのみ使用可能な構成に関する情報については、 「 DatabricksでのSpark構成プロパティの設定」を参照してください。

SparkSession

PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリ ポイント。

ステートフルプロセッサ

構造化ストリーミングにおける複雑なステートフル操作のために、ストリーミング バッチ全体の状態を管理します。

ユーザー定義関数 (UDF)

DataFrame 列にカスタム Python ロジックを適用するためのユーザー定義関数。

UDF登録

ユーザー定義関数登録用のラッパー。このインスタンスはspark.udfからアクセスできます。

ユーザー定義テーブル関数 (UDTF)

入力行ごとに複数の行を返すユーザー定義のテーブル関数。

UDTFRegistration

ユーザー定義テーブル関数登録用のラッパー。このインスタンスはspark.udtfからアクセスできます。

バリアント値

動的な型とネストされた構造をサポートする柔軟なスキーマを使用して半構造化データを表します。

ウィンドウ

現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。

ウィンドウスペック

現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。

機能

利用可能な組み込み関数の完全なリストについては、 「PySpark 関数」を参照してください。