PySparkリファレンス
このページでは、Spark 用の Python API である PySpark で利用可能なリファレンスの概要を説明します。PySparkの詳細については、 DatabricksのPySparkを参照してください。
データ型
PySpark データ型の完全なリストについては、 「PySpark データ型」を参照してください。
クラス
データフレーム
リファレンス | 説明 |
|---|---|
変換や式など、DataFrame 列を操作するための操作。 | |
リレーショナル データベースのテーブルと同様に、名前付き列に編成されたデータの分散コレクション。 | |
DataFrame 内の欠損データを処理するための機能。 | |
外部ストレージ システムから DataFrame をロードするために使用されるインターフェイス。 | |
DataFrame を使用した統計関数の機能。 | |
DataFrame を外部ストレージ システムに書き込むために使用されるインターフェイス。 | |
DataFrame を外部ストレージに書き込むために使用されるインターフェース (バージョン 2)。 | |
データをグループ化し、グループ化されたDataFramesに対して集計操作を実行するためのメソッド。 | |
DataFrame 内のデータ行を表し、個々のフィールド値へのアクセスを提供します。 |
カスタムデータソース
リファレンス | 説明 |
|---|---|
外部システムから読み取るカスタム データ ソースを実装するためのAPIs 。 カスタム データ ソースについては、 PySparkカスタム データ ソース」を参照してください。 | |
PyArrow の | |
データソース登録用のラッパー。 | |
データソースリーダーの基本クラス。 | |
PyArrow の | |
ストリーミング データ ソース リーダーの基本クラス。 | |
データ ストリーム ライターの基本クラス。 | |
バッチモードでカスタムデータソースにデータを保存するデータソースライターの基底クラス。 | |
| |
ストリーミングデータソースリーダーを簡素化するための基本クラス。データの読み取りと最新のオフセットの計画を同時に行う。 | |
|
構造化ストリーミング
リファレンス | 説明 |
|---|---|
外部ストレージ システムからストリーミングDataFrameをロードするために使用されるインターフェイス。 | |
DataFrame外部ストレージ システムに書き込むために使用されるインターフェイス。 | |
構造化ストリーミングにおける複雑なステートフル操作のために、ストリーミング バッチ全体の状態を管理します。 | |
新しいデータが到着するたびにバックグラウンドで継続的に実行されるクエリへのハンドル。 | |
ストリーミングクエリのライフサイクルイベントをリッスンするための抽象クラス。 | |
|
ユーザー定義関数
リファレンス | 説明 |
|---|---|
DataFrame 列にカスタム Python ロジックを適用するためのユーザー定義関数。 | |
ユーザー定義関数登録用のラッパー。このインスタンスは | |
入力行ごとに複数の行を返すユーザー定義のテーブル関数。 | |
ユーザー定義テーブル関数登録用のラッパー。このインスタンスは |
その他のコアクラス
リファレンス | 説明 |
|---|---|
データベース、テーブル、関数、およびその他のカタログ メタデータを管理するためのインターフェイス。 | |
Pythonで地理値を表すクラス。 | |
Pythonでジオメトリ値を表すクラス。 | |
メトリクスを収集し、モニタリングとデバッグのクエリ実行中にDataFrames観察します。 | |
PySpark の DataFrame プロット機能のアクセサー。 | |
プロトコル バッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。 | |
実行およびオプティマイザー設定を含む、 Spark SQLのRuntime構成オプション。 Databricksでのみ使用可能な構成に関する情報については、 「 DatabricksでのSpark構成プロパティの設定」を参照してください。 | |
PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリ ポイント。 | |
動的な型とネストされた構造をサポートする柔軟なスキーマを使用して半構造化データを表します。 | |
現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。 | |
現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。 |
機能
利用可能な組み込み関数の完全なリストについては、 「PySpark 関数」を参照してください。