PySparkリファレンス
このページでは、Spark 用の Python API である PySpark で利用可能なリファレンスの概要を説明します。PySparkの詳細については、 DatabricksのPySparkを参照してください。
データ型
PySpark データ型の完全なリストについては、 「PySpark データ型」を参照してください。
クラス
リファレンス | 説明 |
|---|---|
Apache Avro 形式でのデータの読み取りと書き込みのサポート。 | |
データベース、テーブル、関数、およびその他のカタログ メタデータを管理するためのインターフェイス。 | |
変換や式など、DataFrame 列を操作するための操作。 | |
PySpark SQL で使用可能なデータ型 (プリミティブ型、複合型、ユーザー定義型など)。 | |
リレーショナル データベースのテーブルと同様に、名前付き列に編成されたデータの分散コレクション。 | |
DataFrame 内の欠損データを処理するための機能。 | |
外部ストレージ システムから DataFrame をロードするために使用されるインターフェイス。 | |
DataFrame を使用した統計関数の機能。 | |
DataFrame を外部ストレージ システムに書き込むために使用されるインターフェイス。 | |
DataFrame を外部ストレージに書き込むために使用されるインターフェース (バージョン 2)。 | |
外部システムから読み取るカスタム データ ソースを実装するためのAPIs 。 カスタム データ ソースについては、 PySparkカスタム データ ソース」を参照してください。 | |
PyArrow の | |
データソース登録用のラッパー。 | |
データソースリーダーの基本クラス。 | |
PyArrow の | |
ストリーミング データ ソース リーダーの基本クラス。 | |
データ ストリーム ライターの基本クラス。 | |
データをグループ化し、グループ化されたDataFramesに対して集計操作を実行するためのメソッド。 | |
メトリクスを収集し、モニタリングとデバッグのクエリ実行中にDataFrames観察します。 | |
PySpark の DataFrame プロット機能のアクセサー。 | |
プロトコル バッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。 | |
DataFrame 内のデータ行を表し、個々のフィールド値へのアクセスを提供します。 | |
実行およびオプティマイザー設定を含む、 Spark SQLのRuntime構成オプション。 Databricksでのみ使用可能な構成に関する情報については、 「 DatabricksでのSpark構成プロパティの設定」を参照してください。 | |
PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリ ポイント。 | |
構造化ストリーミングにおける複雑なステートフル操作のために、ストリーミング バッチ全体の状態を管理します。 | |
DataFrame 列にカスタム Python ロジックを適用するためのユーザー定義関数。 | |
ユーザー定義関数登録用のラッパー。このインスタンスは | |
入力行ごとに複数の行を返すユーザー定義のテーブル関数。 | |
ユーザー定義テーブル関数登録用のラッパー。このインスタンスは | |
動的な型とネストされた構造をサポートする柔軟なスキーマを使用して半構造化データを表します。 | |
現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。 | |
現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。 |
機能
利用可能な組み込み関数の完全なリストについては、 「PySpark 関数」を参照してください。