PySparkリファレンス
このページでは、Spark 用の Python API である PySpark で利用可能なリファレンスの概要を説明します。PySparkの詳細については、 DatabricksのPySparkを参照してください。
リファレンス | 説明 |
|---|---|
SparkSession および DataFrame の基礎を含む、PySpark SQL を操作するためのメイン クラス。 | |
PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリ ポイント。 | |
実行およびオプティマイザー設定を含む、 Spark SQLのRuntime構成オプション。 Databricksでのみ使用可能な構成に関する情報については、 「 DatabricksでのSpark構成プロパティの設定」を参照してください。 | |
リレーショナル データベースのテーブルと同様に、名前付き列に編成されたデータの分散コレクション。 | |
さまざまなファイル形式およびデータソースからデータを読み書きするためのメソッド。 | |
変換や式など、DataFrame 列を操作するための操作。 | |
PySpark SQL で使用可能なデータ型 (プリミティブ型、複合型、ユーザー定義型など)。 | |
DataFrame 内のデータ行を表し、個々のフィールド値へのアクセスを提供します。 | |
関数。 | データ操作、変換、集計操作のための組み込み関数。 |
現在の行に関連するテーブル行のセットにわたって計算を実行するためのウィンドウ関数。 | |
データをグループ化し、グループ化されたDataFramesに対して集計操作を実行するためのメソッド。 | |
データベース、テーブル、関数、およびその他のカタログ メタデータを管理するためのインターフェイス。 | |
Apache Avro 形式でのデータの読み取りと書き込みのサポート。 | |
メトリクスを収集し、モニタリングとデバッグのクエリ実行中にDataFrames観察します。 | |
DataFrame 列にカスタム Python ロジックを適用するためのユーザー定義関数。 | |
入力行ごとに複数の行を返すユーザー定義のテーブル関数。 | |
柔軟なスキーマを使用して半構造化データを処理します。動的な型とネストされた構造をサポートします。 | |
プロトコル バッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。 | |
外部システムから読み取るカスタム データ ソースを実装するためのAPIs 。 カスタム データ ソースについては、 PySparkカスタム データ ソース」を参照してください。 | |
構造化ストリーミングにおける複雑なステートフル操作のために、ストリーミング バッチ全体の状態を管理します。 |