Apache Spark APIのリファレンス
Databricksは、ビッグデータと機械学習の統合分析エンジンであるApache Sparkの上に構築されています。詳細については、「DatabricksにおけるApache Spark」を参照してください。
Apache Spark には、100を超えるオペレーターを含む大規模なデータセットを複数の言語で操作するための データフレーム API があります。
-
Python開発者向けのPySpark API。チュートリアル: Apache Spark データフレーム を使用したデータの読み込みと変換を参照してください。主なクラスは次のとおりです。
- SparkSession - データセットとデータフレームAPIを使用したSparkプログラミング へのエントリポイント。
- データフレーム - 名前付き列にグループ化されたデータの分散コレクション。 データフレーム と データフレーム ベースの MLlib を参照してください。
-
(非推奨)R 開発者向けのSparkR API。主なクラスは次のとおりです。
- SparkSession - SparkSession は SparkR へのエントリ ポイントです。 開始点: SparkSessionを参照してください。
- Sparkデータフレーム - 名前付き列にグループ化されたデータの分散コレクション。 データセットとデータフレーム、データフレームの作成、Sparkデータフレーム の作成を参照してください。
-
Scala開発者向けのScala API 。主なクラスは次のとおりです。
- SparkSession-Spark データセットと を使用したプログラミング へのエントリデータフレームAPI ポイント。開始点: SparkSessionを参照してください。
- データセット - 関数型操作またはリレーショナル操作を使用して並列に変換できる、厳密に型指定されたドメイン固有オブジェクトのコレクション。 各
Dataset
には、Row のDataset
である データフレーム と呼ばれる型指定されていないビューもあります。データセットとデータフレーム、データセットの作成、データフレームの作成、およびデータフレーム関数を参照してください。
-
Java開発者向けのJava API。主なクラスは次のとおりです。
- SparkSession-Spark データセットと を使用したプログラミング へのエントリデータフレームAPI ポイント。開始点: SparkSessionを参照してください。
- データセット - 関数型操作またはリレーショナル操作を使用して並列に変換できる、厳密に型指定されたドメイン固有オブジェクトのコレクション。 各
Dataset
には、Row のDataset
である データフレーム と呼ばれる型指定されていないビューもあります。データセットとデータフレーム、データセットの作成、データフレームの作成、およびデータフレーム関数を参照してください。
DatabricksでApache Spark APIを使用する方法については、以下を参照してください。
- DatabricksでのPySpark
- R開発者のためのDatabricks
- Scala開発者のためのDatabricks
- Java の場合、Java コードを JAR ジョブとして実行できます。