Apache Spark APIのリファレンス

Databricks 、ビッグデータと機械学習用のunified analyticsエンジンであるApache Spark上に構築されています。詳細については、 Apache Spark概要」を参照してください。

Apache Spark には、100を超えるオペレーターを含む大規模なデータセットを複数の言語で操作するためのデータフレーム API があります。

Python開発者向けのPySpark API。チュートリアル: Apache Spark データフレームを使用したデータの読み込みと変換を参照してください。主なクラスは次のとおりです。
- SparkSession - データセットとデータフレームAPIを使用したSparkプログラミングへのエントリポイント。
- データフレーム - 名前付き列にグループ化されたデータの分散コレクション。データフレームとデータフレームベースの MLlib を参照してください。
(非推奨)R 開発者向けのSparkR API。主なクラスは次のとおりです。
- SparkSession - SparkSession は SparkR へのエントリポイントです。開始点: SparkSessionを参照してください。
- Sparkデータフレーム - 名前付き列にグループ化されたデータの分散コレクション。データセットとデータフレーム、データフレームの作成、Sparkデータフレームの作成を参照してください。
Scala開発者向けのScala API 。主なクラスは次のとおりです。
- SparkSession-Spark データセットとを使用したプログラミングへのエントリデータフレームAPI ポイント。開始点: SparkSessionを参照してください。
- データセット - 関数型操作またはリレーショナル操作を使用して並列に変換できる、厳密に型指定されたドメイン固有オブジェクトのコレクション。各Datasetには、Row のDatasetであるデータフレームと呼ばれる型指定されていないビューもあります。データセットとデータフレーム、データセットの作成、データフレームの作成、およびデータフレーム関数を参照してください。
Java開発者向けのJava API。主なクラスは次のとおりです。
- SparkSession-Spark データセットとを使用したプログラミングへのエントリデータフレームAPI ポイント。開始点: SparkSessionを参照してください。
- データセット - 関数型操作またはリレーショナル操作を使用して並列に変換できる、厳密に型指定されたドメイン固有オブジェクトのコレクション。各Datasetには、Row のDatasetであるデータフレームと呼ばれる型指定されていないビューもあります。データセットとデータフレーム、データセットの作成、データフレームの作成、およびデータフレーム関数を参照してください。

DatabricksでApache Spark APIを使用する方法については、以下を参照してください。

DatabricksでのPySpark
R開発者のためのDatabricks
Scala開発者のためのDatabricks
Java の場合、Java コードを JAR ジョブとして実行できます。