Apache Spark APIsの参照
DatabricksApache Sparkunified analyticsは、ビッグデータと機械学習の エンジンである の上に構築されています。詳細については、「Apache Spark Databricks」を参照してください。
Apache Spark には、100を超えるオペレーターを含む大規模なデータセットを複数の言語で操作するための データフレーム APIs があります。
-
PySparkAPIsPython開発者向け の 。「チュートリアル: Apache Spark データフレーム を使用したデータの読み込みと変換」を参照してください。主なクラスは次のとおりです。
- SparkSession-Spark データセットと を使用したプログラミング へのエントリデータフレームAPI ポイント。
- データフレーム - 名前付き列にグループ化されたデータの分散コレクション。 データフレーム と データフレーム ベースの MLlib を参照してください。
-
(非推奨)R 開発者向けのSparkR APIs。主なクラスは次のとおりです。
- SparkSession - SparkSession は SparkR へのエントリ ポイントです。 開始点: SparkSessionを参照してください。
- Sparkデータフレーム - 名前付き列にグループ化されたデータの分散コレクション。 データセットとデータフレーム、データフレームの作成、Sparkデータフレーム の作成を参照してください。
-
ScalaAPIsScala開発者向け の 。主なクラスは次のとおりです。
- SparkSession-Spark データセットと を使用したプログラミング へのエントリデータフレームAPI ポイント。開始点: SparkSessionを参照してください。
- データセット - 関数型操作またはリレーショナル操作を使用して並列に変換できる、厳密に型指定されたドメイン固有オブジェクトのコレクション。 各
Dataset
には、Row のDataset
である データフレーム と呼ばれる型指定されていないビューもあります。データセットとデータフレーム、データセットの作成、データフレームの作成、およびデータフレーム関数を参照してください。
-
JavaAPIsJava開発者向け の 。主なクラスは次のとおりです。
- SparkSession-Spark データセットと を使用したプログラミング へのエントリデータフレームAPI ポイント。開始点: SparkSessionを参照してください。
- データセット - 関数型操作またはリレーショナル操作を使用して並列に変換できる、厳密に型指定されたドメイン固有オブジェクトのコレクション。 各
Dataset
には、Row のDataset
である データフレーム と呼ばれる型指定されていないビューもあります。データセットとデータフレーム、データセットの作成、データフレームの作成、およびデータフレーム関数を参照してください。
Apache SparkAPIsでDatabricks を使用する方法については、以下を参照してください。
- DatabricksでのPySpark
- R開発者のためのDatabricks
- Scala開発者のためのDatabricks
- Java の場合、Java コードを JAR ジョブとして実行できます。