Apache Spark APIsの参照
DatabricksApache Sparkunified analyticsは、ビッグデータと機械学習の エンジンである の上に構築されています。詳細については、「Apache Spark Databricks」を参照してください。
Apache Spark には、100を超えるオペレーターを含む大規模なデータセットを複数の言語で操作するための DataFrame APIs があります。
-
PySparkAPIsPython開発者向け の 。「チュートリアル: Apache Spark DataFrames を使用したデータの読み込みと変換」を参照してください。主なクラスは次のとおりです。
- SparkSession-Spark データセットと を使用したプログラミング へのエントリDataFrameAPI ポイント。
- DataFrame - 名前付き列にグループ化されたデータの分散コレクション。 DataFrames と DataFrame ベースの MLlib を参照してください。
-
(非推奨)R 開発者向けのSparkR APIs。主なクラスは次のとおりです。
- SparkSession - SparkSession は SparkR へのエントリ ポイントです。 開始点: SparkSessionを参照してください。
- SparkDataFrame - 名前付き列にグループ化されたデータの分散コレクション。 データセットとDataFrames、DataFramesの作成、SparkDataFrames の作成を参照してください。
-
ScalaAPIsScala開発者向け の 。主なクラスは次のとおりです。
- SparkSession-Spark データセットと を使用したプログラミング へのエントリDataFrameAPI ポイント。開始点: SparkSessionを参照してください。
- データセット - 関数型操作またはリレーショナル操作を使用して並列に変換できる、厳密に型指定されたドメイン固有オブジェクトのコレクション。 各
Dataset
には、Row のDataset
である DataFrame と呼ばれる型指定されていないビューもあります。データセットとDataFrames、データセットの作成、DataFramesの作成、およびDataFrame関数を参照してください。
-
JavaAPIsJava開発者向け の 。主なクラスは次のとおりです。
- SparkSession-Spark データセットと を使用したプログラミング へのエントリDataFrameAPI ポイント。開始点: SparkSessionを参照してください。
- データセット - 関数型操作またはリレーショナル操作を使用して並列に変換できる、厳密に型指定されたドメイン固有オブジェクトのコレクション。 各
Dataset
には、Row のDataset
である DataFrame と呼ばれる型指定されていないビューもあります。データセットとDataFrames、データセットの作成、DataFramesの作成、およびDataFrame関数を参照してください。
Apache SparkAPIsでDatabricks を使用する方法については、以下を参照してください。
- DatabricksでのPySpark
- R開発者のためのDatabricks
- Scala開発者のためのDatabricks
- Java の場合、Java コードを JAR ジョブとして実行できます。