Apache Sparkの概要
Apache Spark Databricksのコンピュート クラスターとSQLウェアハウスを強化するテクノロジーです。
このページでは、このセクションのドキュメントの概要を説明します。
始めましょう
Databricks で Apache Spark の使用を始めましょう。
トピック | 説明 |
---|---|
Databricks 上の Apache Spark に関するよくある質問への回答をご覧ください。 | |
データのロードと変換のために、Python、R、または Scala で Spark DataFrames を操作するためのステップバイステップ ガイドに従います。 | |
簡単な例を順に見ながら、PySpark の基本の使い方を学びます。 |
追加リソース
Spark のその他の機能とドキュメントを調べてください。
トピック | 説明 |
---|---|
Spark構成プロパティを設定して、コンピュート環境の設定をカスタマイズし、パフォーマンスを最適化します。 | |
近傍処理エンジンである構造化ストリーミングの概要をお読みください。 | |
Spark ジョブのパフォーマンス チューニング、デバッグ、コストの最適化に Spark UI を使用する方法を学習します。 | |
Spark MLlib を使用した分散機械学習と一般的な ML フレームワークとの統合。 |
Spark APIs
好みのプログラミング言語を使用して Spark を操作します。
トピック | 説明 |
---|---|
Apache Spark の API リファレンスの概要。サポートされている言語での Spark SQL、DataFrames、および RDD 操作のリファレンスへのリンクが含まれています。 | |
PySpark基本、カスタム データ ソース、 Python固有の最適化など、 SparkでPythonを使用します。 | |
使い慣れたPandas構文とSparkのスケーラビリティを活用して分散データ処理を実現します。 | |
統計計算とデータ分析のために、 SparkRと Sparklyr を使用して R とSparkを操作します。 | |
ネイティブSpark APIsとタイプ セーフティを備えたScalaを使用して、高パフォーマンスのSparkアプリケーションを構築します。 |