メインコンテンツまでスキップ

Apache Sparkの概要

Apache Spark Databricksのコンピュート クラスターとSQLウェアハウスを強化するテクノロジーです。

このページでは、このセクションのドキュメントの概要を説明します。

始めましょう

Databricks で Apache Spark の使用を始めましょう。

トピック

説明

Apache Spark on Databricks

Databricks 上の Apache Spark に関するよくある質問への回答をご覧ください。

チュートリアル:Apache Spark データフレームを使用したデータの読み込みと変換

データのロードと変換のために、Python、R、または Scala で Spark DataFrames を操作するためのステップバイステップ ガイドに従います。

PySparkの基礎

簡単な例を順に見ながら、PySpark の基本の使い方を学びます。

追加リソース

Spark のその他の機能とドキュメントを調べてください。

トピック

説明

Databricks で Spark 構成プロパティを設定する

Spark構成プロパティを設定して、コンピュート環境の設定をカスタマイズし、パフォーマンスを最適化します。

構造化ストリーミング

近傍処理エンジンである構造化ストリーミングの概要をお読みください。

Spark UI を使用してコストとパフォーマンスの問題を診断する

Spark ジョブのパフォーマンス チューニング、デバッグ、コストの最適化に Spark UI を使用する方法を学習します。

DatabricksでApache Spark MLlibを使用する

Spark MLlib を使用した分散機械学習と一般的な ML フレームワークとの統合。

Spark APIs

好みのプログラミング言語を使用して Spark を操作します。

トピック

説明

Apache Spark APIのリファレンス

Apache Spark の API リファレンスの概要。サポートされている言語での Spark SQL、DataFrames、および RDD 操作のリファレンスへのリンクが含まれています。

PySpark

PySpark基本、カスタム データ ソース、 Python固有の最適化など、 SparkでPythonを使用します。

Pandas API on Spark

使い慣れたPandas構文とSparkのスケーラビリティを活用して分散データ処理を実現します。

SparkにおけるR

統計計算とデータ分析のために、 SparkRと Sparklyr を使用して R とSparkを操作します。

Spark 用 Scala

ネイティブSpark APIsとタイプ セーフティを備えたScalaを使用して、高パフォーマンスのSparkアプリケーションを構築します。