Databricks での Spark 構成プロパティの設定

Spark構成プロパティ (Spark confs) を設定して、コンピュート環境の設定をカスタマイズできます。

Databricks では、通常、ほとんどの Spark プロパティを構成しないことを推奨しています。特に、オープンソース Apache Spark から移行する場合や Databricks Runtime バージョンをアップグレードする場合、従来の Spark 構成は、ワークロードを最適化する新しいデフォルト動作を上書きする可能性があります。

Spark プロパティによって制御される多くの動作について、Databricks には、テーブルレベルで動作を有効にするオプション、または書き込み操作の一部としてカスタム動作を構成するオプションも用意されています。たとえば、スキーマの進化は以前は Spark プロパティによって制御されていましたが、現在は SQL、 Python、および Scalaでカバーされています。マージのスキーマ進化構文を参照してください。

ノートブックとジョブの Spark プロパティを構成する

ノートブックとジョブの Spark プロパティを設定できます。構成の範囲は、設定方法によって異なります。

構成されたプロパティ:	適用対象:
コンピュート設定の使用	すべてのノートブックとジョブは、コンピュートリソースを使用して実行されます。
ノートブック内	現在のノートブックの SparkSession のみ。

コンピュートレベルで Spark プロパティを構成する手順については、「 Spark 構成」を参照してください。

ノートブックで Spark プロパティを設定するには、次の構文を使用します。

SQL
Python
Scala

SQL
SET spark.sql.ansi.enabled = true

Python
spark.conf.set("spark.sql.ansi.enabled", "true")

Scala
spark.conf.set("spark.sql.ansi.enabled", "true")

Databricks SQL で Spark プロパティを構成する

Databricks SQL を使用すると、管理者はワークスペース設定メニューでデータアクセスの Spark プロパティを構成できます。「データアクセス構成」を参照してください

データアクセス構成以外に、Databricks SQL では、簡単にするために短い名前にエイリアス化された Spark conf はほんの一握りしか許可されません。「構成パラメーター」を参照してください。

サポートされているほとんどの SQL 設定では、現在のセッションでグローバル動作を上書きできます。次の例では、ANSI モードをオフにします。

SQL
SET ANSI_MODE = false

宣言型パイプラインの Spark プロパティ Lakeflow 構成する

Lakeflow 宣言型パイプラインでは、パイプライン、パイプライン用に構成された 1 つのコンピュートリソース、または個々のフロー、マテリアライズドビュー、またはストリーミングテーブルの Spark プロパティを構成できます。

パイプラインとコンピュートの Spark プロパティは、UI または JSONを使用して設定できます。「Lakeflow宣言型パイプラインの構成」を参照してください。

Lakeflow 宣言型パイプラインデコレーター関数の spark_conf オプションを使用して、フロー、ビュー、またはテーブルのSparkプロパティを構成します。「 Lakeflow 宣言型パイプライン Python 言語リファレンス」を参照してください。

サーバレスノートブックとジョブの Spark プロパティの設定

Severless コンピュートは、ノートブックまたはジョブのほとんどの Spark プロパティの設定をサポートしていません。構成できるプロパティは次のとおりです。

属性	デフォルト	説明
`spark.databricks.execution.timeout`	`9000`	Spark Connect クエリの実行タイムアウト (秒単位)。デフォルト値は、サーバレスコンピュート上で動作するノートブックにのみ適用されます。サーバレスコンピュートおよび標準アクセスモードのコンピュートで実行されているジョブの場合、このプロパティが設定されていない限り、タイムアウトは発生しません。
`spark.sql.legacy.timeParserPolicy`	`CORRECTED`	タイムパーサーポリシー。
`spark.sql.session.timeZone`	`Etc/UTC`	セッションのローカルタイムゾーンの ID (リージョンベースのゾーン ID またはゾーンオフセットの形式)。
`spark.sql.shuffle.partitions`	`auto`	結合または集計のためにデータをシャッフルするときに使用するパーティションのデフォルト数。
`spark.sql.ansi.enabled`	`true`	true の場合、Spark SQL は Hive 準拠ではなく ANSI 準拠のダイアレクトを使用します。

Spark 構成の現在の設定を取得する

次の構文を使用して、Spark 構成の現在の設定を確認します。

Python
spark.conf.get("configuration_name")

ノートブックとジョブの Spark プロパティを構成する​

Databricks SQL で Spark プロパティを構成する​

宣言型パイプラインの Spark プロパティ Lakeflow 構成する​

サーバレス ノートブック と ジョブの Spark プロパティの設定​

Spark 構成の現在の設定を取得する​

ノートブックとジョブの Spark プロパティを構成する

Databricks SQL で Spark プロパティを構成する

宣言型パイプラインの Spark プロパティ Lakeflow 構成する

サーバレスノートブックとジョブの Spark プロパティの設定

Spark 構成の現在の設定を取得する