範囲結合の最適化

範囲結合 は、2つのリレーションが間隔内のポイントまたは間隔のオーバーラップ条件を使用して結合されるときに発生します。Databricks Runtimeでの範囲結合の最適化を使用すると、クエリパフォーマンスを大幅に向上できます。

Databricks SQL では、Databricks は手動での設定を行うことなく、範囲結合を自動的に最適化します。すべてのコンピュートタイプで、結合ヒントまたはセッション構成を使用して、範囲結合を手動で調整することもできます。

インターバル範囲内のポイント・ジョイン

区間範囲結合における点と は、一方のリレーションの値が他方のリレーションの2つの値の間にあることを指定する述語を含む条件を持つ結合のことです。例えば：

SQL
-- using BETWEEN expressions
SELECT *
FROM points JOIN ranges ON points.p BETWEEN ranges.start and ranges.end;

-- using inequality expressions
SELECT *
FROM points JOIN ranges ON points.p >= ranges.start AND points.p < ranges.end;

-- with fixed length interval
SELECT *
FROM points JOIN ranges ON points.p >= ranges.start AND points.p < ranges.start + 100;

-- join two sets of point values within a fixed distance from each other
SELECT *
FROM points1 p1 JOIN points2 p2 ON p1.p >= p2.p - 10 AND p1.p <= p2.p + 10;

-- a range condition together with other join conditions
SELECT *
FROM points, ranges
WHERE points.symbol = ranges.symbol
  AND points.p >= ranges.start
  AND points.p < ranges.end;

間隔オーバーラップ範囲ジョイン

区間重複範囲結合は 、各関係からの2つの値の間の区間の重複を指定する述語を条件に含む結合です。例えば：

SQL
-- overlap of [r1.start, r1.end] with [r2.start, r2.end]
SELECT *
FROM r1 JOIN r2 ON r1.start < r2.end AND r2.start < r1.end;

-- overlap of fixed length intervals
SELECT *
FROM r1 JOIN r2 ON r1.start < r2.start + 100 AND r2.start < r1.start + 100;

-- a range condition together with other join conditions
SELECT *
FROM r1 JOIN r2 ON r1.symbol = r2.symbol
  AND r1.start <= r2.end
  AND r1.end >= r2.start;

範囲結合の最適化

範囲結合の最適化は、次のような結合に対して実行されます。

間隔内のポイントまたは間隔オーバーラップ範囲の結合として解釈できる条件がある。
範囲ジョイン条件に含まれるすべての値は、数値型 (整数、浮動小数点、10 進数)、 DATE、または TIMESTAMPです。
範囲結合条件に含まれるすべての値は、同じ型です。小数点型の場合、値は同じスケールと精度でなければなりません。
これは INNER JOIN、またはインターバル範囲内のポイント結合の場合は、左側にポイント値を持つ LEFT OUTER JOIN 、または右側にポイント値を持つ RIGHT OUTER JOIN です。
ビンサイズは、自動的に算出されることも、手動で指定されることもできます。

数値等価条件と範囲条件で結合します

結合条件に数値列に対する等価条件と範囲条件の両方が含まれる場合、オプティマイザは、数値等価列が範囲結合最適化の型要件を満たしているため、その列にビニングを適用する可能性があります。これにより、等価列がビンに割り当てられたり、最適化から除外されたりして、パフォーマンスが低下する可能性があります。

範囲結合の最適化が意図した範囲条件にのみ適用されるようにするには、数値等価列をSTRINGにキャストします。これにより、それらは範囲条件列として考慮対象から除外されます。

SQL
SELECT /*+ RANGE_JOIN(reference, 3306084) */
    reference.*, position.*
FROM position
INNER JOIN reference
    ON CAST(position.parent_index AS STRING) = CAST(reference.parent_index AS STRING)
    AND position.child_index BETWEEN reference.min_child_index AND reference.max_child_index;

同様のパターンは、 DATE 、整数識別子、クラスタ化パーティション列など、等価キーとして使用される他の数値列にも適用されます。

ビンのサイズ

ビン・サイズは 、範囲条件の値ドメインを同じサイズの複数のビンに分割する数値調整パラメーターです。たとえば、ビン・サイズが 10 の場合、最適化ではドメインが長さ 10 の間隔のビンに分割されます。ポイントインレンジ条件が p BETWEEN start AND endで、 start が 8 で end が 22 の場合、この値間隔は長さ 10 の 3 つのビン (最初のビンは 0 から 10、2 番目のビンは 10 から 20、3 番目のビンは 20 から 30) と重なります。同じ 3 つのビン内にあるポイントのみを、その間隔で可能な結合一致と見なす必要があります。たとえば、 p が 32 の場合、30 から 40 までビンに含まれるため、8 の start から 22 の end の間にあると除外できます。

注記

DATE値の場合、ビンサイズの値は日として解釈されます。たとえば、ビンサイズの値 7 は週を表します。
TIMESTAMP値の場合、ビン・サイズの値は秒として解釈されます。秒未満の値が必要な場合は、小数部の値を使用できます。たとえば、ビンサイズ値 60 は分を表し、ビンサイズ値 0.1 は 100 ミリ秒を表します。

クエリで範囲結合ヒントを使用するか、セッション構成パラメーターを設定することで、ビンサイズを指定できます。Databricks SQLでは、自動範囲結合の最適化が有効になっている場合に、ビンサイズが自動的に導出されます。

自動範囲結合の最適化

Databricks SQLでは、Databricks は適格な範囲結合を自動的に検出し、インターバルテーブルをサンプリングすることで最適なビンサイズを導き出します。これにより、ヒントまたはセッション構成によってビンサイズを手動で指定する必要がなくなります。

Databricks SQL では、自動範囲結合の最適化がデフォルトで有効になっています。無効にするには、以下の構成を設定します：

SQL
SET spark.databricks.optimizer.autoRangeJoin.enabled = false;

ビンサイズを範囲結合ヒントまたはセッション構成で指定した場合、その値が自動的に導出されたビンサイズを上書きします。

範囲結合ヒントを使用して範囲結合を有効にする

SQLクエリで範囲結合の最適化を有効にするには、 範囲結合ヒント を使用してビンサイズを指定します。ヒントには、結合されたリレーションの 1 つのリレーション名と数値ビンサイズを含める必要があります。リレーション名は、テーブル、ビュー、またはサブクエリのいずれかになります。

SQL
SELECT /*+ RANGE_JOIN(points, 10) */ *
FROM points JOIN ranges ON points.p >= ranges.start AND points.p < ranges.end;

SELECT /*+ RANGE_JOIN(r1, 0.1) */ *
FROM (SELECT * FROM ranges WHERE ranges.amount < 100) r1, ranges r2
WHERE r1.start < r2.start + 100 AND r2.start < r1.start + 100;

SELECT /*+ RANGE_JOIN(c, 500) */ *
FROM a
  JOIN b ON (a.b_key = b.id)
  JOIN c ON (a.ts BETWEEN c.start_time AND c.end_time)

注記

3 番目の例では、ヒントを cに配置する 必要があります 。これは、結合が左結合であるため、クエリは次のように解釈されるため (a JOIN b) JOIN c また、 a に関するヒントは、 a と b の結合に適用され、 cとの結合には適用されません。

Python
#create minute table
minutes = spark.createDataFrame(
    [(0, 60), (60, 120)],
    "minute_start: int, minute_end: int"
)

#create events table
events = spark.createDataFrame(
    [(12, 33), (0, 120), (33, 72), (65, 178)],
    "event_start: int, event_end: int"
)

#Range_Join with "hint" on the from table
(events.hint("range_join", 60)
  .join(minutes,
    on=[events.event_start < minutes.minute_end,
    minutes.minute_start < events.event_end])
  .orderBy(events.event_start,
    events.event_end,
    minutes.minute_start)
  .show()
)

#Range_Join with "hint" on the join table
(events.join(minutes.hint("range_join", 60),
  on=[events.event_start < minutes.minute_end,
    minutes.minute_start < events.event_end])
  .orderBy(events.event_start,
    events.event_end,
    minutes.minute_start)
  .show()
)

また、結合されたデータフレームの 1 つに範囲結合ヒントを配置することもできます。その場合、ヒントには数値のビンサイズパラメーターのみが含まれます。

Scala
val df1 = spark.table("ranges").as("left")
val df2 = spark.table("ranges").as("right")

val joined = df1.hint("range_join", 10)
  .join(df2, $"left.type" === $"right.type" &&
     $"left.end" > $"right.start" &&
     $"left.start" < $"right.end")

val joined2 = df1
  .join(df2.hint("range_join", 0.5), $"left.type" === $"right.type" &&
     $"left.end" > $"right.start" &&
     $"left.start" < $"right.end")

セッション構成を使用してレンジ・ジョインを有効にする

クエリを変更したくない場合は、構成としてビンサイズを指定します。

SQL
SET spark.databricks.optimizer.rangeJoin.binSize=5

この構成パラメーターは、範囲条件を持つすべての結合に適用されます。ただし、範囲結合ヒントを使用して設定された異なるビンサイズは、常にパラメーターを介して設定されたビンサイズよりも優先されます。

ビンのサイズを選択してください

範囲結合の最適化の効果は、適切なビン・サイズの選択によって異なります。

ビンのサイズが小さいとビンの数が多くなり、一致する可能性のあるビンのフィルタリングに役立ちます。ただし、ビンのサイズが出現値の間隔よりも大幅に小さく、 値の間隔が複数のビンの間隔と重なると 、非効率になります。たとえば、p BETWEEN start AND end という条件で start が1,000,000、end が1,999,999で、ビンのサイズが10の場合、値の間隔は100,000個のビンと重複します。

間隔の長さがかなり均一でわかっている場合は、ビンのサイズを値間隔の一般的な予想される長さに設定することをお勧めします。ただし、間隔の長さが変動して偏っている場合は、短い間隔を効率的にフィルタリングするビンサイズを設定するためのバランスを見つける必要があります。また、長い間隔が多くのビンと重なりすぎないようにします。テーブル rangesで、列 start と endの間の間隔があると仮定すると、次のクエリを使用して、歪んだ間隔の長さの値のさまざまなパーセンタイルを決定できます。

SQL
SELECT
  map_from_arrays(
    ARRAY(0.5, 0.9, 0.99, 0.999, 0.9999),
    APPROX_PERCENTILE(
      end::DOUBLE - start::DOUBLE,
      ARRAY(0.5, 0.9, 0.99, 0.999, 0.9999)
    )
  ) AS bin_sizes
FROM
  ranges;

減算を行う前に各列をDOUBLEにキャストすることで、列が数値、 DATE 、またはTIMESTAMP値であってもクエリが正しく動作することが保証されます。

ビンサイズの推奨設定としては、90パーセンタイル値、99パーセンタイル値を10で割った値、99.9パーセンタイル値を100で割った値などの最大値が挙げられます。その理由は以下のとおりです。

90 パーセンタイルの値がビンサイズの場合、値の間隔の長さの 10% のみがビン間隔より長いため、隣接する 2 つ以上のビン間隔にまたがります。
99 パーセンタイルの値がビンサイズの場合、値の間隔の長さの 1% のみが 11 の隣接するビン間隔を超えています。
99.9 パーセンタイルの値がビンサイズの場合、値の間隔の長さの 0.1% のみが 101 の隣接するビン間隔にまたがっています。
必要に応じて、99.99パーセンタイル値、99.999パーセンタイル値などについても同様の手順を繰り返すことができます。

この方法は、複数のビン区間と重なる、偏った長い値区間の量を制限する。このようにして得られたビンサイズの値は、ファインレンダリングの出発点にすぎません。実際の結果は、特定のワークロードによって異なる場合があります。

インターバル範囲内のポイント・ジョイン​

間隔オーバーラップ範囲ジョイン​

範囲結合の最適化​

数値等価条件と範囲条件で結合します​

ビンのサイズ​

自動範囲結合の最適化​

範囲結合ヒントを使用して範囲結合を有効にする​

セッション構成を使用してレンジ・ジョインを有効にする​

ビンのサイズを選択してください​

インターバル範囲内のポイント・ジョイン

間隔オーバーラップ範囲ジョイン

範囲結合の最適化

数値等価条件と範囲条件で結合します

ビンのサイズ

自動範囲結合の最適化

範囲結合ヒントを使用して範囲結合を有効にする

セッション構成を使用してレンジ・ジョインを有効にする

ビンのサイズを選択してください