ブルームフィルターインデックス

ブルームフィルターインデックスは、選択した列でデータをスキップできるスペース効率の高いデータ構造です。これは、自由形式のテキストや ID など、多くの異なる値を持つ列に特に効果的です。

ブルームフィルターインデックスの制限

重要

Databricks では、ほとんどのワークロードにブルームフィルターインデックスを使用することはお勧めしません。

ブルームフィルターインデックスは、一意の値のカーディナリティが高い列でのデータスキップをサポートしていますが、多くの場合、次のような問題が発生します。

インデックスが作成された後に書き込まれたファイルのみにインデックスを付けます。インデックスは既存のファイルには適用されません。
これらは調整が難しく、多くの場合、パフォーマンスに大きなメリットをもたらすことなくオーバーヘッドが追加されます。
これらは、1 つの列で選択性の高い等価フィルターで最適に機能します。これらは、より広範なフィルターにほとんどまたはまったくメリットがありません。
ブルームフィルターインデックスは、明示的に定義された列でのみ機能します。クエリがブルームフィルターインデックス列と重複しない列でフィルター処理を開始する場合は、インデックスを手動で削除して再作成する必要があり、運用上のオーバーヘッドが追加されます。また、新しいデータを使用して新しいインデックスを最初から再構築する必要があります。

ブルームフィルターインデックスはファイルの読み取りをスキップすることを目的としていますが、Databricks はすべてのデータファイルについてインデックスファイルをスキャンする必要があります。Z-Ordering とリキッドクラスタリングは、エンジンがほとんどのファイルを考慮せずに済むため、より効果的です。

推奨される代替案

Databricks では、ブルームフィルターインデックスの代わりに次の機能を使用することをお勧めします。

予測I/O - Databricks Runtime 12.2以降のPhoton対応コンピュートでは、予測I/Oは高度なヒューリスティックを使用してすべての列でファイルスキップを実行します。ブルームフィルターインデックスを完全に包含し、Photonが有効になっている場合にのみ書き込みオーバーヘッドを追加します。
リキッドクラスタリングDatabricks Runtime 13.3以降では、リキッドクラスタリングは、頻繁にフィルタリングされる列に基づいてデータを整理することで、データのスキップを改善します。ブルームフィルターインデックスよりも粗い粒度で動作し、Databricks はクエリ計画中にファイルのグループ全体をスキップできます。

重要

ブルームフィルターインデックスを予測 I/O と組み合わせないでください。両方を有効にすると、ブルームフィルターインデックスが優先され、予測 I/O が無効になり、より高速で信頼性の高いパフォーマンスが実現します。

ブルームフィルターインデックスのしくみ

Databricks ブルームフィルターインデックスは、各データファイルのデータスキップインデックスで構成されます。ブルームフィルターインデックスを使用すると、列の値がファイルに明確に 存在しない か、またはファイル 内にある可能性がある かを判断できます。ファイルを読み取る前に、Databricks はインデックスファイルをチェックし、ファイルがデータフィルターに一致する可能性があることをインデックスが示している場合にのみ、ファイルが読み取られます。

ブルームフィルターインデックスは、 byte、 short、 int、 long、 float、 double、 date、 timestamp、および stringの入力データ型を持つ列をサポートします。Null はブルームフィルターインデックスに追加されないため、null 関連のフィルターではデータファイルを読み取る必要があります。Databricks は、 and、 or、 in、 equals、および equalsnullsafeのデータソースフィルターをサポートしています。ブルームフィルターインデックスは、入れ子になった列ではサポートされていません。

構成と参照

次の構文を使用して、ブルームフィルターを有効にします。

SQL
CREATE BLOOMFILTER INDEX
ON TABLE table_name
FOR COLUMNS(column_name OPTIONS (fpp=0.1, numItems=5000))

構文の詳細については、 CREATE BLOOM FILTER INDEX と DROP BLOOM FILTER INDEX を参照してください。

ブルームフィルター操作を無効にするには、セッションレベル spark.databricks.io.skipping.bloomFilter.enabled 設定を falseに設定します。

ブルームフィルターインデックスのリストを表示します

インデックスのリストを表示するには、次のコマンドを実行します。

Scala
spark.table("<table-with-indexes>").schema.foreach(field => println(s"${field.name}: metadata=${field.metadata}"))

例えば：

インデックスを表示

ブルームフィルターインデックスの制限​

推奨される代替案​

ブルーム フィルター インデックスのしくみ​

構成と参照​

ブルームフィルターインデックスのリストを表示します​

ブルームフィルターインデックスの制限

推奨される代替案

ブルームフィルターインデックスのしくみ

構成と参照

ブルームフィルターインデックスのリストを表示します