Databricks Feature Store の概要と用語集

Databricks Feature Store は、機械学習で使用される特徴量を一元化するため、モデルのトレーニングと推論時に同じ特徴量計算が実行されます。以下のセクションでは、一般的なワークフローについて説明し、主要な用語を定義します。

Databricks Feature Storeはどのように機能しますか？

Databricks で特徴エンジニアリングを使用する一般的な機械学習ワークフローは、次のパスに従います。

生データを特徴に変換するコードを記述し、目的の特徴を含む Spark データフレームを作成します。
主キーを持つ Delta テーブルを Unity Catalog に作成します。
特徴量テーブルを使用してトレーニングを行い、モデルをログに記録します。これを行うと、モデルはトレーニングに使用される特徴量の仕様を保存します。モデルを推論に使用すると、適切な特徴量テーブルからの特徴量が自動的に結合されます。
モデルレジストリにモデルを登録します。

これで、モデルを使用して新しいデータの予測を行うことができます。バッチ使用の場合、モデルは必要な特徴量を Feature Store から自動的に取得します。

バッチ機械学習のユースケースのための機能ストアワークフロー。

Feature Store用語集

Feature Store

フィーチャーストアは、 data scientistsフィーチャーを検索して共有できるようにする集中型のリポジトリです。また、Feature Store を使用すると、特徴値のコンピュートに使用されるコードが、モデルのトレーニング中とモデルが推論に使用されるときに同じであることが保証されます。 Databricks Feature Store の動作は、ワークスペースで Unity Catalog が有効になっているかどうかによって異なります。

Unity Catalogが有効になっているワークスペースでは、主キー制約を特徴量テーブルとして含むUnity Catalog 内の任意のDelta テーブルを使用できます。
ワークスペースが有効になっていない 2024 年 8 月 19 日 4:00:00 PM (UTC) より前に作成された Unity Catalog は、従来のワークスペース Feature Store にアクセスできます。

機械学習では既存のデータを使用してモデルを構築し、将来の結果を予測します。生データを使用してモデルを構築するには、ほぼすべてのケースで、生データの前処理と変換が必要になります。このプロセスは特徴量エンジニアリングと呼ばれ、このプロセスの結果は、モデルのビルディングブロックとして特徴量と呼ばれます。

特徴量の開発は複雑で時間がかかります。さらに複雑なのは、機械学習の場合、モデルのトレーニングのために特徴計算を行う必要があり、その後、モデルを使用して予測を行うときに再度計算を行う必要があることです。これらの実装は、同じチームによって、または同じコード環境を使用して行われない場合があり、遅延やエラーにつながる可能性があります。また、組織内の異なるチームは、多くの場合、同様の特徴量のニーズを持っていますが、他のチームが行った作業を認識していない可能性があります。特徴量ストアはこれらの問題に対処するために設計されています。

特徴量テーブル

特徴量は特徴量テーブルとして整理されています。各テーブルには主キーが必要であり、 Delta テーブルと追加のメタデータによってサポートされます。特徴量テーブルのメタデータは、テーブルの生成元となったデータソースと、テーブルを作成またはテーブルに書き込んだノートブックとジョブを追跡します。

Databricks Runtime 13.3 LTS 以降では、ワークスペースで Unity Catalog が有効になっている場合、主キーを持つ Unity Catalog 上の任意の Delta テーブルを特徴量テーブルとして使用できます。Unity Catalog の特徴量テーブルを参照してください。ローカルのワークスペース Feature Store に保存されている特徴量テーブルは、「ワークスペース特徴量テーブル」と呼ばれます。ワークスペース Feature Storeにおける特徴量テーブルの取り扱い (レガシー) を参照してください。

特徴量テーブルの特徴量は通常、一般的な計算関数を使用して計算、更新されます。

`FeatureLookup`

多くの異なるモデルが特定の特徴量テーブルの特徴量テーブルを使用する可能性があり、すべてのモデルがすべての特徴量テーブルを必要とするわけではありません。特徴量テーブルごとに FeatureLookup をトレーニングするには、特徴量テーブルごとにモデルをトレーニングします。この FeatureLookup は、テーブルから使用するフィーチャを指定し、 create_training_setに渡されるラベルデータに特徴量テーブルを結合するために使用するキーも定義します。

この図は、 FeatureLookup の仕組みを示しています。この例では、 customer_features と product_featuresの 2 つの特徴量テーブルの特徴を使用してモデルをトレーニングします。特徴量テーブルごとに FeatureLookup を作成し、テーブルの名前、テーブルから選択する特徴量(列)、特徴量を結合してトレーニングデータセットを作成するときに使用するルックアップキーを指定します。

次に、図に示されている create_training_setを呼び出します。この API 呼び出しでは、生のトレーニングデータ (label_df) を含むデータフレーム、使用する FeatureLookups 、 label、グラウンドトゥルースを含む列を指定します。トレーニングデータには、特徴量テーブルの各主キーに対応する列が含まれている必要があります。特徴量テーブルのデータは、これらのキーに従って入力データフレームに結合されます。結果は、図に "トレーニングデータセット" として示されています。

FeatureLookup ダイアグラム

トレーニングセット

トレーニングセットは、特徴量のリストと、特徴量を検索するための生のトレーニングデータ、ラベル、および主キーを含むデータフレームで構成されます。トレーニングセットを作成するには、Feature Store から抽出する特徴量を指定し、モデルのトレーニング中にトレーニングセットを入力として提供します。

トレーニングセットを作成して使用する方法の例については、「トレーニングデータセットを作成する」を参照してください。

Unity Catalogでの特徴量エンジニアリングを使用してモデルをトレーニングおよびログに記録すると、カタログエクスプローラでモデルのリネージを表示できます。モデルの作成に使用されたテーブルと関数は、自動的に追跡され、表示されます。特徴量のガバナンスとリネージを参照してください。

`FeatureSpec`

FeatureSpec は、再利用可能な機能のセットを定義する Unity Catalog エンティティです。FeatureSpecは、特徴量テーブルとFeatureFunctionのFeatureLookupを、モデルトレーニングで使用できる単一の論理単位に結合します。

FeatureSpecは Unity Catalogによって保存および管理され、構成要素のオフライン特徴量テーブルと機能を完全に追跡します。これにより、さまざまなモデルやアプリケーション間でのガバナンス、検出可能性、再利用が可能になります。

モデルトレーニングでFeatureSpecを使用するには、create_training_setのFeatureSpecを参照します。

時系列特徴量テーブル (ポイントインタイムのルックアップ)

モデルのトレーニングに使用されるデータには、多くの場合、時間依存関係が組み込まれています。モデルを構築するときは、観測されたターゲット値の時点までの特徴値のみを考慮する必要があります。ターゲット値のタイムスタンプより後に測定されたデータに基づいて特徴をトレーニングすると、モデルのパフォーマンスが低下する可能性があります。

時系列特徴量テーブルには、トレーニングデータセットの各行が行のタイムスタンプの時点で最新の既知の特徴値を表すことを保証するタイムスタンプ列が含まれています。時系列特徴量テーブルは、時系列データ、イベントベースのデータ、時間集計データなど、特徴値が時間の経過とともに変化する場合に使用する必要があります。

時系列特徴量テーブルを作成するときは、主キーの時間関連列を時系列列として指定するには、引数 timeseries_columns ( Unity Catalogでの特徴量エンジニアリングの場合) または timestamp_keys 引数 (ワークスペース Feature Storeの場合) を使用します。これにより、 create_training_set または score_batchを使用するときにポイントインタイムルックアップが可能になります。システムは、指定された timestamp_lookup_key を使用して、タイムスタンプ時結合を実行します。

timeseries_columns 引数または timestamp_keys 引数を使用せず、時系列列を主キー列としてのみ指定した場合、Feature Store は結合中に時系列列にポイントインタイムロジックを適用しません。代わりに、タイムスタンプより前のすべての行に一致するのではなく、時刻が完全に一致する行のみに一致します。

オフラインストア

オフライン特徴ストアは、特徴の検出、モデルトレーニング、バッチ推論に使用されます。 Deltaテーブルとして具体化された特徴量テーブルが含まれています。

ストリーミング

バッチ書き込みに加えて、Databricks Feature Store はストリーミングをサポートしています。ストリーミングソースから特徴量テーブルに特徴量テーブルに特徴値を書き込むことができ、特徴量計算コードでは構造化ストリーミングを利用して生データストリームを特徴に変換できます。

モデルパッケージ

Unity Catalogでの特徴量エンジニアリングまたはワークスペース Feature Store を使用して機械学習モデルをトレーニングし、クライアントの log_model() メソッドを使用してログに記録すると、モデルはこれらの特徴への参照を保持します。推論時に、モデルはオプションで特徴値を自動的に取得できます。呼び出し元は、モデルで使用される特徴 ( user_idなど) の主キーを指定するだけで、モデルは必要なすべての特徴値を取得します。

バッチ推論では、特徴値はオフラインストアから取得され、スコアリングの前に新しいデータと結合されます。リアルタイム推論では、特徴値はオンラインストアから取得されます。

フィーチャーメタデータを使用してモデルをパッケージ化するには、FeatureEngineeringClient.log_model ( Unity Catalogでの特徴量エンジニアリングの場合) または FeatureStoreClient.log_model (ワークスペース Feature Storeの場合) を使用します。

Databricks Feature Storeはどのように機能しますか？​

Feature Store用語集​

Feature Store​

特徴量テーブル​

FeatureLookup​

トレーニングセット​

FeatureSpec​

時系列 特徴量テーブル (ポイントインタイムのルックアップ)​

オフラインストア​

ストリーミング​

モデルパッケージ​