フィーチャーストアの概要と用語集

このページでは、Databricks Feature Store のしくみと重要な用語の定義について説明します。

Databricks の特徴エンジニアリングはどのように機能しますか?

Databricks で特徴エンジニアリングを使用する一般的な機械学習ワークフローは、次のパスに従います。

生データを特徴に変換するコードを記述し、目的の特徴を含む Spark データフレームを作成します。
主キーを持つ Delta テーブルを Unity Catalog に作成します。
特徴量テーブルを使用してトレーニングを行い、モデルをログに記録します。これを行うと、モデルはトレーニングに使用される特徴量の仕様を保存します。モデルを推論に使用すると、適切な特徴量テーブルからの特徴量が自動的に結合されます。
モデルレジストリにモデルを登録します。

これで、モデルを使用して新しいデータの予測を行うことができます。バッチ使用の場合、モデルは必要な特徴量を Feature Store から自動的に取得します。
リアルタイムサービングのユースケースの場合は、機能をオンラインフィーチャストアに公開します。
推論時に、モデルサービングエンドポイントは、リクエストデータ内のエンティティ ID を自動的に使用して、オンラインストアからコンピュート前の特徴を検索し、 ML モデルをスコアリングします。エンドポイントは、 Unity Catalog を使用して、提供されたモデルからこのモデルのトレーニングに使用される特徴量にリネージを解決し、リネージをオンライン特徴量ストアに追跡してリアルタイムアクセスします。

提供される機械学習モデルの特徴ストアフロー。

フィーチャーストア用語集

Feature Store

フィーチャーストアは、データサイエンティストフィーチャーを検索して共有できるようにする一元化されたリポジトリです。また、特徴ストアを使用すると、モデルトレーニング中とモデルが推論に使用されるときとで、特徴値をコンピュートするために使用されるコードが同じになります。 Databricks の機能ストアがどのように機能するかは、ワークスペースが Unity Catalog に対して有効になっているかどうかによって異なります。

Unity Catalogが有効になっているワークスペースでは、主キー制約を特徴量テーブルとして含むUnity Catalog 内の任意のDelta テーブルを使用できます。
ワークスペースが有効になっていない 2024 年 8 月 19 日 4:00:00 PM (UTC) より前に作成された Unity Catalog は、従来のワークスペース Feature Store にアクセスできます。

機械学習では既存のデータを使用してモデルを構築し、将来の結果を予測します。生データを使用してモデルを構築するには、ほぼすべてのケースで、生データの前処理と変換が必要になります。このプロセスは特徴量エンジニアリングと呼ばれ、このプロセスの結果は、モデルのビルディングブロックとして特徴量と呼ばれます。

特徴量の開発は複雑で時間がかかります。さらに複雑なのは、機械学習の場合、モデルのトレーニングのために特徴計算を行う必要があり、その後、モデルを使用して予測を行うときに再度計算を行う必要があることです。これらの実装は、同じチームによって、または同じコード環境を使用して行われない場合があり、遅延やエラーにつながる可能性があります。また、組織内の異なるチームは、多くの場合、同様の特徴量のニーズを持っていますが、他のチームが行った作業を認識していない可能性があります。特徴量ストアはこれらの問題に対処するために設計されています。

特徴量テーブル

特徴量は特徴量テーブルとして整理されています。各テーブルには主キーが必要であり、 Delta テーブルと追加のメタデータによってサポートされます。特徴量テーブルのメタデータは、テーブルの生成元となったデータソースと、テーブルを作成またはテーブルに書き込んだノートブックとジョブを追跡します。

Databricks Runtime13.3LTS 以降では、ワークスペースでUnity Catalogが有効になっている場合、主キーをもつUnity Catalog上の任意のDeltaテーブルを特徴量テーブルとして使用できます。Unity Catalogの特徴量テーブルの操作を参照してください。ローカルのワークスペース Feature Store に保存されている特徴量テーブルは「ワークスペース特徴量テーブル」と呼ばれます。ワークスペース Feature Storeにおける特徴量テーブルの取り扱い (レガシー) を参照してください。

特徴量テーブルの特徴量は通常、一般的な計算関数を使用して計算、更新されます。

特徴量テーブルをオンラインストアに公開して、リアルタイムモデル推論を行うことができます。

`FeatureLookup`

多くの異なるモデルが特定の特徴量テーブルの特徴量テーブルを使用する可能性があり、すべてのモデルがすべての特徴量テーブルを必要とするわけではありません。特徴量テーブルごとに FeatureLookup をトレーニングするには、特徴量テーブルごとにモデルをトレーニングします。この FeatureLookup は、テーブルから使用するフィーチャを指定し、 create_training_setに渡されるラベルデータに特徴量テーブルを結合するために使用するキーも定義します。

この図は、 FeatureLookup の仕組みを示しています。この例では、 customer_features と product_featuresの 2 つの特徴量テーブルの特徴を使用してモデルをトレーニングします。特徴量テーブルごとに FeatureLookup を作成し、テーブルの名前、テーブルから選択する特徴量(列)、特徴量を結合してトレーニングデータセットを作成するときに使用するルックアップキーを指定します。

次に、図に示されている create_training_setを呼び出します。この API 呼び出しでは、生のトレーニングデータ (label_df) を含むデータフレーム、使用する FeatureLookups 、 label、グラウンドトゥルースを含む列を指定します。トレーニングデータには、特徴量テーブルの各主キーに対応する列が含まれている必要があります。特徴量テーブルのデータは、これらのキーに従って入力データフレームに結合されます。結果は、図に "トレーニングデータセット" として示されています。

FeatureLookup ダイアグラム

`FeatureFunction`

特徴量は、推論時にのみ使用できる情報に依存する場合があります。リアルタイム入力と特徴値を組み合わせて、最新の特徴値をコンピュートする FeatureFunction を指定できます。図に例を示します。詳細については、「オンデマンド特徴量の計算」を参照してください。

Feature機能図

トレーニングセット

トレーニングセットは、特徴量のリストと、特徴量を検索するための生のトレーニングデータ、ラベル、および主キーを含むデータフレームで構成されます。トレーニングセットを作成するには、Feature Store から抽出する特徴量を指定し、モデルのトレーニング中にトレーニングセットを入力として提供します。

トレーニングセットを作成して使用する方法の例については、「トレーニングデータセットを作成する」を参照してください。

Unity Catalogでの特徴量エンジニアリングを使用してモデルをトレーニングおよびログに記録すると、カタログエクスプローラでモデルのリネージを表示できます。モデルの作成に使用されたテーブルと関数は、自動的に追跡され、表示されます。特徴量のガバナンスとリネージを参照してください。

`FeatureSpec`

FeatureSpec は、提供するための再利用可能な機能のセットを定義する Unity Catalog エンティティです。FeatureSpecは、特徴量テーブルとFeatureFunctionのFeatureLookupを 1 つの論理単位に結合し、モデルトレーニングで使用したり、Feature Serving エンドポイントを使用して提供したりできます。

FeatureSpecは Unity Catalogによって保存および管理され、構成要素のオフライン特徴量テーブルと機能を完全に追跡します。これにより、さまざまなモデルやアプリケーション間でのガバナンス、検出可能性、再利用が可能になります。

FeatureSpecは、次の方法で使用できます。

Python API または REST APIを使用してFeature Servingエンドポイントを作成します。Feature Servingエンドポイントを参照するか、モデルサービングUIを使用して直接デプロイします。高性能アプリケーションの場合は、ルートの最適化を有効にします。
create_training_setのFeatureSpecを参照してモデルトレーニングで使用します。

FeatureSpecは常にオフラインの特徴量テーブルを参照しますが、リアルタイムサービングシナリオでは、オンラインストアに公開する必要があります。

時系列特徴量テーブル (ポイントインタイムのルックアップ)

モデルのトレーニングに使用されるデータには、多くの場合、時間依存関係が組み込まれています。モデルを構築するときは、観測されたターゲット値の時点までの特徴値のみを考慮する必要があります。ターゲット値のタイムスタンプより後に測定されたデータに基づいて特徴をトレーニングすると、モデルのパフォーマンスが低下する可能性があります。

時系列特徴量テーブルには、トレーニングデータセットの各行が行のタイムスタンプの時点で最新の既知の特徴値を表すことを保証するタイムスタンプ列が含まれています。時系列特徴量テーブルは、時系列データ、イベントベースのデータ、時間集計データなど、特徴値が時間の経過とともに変化する場合に使用する必要があります。

時系列特徴量テーブルを作成するときは、主キーの時間関連列を時系列列として指定するには、引数 timeseries_columns ( Unity Catalogでの特徴量エンジニアリングの場合) または timestamp_keys 引数 (ワークスペース Feature Storeの場合) を使用します。これにより、 create_training_set または score_batchを使用するときにポイントインタイムルックアップが可能になります。システムは、指定された timestamp_lookup_key を使用して、タイムスタンプ時結合を実行します。

timeseries_columns 引数または timestamp_keys 引数を使用せず、時系列列を主キー列としてのみ指定した場合、Feature Store は結合中に時系列列にポイントインタイムロジックを適用しません。代わりに、タイムスタンプより前のすべての行に一致するのではなく、時刻が完全に一致する行のみに一致します。

オフラインストア

オフライン特徴ストアは、特徴の検出、モデルトレーニング、バッチ推論に使用されます。 Deltaテーブルとして具体化された特徴量テーブルが含まれています。

オンライン機能ストア

Databricks Online Feature Store は、オンラインアプリケーションとリアルタイム機械学習モデルに特徴データを提供するための、高性能でスケーラブルなソリューションです。

Databricks Lakebase を利用し、ガバナンスを維持しながら、大規模な機能データへの低遅延アクセスを提供します。

サーバレス Lakebase プラットフォームでオンラインストアをプロビジョニングできます。 APIs 、インスタンスとリードレプリカを管理し、必要に応じてインスタンスをスケーリングできます。便利な APIs を使用して、 Unity Catalog テーブルをオンラインストアに公開できます。これらのテーブルは、ソーステーブルに対してリネージをネイティブに追跡する Unity Catalog エンティティでもあります。 Databricks は、サードパーティのオンラインストアもサポートしています。

ストリーミング

バッチ書き込みに加えて、Databricks Feature Store はストリーミングをサポートしています。ストリーミングソースから特徴量テーブルに特徴量テーブルに特徴値を書き込むことができ、特徴量計算コードでは構造化ストリーミングを利用して生データストリームを特徴に変換できます。

また、特徴量テーブルをオフラインストアからオンラインストアにストリーミングすることもできます。

モデルパッケージ

Unity Catalogでの特徴量エンジニアリングまたはワークスペース Feature Store を使用して機械学習モデルをトレーニングし、クライアントの log_model() メソッドを使用してログに記録すると、モデルはこれらの特徴への参照を保持します。推論時に、モデルはオプションで特徴値を自動的に取得できます。呼び出し元は、モデルで使用される特徴 ( user_idなど) の主キーを指定するだけで、モデルは必要なすべての特徴値を取得します。

バッチ推論では、特徴値はオフラインストアから取得され、スコアリングの前に新しいデータと結合されます。リアルタイム推論では、特徴値はオンラインストアから取得されます。

フィーチャーメタデータを使用してモデルをパッケージ化するには、FeatureEngineeringClient.log_model ( Unity Catalogでの特徴量エンジニアリングの場合) または FeatureStoreClient.log_model (ワークスペース Feature Storeの場合) を使用します。

Databricks の特徴エンジニアリングはどのように機能しますか?​

フィーチャーストア用語集​

Feature Store​

特徴量テーブル​

FeatureLookup​

FeatureFunction​

トレーニングセット​

FeatureSpec​

時系列 特徴量テーブル (ポイントインタイムのルックアップ)​

オフラインストア​

オンライン機能ストア​

ストリーミング​

モデルパッケージ​