ワークスペースFeature Store (レガシー)

注:

このドキュメントでは、ワークスペースFeature Storeについて説明します。 このページは、ワークスペースで Unity Catalog が有効になっていない場合にのみ使用してください。

Databricks では Unity CatalogのFeature Engineeringの使用を推奨しています。 ワークスペース Feature Storeは将来廃止される予定です。

ワークスペースFeature Storeを使用する理由

ワークスペースFeature Store 、 Databricksの他のコンポーネントと完全に統合されています。

  • 発見性:Databricks ワークスペースからアクセスできる Feature Store UI では、既存の特徴量を参照および検索できます。

  • リネージ。 Databricksで特徴量テーブルを作成すると、特徴量テーブルの作成に使用されたデータソースが保存され、アクセスできるようになります。 特徴テーブル内の各特徴について、その特徴を使用するモデル、データベース、ジョブ、エンドポイントにアクセスすることもできます。

  • モデルのスコアリングやサービングとの統合:Feature Storeの特徴量を使用してモデルをトレーニングする場合、モデルは特徴量メタデータと一緒にパッケージ化されます。モデルをバッチスコアリングまたはオンライン推論に使用すると、Feature Storeから自動的に特徴量が取得されます。呼び出し側はこれらの特徴量について知る必要はありませんし、特徴量を検索または結合して新しいデータをスコアリングするロジックを組み込む必要もありません。これにより、モデルのデプロイメントや更新が容易になります。

  • ポイントインタイムのルックアップ:Feature Store は、特定の時点での正確性を必要とする時系列およびイベントベースのユースケースをサポートします。

ワークスペースFeature Storeはどのように機能しますか?

Feature Store を使用した典型的な機械学習ワークフローは次のようになります。

  1. 生データを特徴に変換するコードを記述し、必要な特徴を含む Spark DataFrame を作成します。

  2. DataFrameワークスペースFeature Storeの特徴量テーブルとして書き込みます

  3. トレーニングする Feature Storeの特徴を使用するモデル . これを行うと、モデルにはトレーニングに使用される特徴量テーブルの仕様が格納されます。 モデルが推論に使用されると、適切な特徴テーブルの特徴が自動的に結合されます。

  4. モデルをモデルレジストリに登録します。

これで、モデルを使用して新しいデータの予測を行うことができます。 バッチ使用の場合、モデルは必要な特徴量を Feature Store から自動的に取得します。

バッチ機械学習ユースケース向けの Feature Store ワークフロー。

リアルタイム サービスのユースケースの場合は、機能をオンライン ストアに公開します。 「サードパーティのオンラインストア」を参照してください。

推論時に、モデルはオンラインストアから事前コンピュート機能を読み取り、モデルサーバーエンドポイントへのクライアント要求で提供されたデータと結合します。

提供される機械学習モデルのFeature Storeフロー。

ワークスペースFeature Storeの使用を開始する

まず、これらのサンプルノートブックを試してください。 この基本的なコンピューター ステップでは、特徴量テーブルを作成し、それを使用してモデルをトレーニングし、自動特徴検索を使用してバッチ スコアリングを実行する方法について説明します。 また、特徴量エンジニアリング UI を紹介し、それを使用して機能を検索する方法と、機能がどのように作成され使用されるかを理解する方法を示します。

ワークスペース Feature Store の基本的なサンプルノートブック

ノートブックを新しいタブで開く

タクシーのサンプルノートブックは、特徴量を作成し、それを更新し、モデルのトレーニングとバッチ推論に使用するプロセスを示しています。

ワークスペース Feature Store を利用したタクシーサンプルノートブック

ノートブックを新しいタブで開く

サポートされているデータ型

サポートされているデータ型については、「 サポートされているデータ型」を参照してください。