Databricks 機能ストア

このページでは、Unity Catalog で Databricks Feature Store を使用する場合に使用できる機能の概要を示します。

Databricks Feature Store は、AI モデルと ML モデルで使用される機能の一元的なレジストリを提供します。特徴量テーブルとモデルは Unity Catalogに登録され、組み込みガバナンス、リネージ、およびクロスワークスペース機能の共有と検出を提供します。 Databricks では、モデルトレーニングワークフロー全体が、次のような 1 つのプラットフォーム上で行われます。

生データを取り込み、特徴量テーブルを作成し、モデルをトレーニングし、バッチ推論を実行するデータパイプライン。
ワンクリックで利用でき、数ミリ秒のレイテンシを実現するモデルサービングエンドポイントおよび特徴量サービングエンドポイント。
データとモデルのモニタリング。

特徴量ストアの特徴量を使用してモデルをトレーニングすると、モデルはトレーニングで使用された特徴量にリネージを自動的に追跡します。推論時に、モデルは最新の特徴値を自動的に検索します。特徴ストアは、リアルタイムアプリケーションの特徴のオンデマンド計算も提供します。特徴量ストアは、すべての特徴量計算タスクを処理します。これにより、トレーニング/サービングのスキューが排除され、推論で使用される特徴計算がモデルのトレーニング中に使用されるものと同じになります。また、すべての特徴のルックアップと計算が特徴ストアによって処理されるため、クライアント側のコードも大幅に簡素化されます。

注記

このページでは、Unity Catalogが有効になっているワークスペースの機能エンジニアリングと配信機能について説明します。ワークスペースがUnity Catalogに対して有効になっていない場合は、「ワークスペースFeature Store (非推奨)」を参照してください。

概念の概要

Databricks Feature Store仕組みの概要と用語集については、「Feature Store の概要と用語集」を参照してください。

特徴エンジニアリング

機能	説明
特徴量テーブル	特徴量テーブルを作成して操作します。

機能の発見と共有

機能	説明
Unity Catalog の特徴量を調べる	カタログエクスプローラーと機能UIを使用して特徴量テーブルを探索および管理します。
特徴量テーブルとUnity Catalogの機能を含むタグを使用する	シンプルなキーと値のペアを使用して、特徴量テーブルと機能を分類および管理します。

トレーニングワークフローでの機能の使用

機能	説明
特徴量テーブルでモデルをトレーニングする	特徴を使用してモデルをトレーニングします。
ポイントインタイム機能結合	ポイントインタイムの正確性を使用して、ラベル観測が記録された時点の特徴値を反映するトレーニングデータセットを作成します。
Python API	Python API リファレンス

特徴量のガバナンスとリネージ

機能	説明
特徴量のガバナンスのリネージ	Unity Catalog を使用して、特徴量テーブルへのアクセスを制御し、特徴量テーブル、モデル、または関数のリネージを表示します。

チュートリアル

チュートリアル	説明
開始するためのノートブックの例	基本的なノートブック。特徴量テーブルを作成し、それを使用してモデルをトレーニングし、自動特徴量ルックアップを使用してバッチスコアリングを実行する方法を示します。また、特徴を検索してリネージを表示するための Feature エンジニアリング UI も表示されます。 Taxi example ノートブック . 特徴の作成、更新、モデルのトレーニングとバッチ推論に使用するプロセスを示します。

説明

開始するためのノートブックの例

基本的なノートブック 。特徴量テーブルを作成し、それを使用してモデルをトレーニングし、自動特徴量ルックアップを使用してバッチスコアリングを実行する方法を示します。また、特徴を検索してリネージを表示するための Feature エンジニアリング UI も表示されます。

Taxi example ノートブック . 特徴の作成、更新、モデルのトレーニングとバッチ推論に使用するプロセスを示します。

必要条件

ワークスペースでUnity Catalogが有効になっている必要があります。
Unity Catalog での特徴量エンジニアリングには、Databricks Runtime 13.3 LTS 以上が必要です。

ワークスペースがこれらの要件を満たしていない場合、従来のワークスペースFeature Store Feature Store Store (非推奨)」を参照してください。

サポートされているデータ型

Unity Catalogおよび従来のワークスペースのFeature Engineering: Feature Store は、次の PySpark データ型をサポートしています。

IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
BinaryType [1]
DecimalType [1]
MapType [1]
StructType [2]

[1] BinaryType、DecimalType、MapTypeは、 Unity Catalogでの特徴量エンジニアリングのすべてのバージョンと、ワークスペース Feature Store v0.3.5 以降でサポートされています。[2] Feature エンジニアリング v0.6.0 以降で StructType がサポートされています。

上記のデータ型は、機械学習アプリケーションで一般的な機能の種類をサポートしています。例えば：

密なベクトル、テンソル、および埋め込みは、次のように格納できます ArrayType。
スパースベクトル、テンソル、および埋め込みは、次のように格納 MapType。
テキストは StringTypeとして保存できます。

オンラインストアに公開すると、 ArrayType と MapType のフィーチャは JSON 形式で保存されます。

Feature Store UI には、フィーチャデータタイプのメタデータが表示されます。

複合データ型の例

詳細情報

ベストプラクティスの詳細については、 The Comprehensive Guide to Feature Storesをダウンロードしてください。

概念の概要​

特徴エンジニアリング​

機能の発見と共有​

トレーニングワークフローでの機能の使用​

特徴量のガバナンスとリネージ​

チュートリアル​

必要条件​

サポートされているデータ型​

詳細情報​