Databricks 機能ストア

Databricks Feature Store は、AI および機械学習モデルで使用される機能の中央レジストリです。Unity Catalogに特徴量テーブルとモデルを登録すると、組み込みのガバナンス、リネージ、ポイントインタイム結合、およびワークスペース間の特徴量共有と検出が提供されます。

Databricks では、モデルトレーニングワークフロー全体が単一のプラットフォームで行われます。これには以下が含まれます：

生データを取り込み、特徴量テーブルを作成し、モデルをトレーニングし、バッチ推論を実行するデータパイプライン。
ワンクリックで利用でき、数ミリ秒のレイテンシを実現するモデルサービングエンドポイントおよび特徴量サービングエンドポイント。
データとモデルのモニタリング。

Databricks Feature Storeの機能をトレーニングするモデルに使用すると、モデルはトレーニングで使用された機能へのリネージを自動的に追跡します。推論時には、モデルは最新の特徴量値を自動的に検索します。Databricks Feature Storeは、リアルタイムアプリケーション向けの機能のオンデマンド計算も提供し、すべての機能計算タスクを処理します。これにより、トレーニング/サービングのスキューが排除され、推論で使用される特徴の計算がモデルのトレーニング中に使用されるものと同じになることが保証されます。また、すべての機能検索と計算はDatabricks Feature Storeによって処理されるため、クライアント側のコードも大幅に簡素化されます。

注記

このページではUnity Catalogで有効になっているワークスペース用のDatabricks Feature Storeについて説明します。ワークスペースがUnity Catalogに対して有効になっていない場合は、「ワークスペースFeature Store (非推奨)」を参照してください。

概念の概要

Databricks Feature Store のしくみの概要と用語集については、Databricks Feature Store の概要と用語集を参照してください。

機能を開発する

機能	説明
Unity Catalog の特徴量テーブル	特徴量テーブルを作成して操作します。
特徴量ビュー	Feature Views を使用して、時間ウィンドウ集計特徴量を定義およびコンピュートします。
フィーチャービューをマテリアライズ	オフラインのトレーニングまたはオンラインでのサービングのために特徴量ビューをマテリアライズします。

機能	説明
Unity Catalog の特徴量テーブル	特徴量テーブルを作成して操作します。
特徴量ビュー	Feature Views を使用して、時間ウィンドウ集計特徴量を定義およびコンピュートします。
フィーチャービューをマテリアライズ	オフラインのトレーニングまたはオンラインでのサービングのために特徴量ビューをマテリアライズします。

機能の発見と共有

機能	説明
Unity Catalogで特徴量テーブルを探索する	カタログエクスプローラーと機能UIを使用して特徴量テーブルを探索および管理します。
特徴量テーブルとUnity Catalogの機能を含むタグを使用する	シンプルなキーと値のペアを使用して、特徴量テーブルと機能を分類および管理します。
Unity Catalog の Feature Views を調べる	Databricks UIでFeature Viewの定義とマテリアライゼーションステータスを閲覧します。

機能	説明
Unity Catalogで特徴量テーブルを探索する	カタログエクスプローラーと機能UIを使用して特徴量テーブルを探索および管理します。
特徴量テーブルとUnity Catalogの機能を含むタグを使用する	シンプルなキーと値のペアを使用して、特徴量テーブルと機能を分類および管理します。
Unity Catalog の Feature Views を調べる	Databricks UIでFeature Viewの定義とマテリアライゼーションステータスを閲覧します。

トレーニングワークフローでの機能の使用

機能	説明
特徴量テーブルでモデルをトレーニングする	特徴を使用してモデルをトレーニングします。
ポイントインタイム機能結合	ポイントインタイムの正確性を使用して、ラベル観測が記録された時点の特徴値を反映するトレーニングデータセットを作成します。
特徴量エンジニアリング Python API	Python API リファレンス

機能	説明
特徴量テーブルでモデルをトレーニングする	特徴を使用してモデルをトレーニングします。
ポイントインタイム機能結合	ポイントインタイムの正確性を使用して、ラベル観測が記録された時点の特徴値を反映するトレーニングデータセットを作成します。
特徴量エンジニアリング Python API	Python API リファレンス

サーブ機能

機能	説明
Databricksオンライン特徴量ストア	特徴データをオンラインアプリケーションとリアルタイム機械学習モデルに提供します。Databricks Lakebase を利用しています。
自動特徴量ルックアップによるモデルサービング	オンラインストアから特徴量値を自動的に検索します。
Feature Serving エンドポイント	Databricks の外部のモデルとアプリケーションに機能を提供します。
オンデマンド特徴量計算	推論時の特徴値を計算します。

機能	説明
Databricksオンライン特徴量ストア	特徴データをオンラインアプリケーションとリアルタイム機械学習モデルに提供します。Databricks Lakebase を利用しています。
自動特徴量ルックアップによるモデルサービング	オンラインストアから特徴量値を自動的に検索します。
Feature Serving エンドポイント	Databricks の外部のモデルとアプリケーションに機能を提供します。
オンデマンド特徴量計算	推論時の特徴値を計算します。

特徴量のガバナンスとリネージ

機能	説明
特徴量のガバナンスのリネージ	Unity Catalog を使用して、特徴量テーブルへのアクセスを制御し、特徴量テーブル、モデル、または関数のリネージを表示します。

機能	説明
特徴量のガバナンスのリネージ	Unity Catalog を使用して、特徴量テーブルへのアクセスを制御し、特徴量テーブル、モデル、または関数のリネージを表示します。

チュートリアル

チュートリアル	説明
開始するためのノートブックの例	基本的なノートブック。特徴量テーブルを作成し、それを使用してモデルをトレーニングし、自動特徴量ルックアップを使用してバッチスコアリングを実行する方法を示します。また、特徴を検索してリネージを表示するための Feature エンジニアリング UI も表示されます。 Taxi example ノートブック . 特徴の作成、更新、モデルのトレーニングとバッチ推論に使用するプロセスを示します。
例: Feature Serving エンドポイントのデプロイとクエリ	チュートリアルと例ノートブック Feature Serving エンドポイントをデプロイしてクエリする方法を示します。
例: 構造化 RAG アプリケーションで機能を使用する	チュートリアル取得拡張生成 (RAG) アプリケーションに Databricks オンラインテーブルと Feature Serving エンドポイントを使用する方法を示します。

説明

開始するためのノートブックの例

基本的なノートブック 。特徴量テーブルを作成し、それを使用してモデルをトレーニングし、自動特徴量ルックアップを使用してバッチスコアリングを実行する方法を示します。また、特徴を検索してリネージを表示するための Feature エンジニアリング UI も表示されます。

Taxi example ノートブック . 特徴の作成、更新、モデルのトレーニングとバッチ推論に使用するプロセスを示します。

例: Feature Serving エンドポイントのデプロイとクエリ

チュートリアルと例ノートブック Feature Serving エンドポイントをデプロイしてクエリする方法を示します。

例: 構造化 RAG アプリケーションで機能を使用する

チュートリアル取得拡張生成 (RAG) アプリケーションに Databricks オンラインテーブルと Feature Serving エンドポイントを使用する方法を示します。

チュートリアル	説明
開始するためのノートブックの例	基本的なノートブック。特徴量テーブルを作成し、それを使用してモデルをトレーニングし、自動特徴量ルックアップを使用してバッチスコアリングを実行する方法を示します。また、特徴を検索してリネージを表示するための Feature エンジニアリング UI も表示されます。 Taxi example ノートブック . 特徴の作成、更新、モデルのトレーニングとバッチ推論に使用するプロセスを示します。
例: Feature Serving エンドポイントのデプロイとクエリ	チュートリアルと例ノートブック Feature Serving エンドポイントをデプロイしてクエリする方法を示します。
例: 構造化 RAG アプリケーションで機能を使用する	チュートリアル取得拡張生成 (RAG) アプリケーションに Databricks オンラインテーブルと Feature Serving エンドポイントを使用する方法を示します。

チュートリアル

説明

開始するためのノートブックの例

Taxi example ノートブック . 特徴の作成、更新、モデルのトレーニングとバッチ推論に使用するプロセスを示します。

例: Feature Serving エンドポイントのデプロイとクエリ

チュートリアルと例ノートブック Feature Serving エンドポイントをデプロイしてクエリする方法を示します。

例: 構造化 RAG アプリケーションで機能を使用する

チュートリアル取得拡張生成 (RAG) アプリケーションに Databricks オンラインテーブルと Feature Serving エンドポイントを使用する方法を示します。

必要条件

Databricks Feature Storeを使用するには、ワークスペースでUnity Catalogが有効になっている必要があります。ワークスペースがUnity Catalogに対して有効になっていない場合は、「ワークスペースFeature Store (非推奨)」を参照してください。

サポートされているデータ型

Databricks Feature StoreとレガシーワークスペースFeature Store 、次のPySparkデータ型をサポートしています。

IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
BinaryType [1]
DecimalType [1]
MapType [1]
StructType [2]

[1] BinaryType、DecimalType、MapTypeは、 Unity Catalogでの特徴量エンジニアリングのすべてのバージョンと、ワークスペース Feature Store v0.3.5 以降でサポートされています。[2] Feature エンジニアリング v0.6.0 以降で StructType がサポートされています。

上記のデータ型は、機械学習アプリケーションで一般的な機能の種類をサポートしています。例えば：

密なベクトル、テンソル、および埋め込みは、次のように格納できます ArrayType。
スパースベクトル、テンソル、および埋め込みは、次のように格納 MapType。
テキストは StringTypeとして保存できます。

オンラインストアに公開すると、 ArrayType と MapType のフィーチャは JSON 形式で保存されます。

Feature Store UI には、フィーチャデータタイプのメタデータが表示されます。

複合データ型の例

詳細情報

ベストプラクティスの詳細については、 The Comprehensive Guide to Feature Storesをダウンロードしてください。

概念の概要​

機能を開発する​

機能の発見と共有​

トレーニングワークフローでの機能の使用​

サーブ機能​

特徴量のガバナンスとリネージ​

チュートリアル​

必要条件​

サポートされているデータ型​

詳細情報​

概念の概要

機能を開発する

機能の発見と共有

トレーニングワークフローでの機能の使用

サーブ機能

特徴量のガバナンスとリネージ

チュートリアル

必要条件

サポートされているデータ型

詳細情報