Databricksオンライン特徴量ストア

Databricks Online Feature Store は、オンラインアプリケーションや機械学習モデルに特徴データを提供するための高性能でスケーラブルなソリューションです。 Databricks Lakebase を利用したオンラインフィーチャストアは、オフラインの特徴量テーブルとの一貫性を維持しながら、高スケールでのフィーチャデータへの低遅延アクセスを提供します。

Online Feature Store の主な使用例は次のとおりです。

特徴量サービングエンドポイントを使用して、レコメンデーションシステム、不正検出、パーソナライゼーションエンジンなどのリアルタイムアプリケーションに特徴量を提供します。
モデルサービングエンドポイントでのリアルタイム推論のための自動特徴検索。

新しいオンライン機能ストアは、Lakebase Autoscaling プロジェクトとして作成されます。詳細と違いについては、オートスケールの Lakebase の統合を参照してください。

必要条件

Databricksオンライン特徴量ストアには、Databricks Runtime 16.4 LTS ML 以降が必要です。サーバレスコンピュートを使用することもできます。

Databricksオンライン特徴量ストアを使用するには、まずパッケージをインストールする必要があります。次のコード行は、ノートブックが実行されるたびに実行する必要があります。

Python
%pip install databricks-feature-engineering>=0.13.0
dbutils.library.restartPython()

オンラインストアを作成する

オンラインストアを作成すると、リアルタイムのFeature Servingのために高可用性マネージドインフラストラクチャをプロビジョニングします。create_online_store API Lakebase オートスケールインスタンスを作成します。Lakebase オートスケールの詳細については、Lakebase Postgresを参照してください。

コストを管理するには、開発やテストに使用しないときは、 Lakebase Provisioned オンラインストアを削除します。

新しいオンライン特徴量ストアを作成するには:

Python
from databricks.feature_engineering import FeatureEngineeringClient

# Initialize the client
fe = FeatureEngineeringClient()

# Create an online store with specified capacity
fe.create_online_store(
    name="my-online-store", # maximum of 63 bytes
    capacity="CU_2"  # Valid options: "CU_1", "CU_2", "CU_4", "CU_8"
)

capacity設定は、オンラインストアが使用できるコンピュートの量を制御します。その値は、「コンピュートサイズ」で説明されているように、 Lakebaseプロビジョニングの容量を指します。

Lakebase Autoscaling インスタンスの権限については、「プロジェクト権限の付与」を参照してください。

Lakebase Provisioned インスタンスの容量オプションについては、「インスタンス容量の管理」を参照してください。

顧客管理キーによる暗号化

オンライン機能ストアは、 Lakebaseオートスケールによる基礎的なサポートにより、顧客管理キー (CMK) を使用した保存時の暗号化をサポートします。 LakebaseやFeature Storeの設定は不要です。CMKは関連するワークスペースに自動的に適用されます。

CMKは、以下のすべての条件が満たされる場合に自動的に適用されます。

ワークスペースには、マネージドサービス用に顧客管理キーが設定されています。Lakebase の顧客管理キーを参照してください。
オンラインの Feature Store は、 Lakebaseオートスケールプロジェクトによって支援されています。 2026 年 3 月 23 日以降にfe.create_online_storeで作成されたすべてのオンライン Feature Store はLakebaseオートスケールを使用します。
Lakebaseプロジェクトの基盤となるプロジェクトは、お住まいの地域でCMKのサポートが利用可能になった後に作成されました。それ以前に作成されたLakebaseプロジェクトは、後からワークスペースでCMKが有効になったとしても、CMKで暗号化されません。

オンライン Feature Store を支援するLakebaseプロジェクトには、オンラインストアと同じ名前が付いています。それを見つけるには、ワークスペースの右上隅にあるアプリスイッチャーをクリックしてLakebaseアプリを開き、その名前のプロジェクトを探してください。ストアがお客様のCMKで暗号化されていることを確認するには、該当プロジェクトの 「顧客管理キー」 ステータスカードを確認してください。暗号化状態の確認を参照してください。

オンラインストアを管理する

次のコードは、オンラインストアを取得する方法を示しています。

Python
# List all accessible online stores
stores = fe.list_online_stores()
for store in stores:
    print(f"Store: {store.name}, State: {store.state}, Capacity: {store.capacity}")

# Get information about an existing online store
store = fe.get_online_store(name="my-online-store")
if store:
    print(f"Store: {store.name}, State: {store.state}, Capacity: {store.capacity}")

fe.create_online_storeを使用してオンラインストアを作成した場合は、 fe.update_online_storeを使用して更新できます。

Python
# Update the capacity of an online store
# Note: this does not work for an Autoscaling instance that was created using the projects API or the UI
updated_store = fe.update_online_store(
    name="my-online-store",
    capacity="CU_4"  # Upgrade to higher capacity
)

オンラインストアへのリードレプリカの追加

オンライン Feature Store を作成または更新するときに、 read_replica_countを指定してリードレプリカをオンラインストアに追加できます。読み取りトラフィックは読み取りレプリカ間で自動的に分散されるため、レイテンシが短縮され、同時実行性の高いワークロードのパフォーマンスとスケーラビリティが向上します。

APIまたは UI を使用して作成された Lakebase Autoscaling プロジェクトにリードレプリカを追加することはできません。

特徴量テーブルをオンラインストアに公開する

オンラインストアが AVAILABLE 状態になったら、特徴量テーブルを公開して、低遅延のアクセスができるようにすることができます。 publish_table API 、オフライン特徴量テーブルのデータを、 create_online_store APIを使用して作成されたオンラインストアに同期します。以下の表を参照して、ソースオフラインテーブルがリアルタイムの使用ケースに合わせて正しく作成されていることを確認してください。

ユースケース	この方法を使用してオフライン特徴量テーブルを作成する
各エンティティIDの最新の機能値のみが、リアルタイムアプリケーション用のオンラインストアで利用できます。同じ主キー値を持つ複数の行がオフラインデータソースに存在する可能性があり、publish パイプラインで重複排除されます。このケースは、オンラインモデルまたは Feature Serving エンドポイントで最も頻繁に使用されます。	時系列指定でテーブルを作成する
オフラインテーブルの最新および以前のすべての時系列特徴値は、リアルタイムアプリケーションからアクセスできるようにオンラインストアで入手できます。ソース（オフライン）テーブルのすべての行は、重複排除なしで公開されます。これはあまり頻繁には使用されませんが、エンドポイントがエンティティIDと正確な日付/タイムスタンプに基づいてデータを検証またはバックテストするために機能を照会する場合に必要となることがあります。`DATE`または`TIMESTAMP`列を単純なルックアップキーとして使用する場合 (時系列セマンティクスなし)、列のタイプを`STRING`に変更します。	時系列指定でテーブルを作成する

ユースケース

この方法を使用してオフライン特徴量テーブルを作成する

各エンティティIDの 最新の 機能値のみが、リアルタイムアプリケーション用のオンラインストアで利用できます。同じ主キー値を持つ複数の行がオフラインデータソースに存在する可能性があり、publish パイプラインで重複排除されます。

このケースは、オンラインモデルまたは Feature Serving エンドポイントで最も頻繁に使用されます。

時系列指定でテーブルを作成する

オフラインテーブルの最新および以前のすべての時系列特徴値は、リアルタイムアプリケーションからアクセスできるようにオンラインストアで入手できます。

ソース（オフライン）テーブルのすべての行は、重複排除なしで公開されます。これはあまり頻繁には使用されませんが、エンドポイントがエンティティIDと正確な日付/タイムスタンプに基づいてデータを検証またはバックテストするために機能を照会する場合に必要となることがあります。DATEまたはTIMESTAMP列を単純なルックアップキーとして使用する場合 (時系列セマンティクスなし)、列のタイプをSTRINGに変更します。

時系列指定でテーブルを作成する

ユースケース	この方法を使用してオフライン特徴量テーブルを作成する
各エンティティIDの最新の機能値のみが、リアルタイムアプリケーション用のオンラインストアで利用できます。同じ主キー値を持つ複数の行がオフラインデータソースに存在する可能性があり、publish パイプラインで重複排除されます。このケースは、オンラインモデルまたは Feature Serving エンドポイントで最も頻繁に使用されます。	時系列指定でテーブルを作成する
オフラインテーブルの最新および以前のすべての時系列特徴値は、リアルタイムアプリケーションからアクセスできるようにオンラインストアで入手できます。ソース（オフライン）テーブルのすべての行は、重複排除なしで公開されます。これはあまり頻繁には使用されませんが、エンドポイントがエンティティIDと正確な日付/タイムスタンプに基づいてデータを検証またはバックテストするために機能を照会する場合に必要となることがあります。`DATE`または`TIMESTAMP`列を単純なルックアップキーとして使用する場合 (時系列セマンティクスなし)、列のタイプを`STRING`に変更します。	時系列指定でテーブルを作成する

ユースケース

この方法を使用してオフライン特徴量テーブルを作成する

このケースは、オンラインモデルまたは Feature Serving エンドポイントで最も頻繁に使用されます。

時系列指定でテーブルを作成する

オンラインストアに公開するための前提条件

すべての特徴量テーブル (時系列の有無にかかわらず) は、公開する前に次の要件を満たす必要があります。

主キー制約 : オンラインストアの公開に必要
null 非許容の主キー: 主キー列に NULL 値を含めることはできません
チェンジデータフィード有効 : CONTINUOUS および TRIGGERED の公開モードに必要です。Deltaテーブルのチェンジデータフィードを有効にする方法についてはチェンジデータフィードの使用を、公開モードについては公開モードを参照してください。

SQL
-- Enable CDF if not already enabled
ALTER TABLE catalog.schema.your_feature_table
SET TBLPROPERTIES ('delta.enableChangeDataFeed' = 'true');

-- Ensure primary key columns are not nullable
ALTER TABLE catalog.schema.your_feature_table
ALTER COLUMN user_id SET NOT NULL;

特徴量表を公開する

特徴量テーブルをオンラインストアに公開するには:

Python
from databricks.ml_features.entities.online_store import DatabricksOnlineStore

# Get the online store instance
# For Lakebase Autoscaling projects creating using the Lakebase API or UI,
# `name` is the last part of the resouce name: projects/{online_store_name}
online_store = fe.get_online_store(name="my-online-store")

# Publish the feature table to the online store
fe.publish_table(
    online_store=online_store,
    source_table_name="catalog_name.schema_name.feature_table_name",
    # for online_table_name, the catalog name, schema name, and table name each are limited to a maximum of 63 bytes
    online_table_name="catalog_name.schema_name.online_feature_table_name",
    # `publish_mode` argument is optional and defaults to "TRIGGERED" mode if not specified
)

publish_table操作では、次の処理が行われます。

オンラインストアにテーブルが存在しない場合は、作成します。
オフライン特徴量テーブルからオンラインストアに特徴量データを同期します。
オンラインストアとオフラインテーブルを同期させるために必要なインフラストラクチャを設定します。

publish_table 常に Lakebase Autoscaling プロジェクトの安全ブランチを使用します。

公開モード

publish_modeパラメーターは、オフライン特徴量テーブルからの変更がオンラインテーブルにどのように、いつ更新されるかを決定します。

対応モードの詳細については、「同期モードの説明はこちら」をご覧ください。

サポートされているモードは以下にまとめられています。

モード	説明
`TRIGGERED`	デフォルト。API を使用するかスケジュールに従って、オフラインテーブルの変更をオンラインテーブルに段階的に更新します。定期的にデータ同期をトリガーするオプション: `publish_table`を実行するノートブックを作成します。このノートブックを実行してオンライン機能を段階的に更新するスケジュールされたLakeFlow Jobを作成します。ジョブについてはノートブックタスクを参照してください。返されたオブジェクト`publish_table`の ID を使用してパイプラインの更新をスケジュールします。「パイプラインの更新を実行する」を参照してください。このモードでは、オフラインテーブルで変更データフィードが有効になっている必要があります。オンラインストアに公開するための前提条件を参照してください。
`CONTINUOUS`	オンラインテーブルにはストリーミングパイプラインが設定されており、オフライン特徴量テーブルに書き込まれる新しいデータとしてオンラインストアがすぐに更新されます。
`SNAPSHOT`	すべてのデータをソーステーブルからオンラインストアにコピーする 1 回限りの同期を実行します。このモードは、2 つの同期操作の間に既存の行に多数の更新がある場合に効率的です。

モード

説明

TRIGGERED

デフォルト。API を使用するかスケジュールに従って、オフラインテーブルの変更をオンラインテーブルに段階的に更新します。定期的にデータ同期をトリガーするオプション:

publish_tableを実行するノートブックを作成します。このノートブックを実行してオンライン機能を段階的に更新するスケジュールされたLakeFlow Jobを作成します。ジョブについてはノートブックタスクを参照してください。
返されたオブジェクトpublish_tableの ID を使用してパイプラインの更新をスケジュールします。「パイプラインの更新を実行する」を参照してください。

このモードでは、オフラインテーブルで変更データフィードが有効になっている必要があります。オンラインストアに公開するための前提条件を参照してください。

CONTINUOUS

オンラインテーブルにはストリーミングパイプラインが設定されており、オフライン特徴量テーブルに書き込まれる新しいデータとしてオンラインストアがすぐに更新されます。

SNAPSHOT

すべてのデータをソーステーブルからオンラインストアにコピーする 1 回限りの同期を実行します。このモードは、2 つの同期操作の間に既存の行に多数の更新がある場合に効率的です。

モード	説明
`TRIGGERED`	デフォルト。API を使用するかスケジュールに従って、オフラインテーブルの変更をオンラインテーブルに段階的に更新します。定期的にデータ同期をトリガーするオプション: `publish_table`を実行するノートブックを作成します。このノートブックを実行してオンライン機能を段階的に更新するスケジュールされたLakeFlow Jobを作成します。ジョブについてはノートブックタスクを参照してください。返されたオブジェクト`publish_table`の ID を使用してパイプラインの更新をスケジュールします。「パイプラインの更新を実行する」を参照してください。このモードでは、オフラインテーブルで変更データフィードが有効になっている必要があります。オンラインストアに公開するための前提条件を参照してください。
`CONTINUOUS`	オンラインテーブルにはストリーミングパイプラインが設定されており、オフライン特徴量テーブルに書き込まれる新しいデータとしてオンラインストアがすぐに更新されます。
`SNAPSHOT`	すべてのデータをソーステーブルからオンラインストアにコピーする 1 回限りの同期を実行します。このモードは、2 つの同期操作の間に既存の行に多数の更新がある場合に効率的です。

モード

説明

TRIGGERED

publish_tableを実行するノートブックを作成します。このノートブックを実行してオンライン機能を段階的に更新するスケジュールされたLakeFlow Jobを作成します。ジョブについてはノートブックタスクを参照してください。
返されたオブジェクトpublish_tableの ID を使用してパイプラインの更新をスケジュールします。「パイプラインの更新を実行する」を参照してください。

CONTINUOUS

SNAPSHOT

v0.13.0.1 以前のバージョンでは、 publish_mode問題がstreaming問題に置き換わります。下位互換性のため、 streaming=Trueが渡された場合はpublish_mode="CONTINUOUS"を設定するのと同等になります。

オンラインテーブルを削除する

オンラインテーブルを削除するには、Databricks SDK を使用します。

Python
from databricks.sdk import WorkspaceClient

w = WorkspaceClient()
w.feature_store.delete_online_table(online_table_name="catalog_name.schema_name.online_feature_table_name")

重要

これは、オンラインテーブルを削除する場合に推奨される 唯一の 方法です。Unity Catalogとデータベースの両方からテーブルを削除します。同期されたテーブルを削除する Databricks SQL コマンドDROP TABLEや Python SDK コマンドなどの他の方法では、基礎となるデータベースストレージからテーブルは削除されません。

オンライン特徴量の探索とクエリ

公開されたテーブルのステータスが "AVAILABLE" と表示されたら、いくつかの方法で特徴量データを探索し、クエリを実行できます。

Unity Catalog UI : Unity Catalog のオンラインテーブルに移動して、サンプルデータを表示し、UI で直接スキーマを探索します。これにより、フィーチャデータを検査し、公開プロセスが正常に完了したことを確認するのに便利です。

SQL Editor : より高度なクエリ実行やデータ探索を行うには、SQL エディターを使用して、オンラインの特徴量テーブルに対してPostgreSQL クエリを実行できます。これにより、フィーチャーデータに対して複雑なクエリ、結合、および分析を実行できます。オンラインストアでSQLエディターを使用するための詳細な手順については、Lakebase SQL エディターからのクエリを参照してください。

リアルタイムアプリケーションでのオンライン特徴量の使用

リアルタイムアプリケーションやサービスに特徴量を提供するには、特徴量サービングエンドポイントを作成します。特徴量サービングエンドポイントを参照してください。

Databricksの特徴量を使用して学習されたモデルは、学習した特徴量に自動的にリネージを追跡します。エンドポイントとしてデプロイすると、これらのモデルは Unity Catalog を使用して、オンラインストアで適切な特徴量を見つけます。詳細については、オンラインワークフローで特徴量を使用するを参照してください。

オンラインストアを削除する

オンラインストアを削除するには:

Python
fe.delete_online_store(name="my-online-store")

注記

オンラインで公開されたテーブルを削除すると、ダウンストリームの依存関係で予期しないエラーが発生する可能性があります。テーブルを削除する前に、そのオンライン特徴量がモデルサービングまたは特徴量サービングエンドポイントで使用されなくなったことを確認する必要があります。

コスト最適化のベストプラクティス

オンラインストアの再利用 : 複数の特徴量テーブルを 1 つのオンラインストアに公開できます。開発、テスト、トレーニングのシナリオでは、個別のストアを作成するのではなく、複数のプロジェクトまたはユーザー間で 1 つのオンラインストアを共有することをお勧めします。
適切な容量を 選択する：テストにはCU_2から始め、パフォーマンスとコストに基づいてのみスケールアップまたはスケールダウンしてください。
使用されていないオンラインストアを削除する : オンラインストアでは継続的にコストが発生します。不要になったオンラインストアを削除します。

制限

特定のオンラインテーブルの指定はサポートされていません。特徴量テーブルが複数のオンラインテーブルに公開される場合、モデルサービングおよびFeature Servingエンドポイントは常に、作成タイムスタンプに基づいて最も古いオンラインテーブルに解決されます。
オンラインのフィーチャーストアは、最大 3 つのリードレプリカ (プライマリを含む合計 4 つのコンピュートインスタンス) をサポートします。リードレプリカは、プライマリからの読み取りトラフィックをオフロードし、プライマリが故障した場合に引き継ぐことで高可用性を提供します。
Databricks オンライン特徴量ストアにパブリッシュする場合、 filter_condition、 checkpoint_location、 mode、 trigger、および featuresのパラメーターはサポートされていません。
Unity Catalogの特徴量テーブルのみがサポートされています。
サポートされているパブリッシュモードは「マージ」のみです。
Lakebaseのスケール・トゥ・ゼロ機能はサポートされていません。
複数のオンライン feature store から特徴量を検索する Feature Serving および Model Serving エンドポイントは、既に存在している場合は引き続き動作しますが、Lakebase オートスケールインスタンスではこのような新しいエンドポイントを作成できません。
プロジェクトAPIまたは UI を使用して作成されたオートスケールインスタンスは、フィールドcreator 、 read_replica_count 、およびcapacityを使用しません。
プロジェクトAPIまたは UI を使用して作成されたオートスケールインスタンスを更新することはできません。
顧客管理キー（CMK）は、当該地域でCMKが利用可能になった後に作成されたオンライン機能ストアにのみ適用されます。顧客管理キーによる暗号化を参照してください。

トラブルシューティング

エラーメッセージ: Skipping publishing to online table '...' because the feature sync pipeline is already running.

このエラーは、複数のノートブックまたはジョブが同時にオンラインテーブルに公開しようとした場合に発生します。データの競合を防ぐため、オンラインテーブルごとに一度に 1 つの同期操作のみが許可されます。

Databricks では、ジョブの最後に 1 つのタスクを実行するなど、単一のpublish_tableコマンドを使用するようにワークフローを設計することをお勧めします。ワークフローをこのように調整できない場合は、 get_status()を使用して、他の公開コマンドの同期が完了するまで待機してから、新しい公開をトリガーします。

ノートブックの例

次のノートブックは、Databricks Lakebase を使用して Databricks オンライン特徴量ストアを設定してアクセスする方法の例を示しています。

オンライン特徴量ストアとLakebaseのノートブック

ノートブックを新しいタブで開く Open in Databricks

追加のリソース

Databricks の特徴量エンジニアリングの詳細をご覧ください。
Unity Catalog でのデータガバナンスとリネージについて調べます。
Lakebaseのアーキテクチャと機能を理解します。

必要条件​

オンラインストアを作成する​

顧客管理キーによる暗号化​

オンラインストアを管理する​

オンラインストアへのリードレプリカの追加​

特徴量テーブルをオンラインストアに公開する​

オンラインストアに公開するための前提条件​

特徴量表を公開する​

公開モード​

オンラインテーブルを削除する​

オンライン特徴量の探索とクエリ​

リアルタイムアプリケーションでのオンライン特徴量の使用​

オンラインストアを削除する​

コスト最適化のベストプラクティス​

制限​

トラブルシューティング​

ノートブックの例​

オンライン特徴量ストアとLakebaseのノートブック

追加のリソース​

必要条件

オンラインストアを作成する

顧客管理キーによる暗号化

オンラインストアを管理する

オンラインストアへのリードレプリカの追加

特徴量テーブルをオンラインストアに公開する

オンラインストアに公開するための前提条件

特徴量表を公開する

公開モード

オンラインテーブルを削除する

オンライン特徴量の探索とクエリ

リアルタイムアプリケーションでのオンライン特徴量の使用

オンラインストアを削除する

コスト最適化のベストプラクティス

制限

トラブルシューティング

ノートブックの例

追加のリソース