Databricks 機能ストア
このページでは、Unity Catalog で Databricks Feature Store を使用する場合に使用できる機能の概要を示します。
Databricks Feature Store は、AI モデルと ML モデルで使用される機能の一元的なレジストリを提供します。特徴量テーブルとモデルは Unity Catalogに登録され、組み込みガバナンス、リネージ、およびクロスワークスペース機能の共有と検出を提供します。 Databricks では、モデル トレーニング ワークフロー全体が、次のような 1 つのプラットフォーム上で行われます。
- 生データを取り込み、特徴量テーブルを作成し、モデルをトレーニングし、バッチ推論を実行するデータ パイプライン。
- ワンクリックで利用でき、数ミリ秒のレイテンシを実現するモデルサービングエンドポイントおよび特徴量サービングエンドポイント。
- データとモデルのモニタリング。
特徴量ストアの特徴量を使用してモデルをトレーニングすると、モデルはトレーニングで使用された特徴量にリネージを自動的に追跡します。 推論時に、モデルは最新の特徴値を自動的に検索します。特徴ストアは、リアルタイム アプリケーションの特徴のオンデマンド計算も提供します。特徴量ストアは、すべての特徴量計算タスクを処理します。これにより、トレーニング/サービングのスキューが排除され、推論で使用される特徴計算がモデルのトレーニング中に使用されるものと同じになります。また、すべての特徴のルックアップと計算が特徴ストアによって処理されるため、クライアント側のコードも大幅に簡素化されます。
このページでは、Unity Catalog で有効になっているワークスペースの特徴エンジニアリングとサービス機能について説明します。 ワークスペースで Unity Catalogが有効になっていない場合は、ワークスペース Feature Store (レガシー)を参照してください。
概念の概要
Databricks Feature Store のしくみの概要と用語集については、「 概念」を参照してください。
特徴エンジニアリング
機能 | 説明 |
---|---|
特徴量テーブルを作成して操作します。 |
機能の発見と共有
機能 | 説明 |
---|---|
カタログエクスプローラーと機能UIを使用して特徴量テーブルを探索および管理します。 | |
シンプルなキーと値のペアを使用して、特徴量テーブルと機能を分類および管理します。 |
トレーニングワークフローでの機能の使用
機能 | 説明 |
---|---|
特徴を使用してモデルをトレーニングします。 | |
ポイントインタイムの正確性を使用して、ラベル観測が記録された時点の特徴値を反映するトレーニング データセットを作成します。 | |
Python API リファレンス |
サーブ機能
機能 | 説明 |
---|---|
特徴データをオンライン アプリケーションとリアルタイム機械学習モデルに提供します。Databricks Lakebase を利用しています。 | |
オンラインストアから特徴量値を自動的に検索します。 | |
Databricks の外部のモデルとアプリケーションに機能を提供します。 | |
推論時の特徴値を計算します。 |
特徴量のガバナンスとリネージ
機能 | 説明 |
---|---|
Unity Catalog を使用して、特徴量テーブルへのアクセスを制御し、特徴量テーブル、モデル、または関数のリネージを表示します。 |
チュートリアル
チュートリアル | 説明 |
---|---|
基本的なノートブック 。特徴量テーブルを作成し、それを使用してモデルをトレーニングし、自動特徴量ルックアップを使用してバッチスコアリングを実行する方法を示します。 また、特徴を検索してリネージを表示するための Feature エンジニアリング UI も表示されます。 Taxi example ノートブック . 特徴の作成、更新、モデルのトレーニングとバッチ推論に使用するプロセスを示します。 | |
チュートリアルと例ノートブック Feature Serving エンドポイントをデプロイしてクエリする方法を示します。 | |
チュートリアル 取得拡張生成 (RAG) アプリケーションに Databricks オンライン テーブルと Feature Serving エンドポイントを使用する方法を示します。 |
必要条件
- ワークスペースでUnity Catalogが有効になっている必要があります。
- Unity Catalog での特徴量エンジニアリングには、Databricks Runtime 13.3 LTS 以上が必要です。
ワークスペースがこれらの要件を満たしていない場合は、従来のワークスペース Feature Store の使用方法について、「 ワークスペース Feature Store (レガシ)」 を参照してください。
サポートされているデータ型
Unity Catalogおよび従来のワークスペースのFeature Engineering: Feature Store は、次の PySpark データ型をサポートしています。
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
BinaryType
[1]DecimalType
[1]MapType
[1]StructType
[2]
[1] BinaryType
、DecimalType
、MapType
は、 Unity Catalogでの特徴量エンジニアリングのすべてのバージョンと、ワークスペース Feature Store v0.3.5 以降でサポートされています。[2] Feature エンジニアリング v0.6.0 以降で StructType
がサポートされています。
上記のデータ型は、機械学習アプリケーションで一般的な機能の種類をサポートしています。 例えば:
- 密なベクトル、テンソル、および埋め込みは、次のように格納できます
ArrayType
。 - スパース ベクトル、テンソル、および埋め込みは、次のように格納
MapType
。 - テキストは
StringType
として保存できます。
オンライン ストアに公開すると、 ArrayType
と MapType
のフィーチャは JSON 形式で保存されます。
Feature Store UI には、フィーチャ データ タイプのメタデータが表示されます。
詳細情報
ベストプラクティスの詳細については、 The Comprehensive Guide to Feature Storesをダウンロードしてください。