メインコンテンツまでスキップ

Databricks 機能ストア

このページでは、Unity Catalog で Databricks Feature Store を使用する場合に使用できる機能の概要を示します。

Databricks Feature Store は、AI モデルと ML モデルで使用される機能の一元的なレジストリを提供します。特徴量テーブルとモデルは Unity Catalogに登録され、組み込みガバナンス、リネージ、およびクロスワークスペース機能の共有と検出を提供します。 Databricks では、モデル トレーニング ワークフロー全体が、次のような 1 つのプラットフォーム上で行われます。

  • 生データを取り込み、特徴量テーブルを作成し、モデルをトレーニングし、バッチ推論を実行するデータ パイプライン。
  • ワンクリックで利用でき、数ミリ秒のレイテンシを実現するモデルサービングエンドポイントおよび特徴量サービングエンドポイント。
  • データとモデルのモニタリング。

特徴量ストアの特徴量を使用してモデルをトレーニングすると、モデルはトレーニングで使用された特徴量にリネージを自動的に追跡します。 推論時に、モデルは最新の特徴値を自動的に検索します。特徴ストアは、リアルタイム アプリケーションの特徴のオンデマンド計算も提供します。特徴量ストアは、すべての特徴量計算タスクを処理します。これにより、トレーニング/サービングのスキューが排除され、推論で使用される特徴計算がモデルのトレーニング中に使用されるものと同じになります。また、すべての特徴のルックアップと計算が特徴ストアによって処理されるため、クライアント側のコードも大幅に簡素化されます。

注記

このページでは、Unity Catalog で有効になっているワークスペースの特徴エンジニアリングとサービス機能について説明します。 ワークスペースで Unity Catalogが有効になっていない場合は、ワークスペース Feature Store (レガシー)を参照してください。

概念の概要

Databricks Feature Store のしくみの概要と用語集については、「 概念」を参照してください。

特徴エンジニアリング

機能

説明

Unity Catalogで特徴量テーブルを操作する

特徴量テーブルを作成して操作します。

機能の発見と共有

機能

説明

Unity Catalog の特徴量を調べる

カタログエクスプローラーと機能UIを使用して特徴量テーブルを探索および管理します。

特徴量テーブルとUnity Catalogの機能を含むタグを使用する

シンプルなキーと値のペアを使用して、特徴量テーブルと機能を分類および管理します。

トレーニングワークフローでの機能の使用

機能

説明

特徴量を使用してモデルをトレーニングする

特徴を使用してモデルをトレーニングします。

ポイントインタイム機能結合

ポイントインタイムの正確性を使用して、ラベル観測が記録された時点の特徴値を反映するトレーニング データセットを作成します。

Python API

Python API リファレンス

サーブ機能

機能

説明

Databricksオンライン特徴量ストア

特徴データをオンライン アプリケーションとリアルタイム機械学習モデルに提供します。Databricks Lakebase を利用しています。

自動特徴量ルックアップによるモデルサービング

オンラインストアから特徴量値を自動的に検索します。

Feature Serving エンドポイント

Databricks の外部のモデルとアプリケーションに機能を提供します。

オンデマンド特徴量計算

推論時の特徴値を計算します。

特徴量のガバナンスとリネージ

機能

説明

特徴量のガバナンスのリネージ

Unity Catalog を使用して、特徴量テーブルへのアクセスを制御し、特徴量テーブル、モデル、または関数のリネージを表示します。

チュートリアル

チュートリアル

説明

開始するためのノートブックの例

基本的なノートブック 。特徴量テーブルを作成し、それを使用してモデルをトレーニングし、自動特徴量ルックアップを使用してバッチスコアリングを実行する方法を示します。 また、特徴を検索してリネージを表示するための Feature エンジニアリング UI も表示されます。

Taxi example ノートブック . 特徴の作成、更新、モデルのトレーニングとバッチ推論に使用するプロセスを示します。

例: Feature Serving エンドポイントのデプロイとクエリ

チュートリアルと例ノートブック Feature Serving エンドポイントをデプロイしてクエリする方法を示します。

例: 構造化 RAG アプリケーションで機能を使用する

チュートリアル 取得拡張生成 (RAG) アプリケーションに Databricks オンライン テーブルと Feature Serving エンドポイントを使用する方法を示します。

必要条件

  • ワークスペースでUnity Catalogが有効になっている必要があります。
  • Unity Catalog での特徴量エンジニアリングには、Databricks Runtime 13.3 LTS 以上が必要です。

ワークスペースがこれらの要件を満たしていない場合は、従来のワークスペース Feature Store の使用方法について、「 ワークスペース Feature Store (レガシ)」 を参照してください。

サポートされているデータ型

Unity Catalogおよび従来のワークスペースのFeature Engineering: Feature Store は、次の PySpark データ型をサポートしています。

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryTypeDecimalTypeMapTypeは、 Unity Catalogでの特徴量エンジニアリングのすべてのバージョンと、ワークスペース Feature Store v0.3.5 以降でサポートされています。[2] Feature エンジニアリング v0.6.0 以降で StructType がサポートされています。

上記のデータ型は、機械学習アプリケーションで一般的な機能の種類をサポートしています。 例えば:

  • 密なベクトル、テンソル、および埋め込みは、次のように格納できます ArrayType
  • スパース ベクトル、テンソル、および埋め込みは、次のように格納 MapType
  • テキストは StringTypeとして保存できます。

オンライン ストアに公開すると、 ArrayTypeMapType のフィーチャは JSON 形式で保存されます。

Feature Store UI には、フィーチャ データ タイプのメタデータが表示されます。

複合データ型の例

詳細情報

ベストプラクティスの詳細については、 The Comprehensive Guide to Feature Storesをダウンロードしてください。