モデルサービングへの移行

この記事では、モデルサービングでワークスペースでモデルをサーバレスコンピュート上に構築された Mosaic AI Model Serving エクスペリエンスに切り替える方法を示します。

important

2025 年 8 月 22 日以降、顧客は従来の MLflow モデルサービングエクスペリエンスを使用して新しいサービスエンドポイントを作成できなくなります。 2025 年 9 月 15 日に、レガシーエクスペリエンスのサポートが終了し、このサービスを使用している既存のエンドポイントはすべて使用できなくなります。

必要条件

MLflow Model Registryに登録されたモデル。
アクセス制御ガイドで説明されている登録済みモデルに対する権限。
ワークスペースでサーバレスコンピュートを有効にします。

大幅な変更

モデルサービングでは、エンドポイントへのリクエストとエンドポイントからのレスポンスの形式が、レガシー MLflow モデルサービングとは少し異なります。新しい形式プロトコルの詳細については、モデルエンドポイントのスコアリングを参照してください。
モデルサービングでは、エンドポイント URL には modelではなく serving-endpoints が含まれます。
モデルサービングには、APIワークフローを使用したリソースの管理が完全にサポートされています。
モデルサービングは本番運用に対応しており、 Databricks SLAによって支えられています。

Legacy MLflow モデルサービングを使用するサービスエンドポイントを特定する

Legacy MLflow モデルサービングを使用するモデルサービングエンドポイントを特定するには:

ワークスペースの モデル UI に移動します。
Workspace Model Registry フィルターを選択します。
[ 従来の配信のみを有効にする] フィルターを選択します。

レガシーMLflow モデルサービング提供モデルをモデルサービングへ移行

モデルサービングエンドポイントを作成し、レガシーMLflow モデルサービングを無効にせずにモデルサービングワークフローを柔軟に移行できます。

次の手順は、UI を使用してこれを実現する方法を示しています。レガシーモデルサービングが有効になっている各MLflowモデルで以下を実施します:

モデルを Unity Catalogに登録する .
機械学習ワークスペースのサイドバーにある サービングエンドポイント に移動します。
モデルを使用してサービングエンドポイントを作成する方法については、「カスタムモデルサービングエンドポイントの作成」で説明されているワークフローに従ってください。
新しいスコアリング形式とともに、サービングエンドポイントから提供された新しいURLを使用してモデルをクエリするようにアプリケーションを移行してください。
モデルが移行されると、機械学習ワークスペースのサイドバーにある モデル に移動できます。
レガシー MLflow モデルサービングを無効にするモデルを選択します。
サービング タブで、停止を選択します。
確認のメッセージが表示されます。 サービングの停止 を選択します。

デプロイされたモデルバージョンをモデルサービングに移行する

以前のバージョンのモデルサービング機能では、サービングエンドポイントは、登録済みのモデルバージョン( Staging または Production)のステージに基づいて作成されていました。そのエクスペリエンスから提供されたモデルを移行するには、新しいモデルサービングエクスペリエンスでその動作をレプリケートできます。

このセクションでは、 Staging モデルバージョンと Production モデルバージョンで別々のモデルサービングエンドポイントを作成する方法について説明します。次の手順は、各サービングモデルのサービングエンドポイント API を使用してこれを実現する方法を示しています。

この例では、登録されたモデル名 modelA は、モデルステージ Production にバージョン 1 があり、モデルステージ Stagingにバージョン 2 があります。

登録済みモデルに対して 2 つのエンドポイント (1 つは Staging モデルバージョン用、もう 1 つは Production モデルバージョン用) を作成します。

Staging モデルバージョンの場合：

Bash
POST /api/2.0/serving-endpoints
  {
     "name":"modelA-Staging"
     "config":
     {
        "served_entities":
        [
           {
              "entity_name":"model-A",
              "entity_version":"2",  // Staging Model Version
              "workload_size":"Small",
              "scale_to_zero_enabled":true
           },
        ],
     },
  }

Production モデルバージョンの場合：

Bash
POST /api/2.0/serving-endpoints
  {
     "name":"modelA-Production"
     "config":
     {
        "served_entities":
        [
           {
              "entity_name":"model-A",
              "entity_version":"1",   // Production Model Version
              "workload_size":"Small",
              "scale_to_zero_enabled":true
           },
        ],
     },
  }

エンドポイントのステータスを確認します。

ステージングエンドポイントの場合: GET /api/2.0/serving-endpoints/modelA-Staging

本番運用エンドポイントの場合: GET /api/2.0/serving-endpoints/modelA-Production
エンドポイントの準備ができたら、次を使用してエンドポイントをクエリします。

ステージングエンドポイントの場合: POST /serving-endpoints/modelA-Staging/invocations

本番運用エンドポイントの場合: POST /serving-endpoints/modelA-Production/invocations
モデルバージョンの遷移に基づいてエンドポイントを更新します。

新しいモデルバージョン 3 を作成するシナリオでは、モデルバージョン 2 を Productionに移行し、モデルバージョン 3 を Staging に移行してモデルバージョン 1 を Archivedにすることができます。これらの変更は、次のように個別のモデルサービングエンドポイントに反映できます。

Staging エンドポイントについては、Stagingの新しいモデルバージョンを使用するようにエンドポイントを更新します。
Bash
```
PUT /api/2.0/serving-endpoints/modelA-Staging/config
{
   "served_entities":
   [
      {
         "entity_name":"model-A",
         "entity_version":"3",  // New Staging model version
         "workload_size":"Small",
         "scale_to_zero_enabled":true
      },
   ],
}
```
Productionエンドポイントについては、Productionの新しいモデルバージョンを使用するようにエンドポイントを更新します。
Bash
```
PUT /api/2.0/serving-endpoints/modelA-Production/config
{
   "served_entities":
   [
      {
         "entity_name":"model-A",
         "entity_version":"2",  // New Production model version
         "workload_size":"Small",
         "scale_to_zero_enabled":true
      },
   ],
}
```

追加のリソース

モデルサービングエンドポイントの作成

必要条件​

大幅な変更​

Legacy MLflow モデルサービングを使用するサービスエンドポイントを特定する​

レガシーMLflow モデルサービング提供モデルをモデルサービングへ移行​

デプロイされたモデルバージョンをモデルサービングに移行する​

追加のリソース​