モデルサービングの制限と地域
この記事では、Mosaic AI Model Serving の制限事項と利用可能なリージョン、およびサポートされているエンドポイントの種類についてまとめます。
制限事項
Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するためにデフォルトの制限が課せられます。 これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。
次の表は、モデルビング エンドポイントのリソースとペイロードの制限をまとめたものです。
特徴量 |
粒 度 |
制限 |
---|---|---|
ペイロードサイズ |
要求ごと |
|
クエリ/秒 (QPS) |
ワークスペースごと |
200 ですが、Databricks アカウント チームに連絡することで 25,000 以上に増やすことができます。 |
モデルの実行期間 |
要求ごと |
120秒 |
CPU エンドポイント モデルのメモリ使用量 |
エンドポイントごと |
4ギガバイト |
GPU エンドポイント モデルのメモリ使用量 |
エンドポイントごと |
割り当てられた GPU メモリ以上、GPU ワークロード サイズによって異なります |
プロビジョニングされた同時実行性 |
モデルごと、ワークスペースごと |
200 コンカレンシー。 Databricks アカウント チームに問い合わせることで増やすことができます。 |
オーバーヘッド待ち時間 |
要求ごと |
50ミリ秒未満 |
基盤モデルAPI (トークン単位の従量課金) のレート制限 |
ワークスペースごと |
次の制限がユース ケースに不十分な場合、Databricks ではプロビジョニングされたスループットを使用することをお勧めします。
|
基盤モデルAPI (プロビジョニング スループット) レート制限 |
ワークスペースごと |
200 |
モデルサーバーエンドポイントはアクセス制御によって保護され、IP 許可リストやPrivateLinkなど、ワークスペースで構成されたネットワーク関連のイングレスルールを尊重します。
その他の制限があります。
ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロール プレーンによってサービスされている場合、ワークスペースはモデルサービングをサポートしません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、 Databricksアカウント チームにお問い合わせください。
モデルサービングはinitスクリプトをサポートしていません。
デフォルトでは、モデルサービングは外部エンドポイントへの PrivateLink をサポートしていません。 この機能のサポートは、リージョンごとに評価され、実装されます。 詳細については、Databricks アカウント チームにお問い合わせください。
モデルサービングは、本番運用の展開が不安定になるリスクがあるため、既存のモデル イメージにセキュリティ パッチを提供しません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricksアカウント チームにお問い合わせください。
プラットフォームAPIs制限
注:
基盤モデルAPIの提供の一環として、Databricks はデータが生成された地域およびクラウド プロバイダーの外でデータを処理する場合があります。
以下は、プラットフォームモデルAPIsのワークロードに関連する制限です。
プロビジョニング スループットはHIPPA コンプライアンス プロファイルをサポートしており、コンプライアンス認定を必要とするワークロードに使用する必要があります。
トークン単位の従量課金ワークロードは、HIPPA またはコンプライアンスのセキュリティ プロファイルに準拠していません。
プラットフォームモデルAPIsエンドポイントの場合、レート制限などのガバナンス設定を変更できるのはワークスペース管理者のみです。 レート制限を変更するには、次のステップを使用します。
ワークスペースでサービス提供 UI を開いて、サービス提供エンドポイントを確認します。
編集する基盤モデルAPIエンドポイントの kebab メニューから、 [詳細の表示]を選択します。
エンドポイントの詳細ページの右上にあるケバブ メニューから、[ レート制限の変更] を選択します。
プロビジョニングされたスループットワークロードに DBRX モデルアーキテクチャを使用するには、サービスエンドポイントが
us-east-1
またはus-west-2
である必要があります。GTE Large (En) 埋め込みモデルでは、トークン単位の従量課金ワークロードとプロビジョニング スループット ワークロードの両方に対して正規化された埋め込みは生成されません。
GTE Large (En) および Meta Llama 3.1 70B Instruct モデルのみが、トークン単位の従量課金 EU と US のサポート地域で利用できます。
次の トークン単位の従量課金 モデルは、トークン単位の従量課金がサポートされている米国リージョン APIs 基盤モデルでのみサポートされています。
Meta Llama 3.1 405B インストラクション
DBRX Instruct
Mixtral-8x7B Instruct
BGEラージ (ja)
利用可能なリージョン
注:
サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。
地域での機能の利用可能性に関する詳細については、 「モデルサービング機能の利用可能性」を参照してください。