モデルサービングの制限と地域

この記事では、Mosaic AI Model Serving の制限事項と利用可能なリージョン、およびサポートされているエンドポイントの種類についてまとめます。

制限事項

Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するためにデフォルトの制限が課せられます。 これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。

次の表は、モデルビング エンドポイントのリソースとペイロードの制限をまとめたものです。

特徴量

粒 度

制限

ペイロードサイズ

要求ごと

16メガバイト 基盤モデルまたは外部モデルを提供するエンドポイントの場合、制限は 4 MB です。

クエリ/秒 (QPS)

ワークスペースごと

200 ですが、Databricks アカウント チームに連絡することで 25,000 以上に増やすことができます。

モデルの実行期間

要求ごと

120秒

CPU エンドポイント モデルのメモリ使用量

エンドポイントごと

4ギガバイト

GPU エンドポイント モデルのメモリ使用量

エンドポイントごと

割り当てられた GPU メモリ以上、GPU ワークロード サイズによって異なります

プロビジョニングされた同時実行性

モデルごと、ワークスペースごと

200 コンカレンシー。 Databricks アカウント チームに問い合わせることで増やすことができます。

オーバーヘッド待ち時間

要求ごと

50ミリ秒未満

基盤モデルAPI (トークン単位の従量課金) のレート制限

ワークスペースごと

次の制限がユース ケースに不十分な場合、Databricks ではプロビジョニングされたスループットを使用することをお勧めします。

  • Llama 3.1 70B Instruct には、1 秒あたり 2 クエリ、1 時間あたり 1200 クエリの制限があります。

  • Llama 3.1 405B Instruct には、1 秒あたり 1 クエリ、1 時間あたり 1200 クエリの制限があります。

  • DBRX Instruct モデルには、1 秒あたり 1 つのクエリの制限があります。

  • Mixtral-8x 7B Instruct のデフォルト・レート制限は 1 秒あたり 2 クエリです。

  • GTE Large (En) には、毎秒 150 クエリのレート制限があります

  • BGE Large (En) のレート制限は 1 秒あたり 600 クエリです。

基盤モデルAPI (プロビジョニング スループット) レート制限

ワークスペースごと

200

モデルサーバーエンドポイントはアクセス制御によって保護され、IP 許可リストやPrivateLinkなど、ワークスペースで構成されたネットワーク関連のイングレスルールを尊重します。

その他の制限があります。

  • ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロール プレーンによってサービスされている場合、ワークスペースはモデルサービングをサポートしません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、 Databricksアカウント チームにお問い合わせください。

  • モデルサービングはinitスクリプトをサポートしていません。

  • デフォルトでは、モデルサービングは外部エンドポイントへの PrivateLink をサポートしていません。 この機能のサポートは、リージョンごとに評価され、実装されます。 詳細については、Databricks アカウント チームにお問い合わせください。

  • モデルサービングは、本番運用の展開が不安定になるリスクがあるため、既存のモデル イメージにセキュリティ パッチを提供しません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricksアカウント チームにお問い合わせください。

プラットフォームAPIs制限

注:

基盤モデルAPIの提供の一環として、Databricks はデータが生成された地域およびクラウド プロバイダーの外でデータを処理する場合があります。

以下は、プラットフォームモデルAPIsのワークロードに関連する制限です。

  • プロビジョニング スループットはHIPPA コンプライアンス プロファイルをサポートしており、コンプライアンス認定を必要とするワークロードに使用する必要があります。

  • トークン単位の従量課金ワークロードは、HIPPA またはコンプライアンスのセキュリティ プロファイルに準拠していません

  • プラットフォームモデルAPIsエンドポイントの場合、レート制限などのガバナンス設定を変更できるのはワークスペース管理者のみです。 レート制限を変更するには、次のステップを使用します。

    1. ワークスペースでサービス提供 UI を開いて、サービス提供エンドポイントを確認します。

    2. 編集する基盤モデルAPIエンドポイントの kebab メニューから、 [詳細の表示]を選択します。

    3. エンドポイントの詳細ページの右上にあるケバブ メニューから、[ レート制限の変更] を選択します。

  • プロビジョニングされたスループットワークロードに DBRX モデルアーキテクチャを使用するには、サービスエンドポイントが us-east-1 または us-west-2である必要があります。

  • GTE Large (En) 埋め込みモデルでは、トークン単位の従量課金ワークロードとプロビジョニング スループット ワークロードの両方に対して正規化された埋め込みは生成されません。

  • GTE Large (En) および Meta Llama 3.1 70B Instruct モデルのみが、トークン単位の従量課金 EU と US のサポート地域で利用できます。

  • 次の トークン単位の従量課金 モデルは、トークン単位の従量課金がサポートされている米国リージョン APIs 基盤モデルでのみサポートされています。

    • Meta Llama 3.1 405B インストラクション

    • DBRX Instruct

    • Mixtral-8x7B Instruct

    • BGEラージ (ja)

利用可能なリージョン

注:

サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。

地域での機能の利用可能性に関する詳細については、 「モデルサービング機能の利用可能性」を参照してください。