モデルサービングの制限と地域

この記事では、Mosaic AI Model Serving の制限事項と利用可能なリージョン、およびサポートされているエンドポイントの種類についてまとめます。

リソースとペイロードの制限

Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。 これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。

次の表は、モデルビング エンドポイントのリソースとペイロードの制限をまとめたものです。

特徴量

粒 度

制限

ペイロードサイズ

要求ごと

16メガバイト 基盤モデルまたは外部モデルを提供するエンドポイントの場合、制限は 4 MB です。

クエリ/秒 (QPS)

ワークスペースごと

200 ですが、Databricks アカウント チームに連絡することで 25,000 以上に増やすことができます。

モデルの実行期間

要求ごと

120秒

CPU エンドポイント モデルのメモリ使用量

エンドポイントごと

4ギガバイト

GPU エンドポイント モデルのメモリ使用量

エンドポイントごと

割り当てられた GPU メモリ以上、GPU ワークロード サイズによって異なります

プロビジョニングされた同時実行性

モデルごと、ワークスペースごと

200 コンカレンシー。 Databricks アカウント チームに問い合わせることで増やすことができます。

オーバーヘッド待ち時間

要求ごと

50ミリ秒未満

initスクリプト

initスクリプトはサポートされていません。

基盤モデルAPI (トークン単位の従量課金) のレート制限

ワークスペースごと

次の制限がユース ケースに不十分な場合、Databricks ではプロビジョニングされたスループットを使用することをお勧めします。

  • Llama 3.1 70B Instruct には、1 秒あたり 2 クエリ、1 時間あたり 1200 クエリの制限があります。

  • Llama 3.1 405B Instruct には、1 秒あたり 1 クエリ、1 時間あたり 1200 クエリの制限があります。

  • DBRX Instruct モデルには、1 秒あたり 1 つのクエリの制限があります。

  • Mixtral-8x 7B Instruct のデフォルト・レート制限は 1 秒あたり 2 クエリです。

  • GTE Large (En) には、毎秒 150 クエリのレート制限があります

  • BGE Large (En) のレート制限は 1 秒あたり 600 クエリです。

基盤モデルAPI (プロビジョニング スループット) レート制限

ワークスペースごと

200

ネットワークとセキュリティの制限

  • モデルサーバーエンドポイントはアクセス制御によって保護され、IP 許可リストやPrivateLinkなど、ワークスペースで構成されたネットワーク関連のイングレスルールを尊重します。

  • デフォルトでは、モデルサービングは外部エンドポイントへの PrivateLink をサポートしていません。 この機能のサポートは、リージョンごとに評価および実装されます。 詳細については、 Databricks アカウントチームにお問い合わせください。

  • モデルサービングは、本番運用の展開が不安定になるリスクがあるため、既存のモデル イメージにセキュリティ パッチを提供しません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricksアカウント チームにお問い合わせください。

プラットフォームAPIs制限

注:

基盤モデル APIsの提供の一環として、 Databricks は、データの発生元であるリージョンおよびクラウド プロバイダーの外部でデータを処理する場合があります。

トークン単位の従量課金ワークロードとプロビジョニング スループット ワークロードの両方について、次のようになります。

  • ワークスペース管理者のみが、基盤モデル APIs エンドポイントのレート制限などのガバナンス設定を変更できます。 レート制限を変更するには、次の手順を実行します。

    1. ワークスペースでサービス提供 UI を開いて、サービス提供エンドポイントを確認します。

    2. 編集する基盤モデルAPIエンドポイントの kebab メニューから、 [詳細の表示]を選択します。

    3. エンドポイントの詳細ページの右上にあるケバブ メニューから、[ レート制限の変更] を選択します。

  • GTE Large (En) 埋め込みモデルでは、正規化された埋め込みは生成されません。

トークン単位の従量課金制限

以下は、基盤モデル APIs トークン単位の従量課金 ワークロードに関連する制限です。

  • トークン単位の従量課金ワークロードは、HIPPA またはコンプライアンスのセキュリティ プロファイルに準拠していません

  • GTE Large (En) および Meta Llama 3.1 70B Instruct モデルは、トークン単位の従量課金 EU および米国がサポートする地域で利用できます。

  • 次の トークン単位の従量課金 モデルは、トークン単位の従量課金がサポートされている米国リージョン APIs 基盤モデルでのみサポートされています。

    • Meta Llama 3.1 405B インストラクション

    • DBRX Instruct

    • Mixtral-8x7B Instruct

    • BGEラージ (ja)

  • ワークスペースがモデルサービング リージョンにあり、米国または EU リージョンではない場合、ワークスペースで クロスジオ データ処理を有効にする必要があります。 有効にすると、トークン単位の従量課金ワークロードは米国 Databricks Geoにルーティングされます。トークン単位の従量課金ワークロードを処理する地理的リージョンを確認するには、「指定サービスDatabricks」を参照してください。

プロビジョニングされたスループットの制限

以下は、基盤モデル APIs プロビジョニング スループット ワークロードに関連する制限です。

  • プロビジョニング スループット は HIPPA コンプライアンス プロファイルをサポートしており、コンプライアンス認定が必要なワークロードに推奨されます。

  • プロビジョニングされたスループットワークロードに DBRX モデルアーキテクチャを使用するには、サービスエンドポイントが us-east-1 または us-west-2である必要があります。

  • 次の表は、サポートされている Meta Llama 3.1 および 3.2 モデルの利用可能な地域を示しています。 微調整されたモデルをデプロイする方法のガイダンスについては、「 微調整された基盤モデルのデプロイ 」を参照してください。

メタ Llama モデルバリアント

リージョン

メタラマ/ラマ-3.1-8B

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

メタラマ/ラマ-3.1-8B-指示

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

メタラマ/ラマ-3.1-70B

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

メタラマ/ラマ-3.1-70B-インストラクション

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

メタラマ/ラマ-3.1-405B

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

メタラマ/ラマ-3.1-405B-インストラクション

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

メタラマ/ラマ-3.2-1B

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

メタラマ/ラマ-3.2-1B-指示

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

メタラマ/ラマ-3.2-3B

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

メタラマ/ラマ-3.2-3B-インストラクション

  • us-east-1

  • us-east-2

  • us-west-2

  • ap-northeast-1

  • ap-southeast-1

利用可能なリージョン

注:

サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。

ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロール プレーンによってサービスされている場合、ワークスペースはモデルサービングをサポートしません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、 Databricksアカウント チームにお問い合わせください。

地域での機能の利用可能性に関する詳細については、 「モデルサービング機能の利用可能性」を参照してください。