メインコンテンツまでスキップ

モデルサービングの制限とリージョン

この記事では、 Mosaic AI Model Serving エンドポイントの種類とサポートされているエンドポイントの種類の制限事項と利用可能なリージョンをまとめています。

リソースとペイロードの制限

Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。 これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。

次の表は、モデルサービングエンドポイントのリソースとペイロードの制限をまとめたものです。

機能

粒度

上限

ペイロードサイズ

リクエストごと

16メガバイト 基盤モデル外部モデル、または AI エージェントを提供するエンドポイントの場合、制限は 4 MB です。

要求/応答のサイズ

リクエストごと

1 MB を超える要求/応答はログに記録されません。

1 秒あたりのクエリ数 (QPS)

ワークスペースごと

200 ですが、Databricks アカウント チームに連絡することで 25,000 以上に増やすことができます。

モデルの実行時間

リクエストごと

120秒

CPU エンドポイント モデルのメモリ使用量

エンドポイントごと

4 GB

GPU エンドポイント モデルのメモリ使用量

エンドポイントごと

割り当てられたGPUメモリと同等かそれ以上は、GPUワークロードのサイズによって異なります

プロビジョニングされた同時実行数

モデルごと、ワークスペースごと

200 の同時実行数。 Databricksアカウントチームに連絡することで増やすことができます。

オーバーヘッド遅延

リクエストごと

50 ミリ秒未満

initスクリプト

initスクリプトはサポートされていません。

基盤モデルAPI (トークン単位の従量課金) のレート制限

ワークスペースごと

次の制限がユース ケースに不十分な場合、Databricks ではプロビジョニングされたスループットを使用することをお勧めします。 - Llama 3.3 70B Instruct には、1 秒あたり 2 クエリ、1 時間あたり 1200 クエリの制限があります。 - Llama 3.1 405B Instruct には、1 秒あたり 1 クエリ、1 時間あたり 1200 クエリの制限があります。 - DBRX Instruct モデルには、1 秒あたり 1 クエリの制限があります。 - Mixtral-8x 7B Instruct のデフォルトのレート制限は 1 秒あたり 2 クエリです。 - GTE Large (En) には、毎秒 150 クエリのレート制限があります - BGE Large (En) のレート制限は 1 秒あたり 600 クエリです。

基盤モデルAPI (プロビジョニング スループット) レート制限

ワークスペースごと

200

ネットワークとセキュリティの制限

  • モデルサービング エンドポイントは 、アクセス制御 によって保護され、IP 許可リストや PrivateLink など、ワークスペースで構成されたネットワーク関連のイングレス ルールを尊重します。
  • デフォルトでは、モデルサービングは外部エンドポイントへの PrivateLink をサポートしていません。 この機能のサポートは、リージョンごとに評価および実装されます。 詳細については、 Databricks アカウントチームにお問い合わせください。
  • モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricks アカウントチームにお問い合わせください。

基盤モデル APIの制限

注記

基盤モデル APIの提供の一環として、 Databricks は、データの発生元であるリージョンおよびクラウド プロバイダーの外部でデータを処理する場合があります。

トークン単位の従量課金ワークロードとプロビジョニング スループット ワークロードの両方について、次のようになります。

  • ワークスペース管理者のみが、基盤モデル APIs エンドポイントのレート制限などのガバナンス設定を変更できます。 レート制限を変更するには、次の手順に従います。

    1. ワークスペースで Serving UI を開き、Serving エンドポイントを確認します。
    2. 編集する基盤モデルAPIエンドポイントの kebab メニューから、 [詳細の表示] を選択します。
    3. エンドポイントの詳細ページの右上にあるケバブメニューから、 [ レート制限の変更 ] を選択します。
  • GTE Large (En) 埋め込みモデルでは、正規化された埋め込みは生成されません。

トークン単位の従量課金制限

以下は、基盤モデル API トークン単位の従量課金 ワークロードに関連する制限です。

  • トークン単位の従量課金 ワークロードは HIPPA に準拠しています。

    • コンプライアンス セキュリティ プロファイルが有効になっている顧客の場合、コンプライアンス標準の HIPPA または None が選択されている場合、トークン単位の従量課金ワークロードを使用できます。 その他のコンプライアンス標準は、トークン単位の従量課金ワークロードではサポートされていません。
  • Anthropic Claude 3.7 Sonnet は、 us-east-1us-east-2us-west-2の各地域でのみ使用できます。

  • Meta Llama 3.3 70B Instruct および GTE Large (En) モデルは、トークン単位の従量課金 EU および US がサポートする地域で利用できます。

  • 次の トークン単位の従量課金 モデルは、トークン単位の従量課金がサポートされている米国リージョン APIs 基盤モデルでのみサポートされています。

    • Meta Llama 3.1 405B Instruct
    • DBRX Instruct
    • Mixtral-8x7B Instruct
    • BGE Large (En)
  • ワークスペースがモデルサービング リージョンにあり、米国または EU リージョンではない場合、ワークスペースで クロスジオ データ処理を有効にする必要があります。 有効にすると、トークン単位の従量課金ワークロードは米国 Databricks Geoにルーティングされます。トークン単位の従量課金ワークロードを処理する地理的リージョンを確認するには、「Databricks指定サービス」を参照してください。

プロビジョニングされたスループットの制限

以下は、基盤モデル API プロビジョン済み スループット ワークロードに関連する制限です。

  • プロビジョン済み スループット は HIPPA コンプライアンス プロファイルをサポートしており、コンプライアンス認定が必要なワークロードに推奨されます。
  • プロビジョニングされたスループット ワークロードに DBRX モデルアーキテクチャを使用するには、サービスエンドポイントが us-east-1 または us-west-2である必要があります。
  • 次の表は、サポートされている Meta Llama 3.1、3.2、および 3.3 モデルの利用可能な地域を示しています。 ファインチューンされたモデルをデプロイする方法のガイダンスについては、「 ファインチューンされた基盤モデルのデプロイ 」を参照してください。
  • Unity Catalog の system.ai から Meta Llama モデルをデプロイするには、該当する Instruct バージョンを選択する必要があります。Meta Llama モデルの基本バージョンは、Unity Catalog からのデプロイではサポートされていません。「[推奨] Unity Catalog から基盤モデルをデプロイする」を参照してください。

Meta Llamaモデルバリアント

リージョン

meta-llama/Llama-3.2-3B-Instruct

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

meta-llama/Llama-3.1-8B-Instruct

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

meta-llama/Llama-3.1-70B

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

meta-llama/Llama-3.1-70B-Instruct

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

meta-llama/Llama-3.1-405B

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

meta-llama/Llama-3.1-405B-Instruct

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

meta-llama/Llama-3.2-1B

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

meta-llama/Llama-3.2-1B-Instruct

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

meta-llama/Llama-3.2-3B

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

meta-llama/Llama-3.2-3B-Instruct

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

meta-llama/Llama-3.3-70B

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-southeast-1
  • ap-southeast-2
  • eu-central-1
  • eu-west-1

利用可能な地域

注記

サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。

ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンの コントロールプレーン によって提供されている場合、ワークスペースはモデルサービングをサポートしていません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。 詳細については、 Databricks アカウントチームにお問い合わせください。

機能の地域別の提供状況の詳細については、「 モデルサービング機能の利用可能性」を参照してください。