モデルサービングの制限とリージョン

この記事では、 Mosaic AI Model Serving エンドポイントの種類とサポートされているエンドポイントの種類の制限事項と利用可能なリージョンをまとめています。

リソースとペイロードの制限

Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。これらの制限に関するフィードバックがある場合は、Databricks アカウントチームにお問い合わせください。

次の表は、モデルサービングエンドポイントのリソースとペイロードの制限をまとめたものです。

機能	粒度	上限
ペイロードサイズ	リクエストごと	16メガバイト基盤モデル、外部モデル、または AI エージェントを提供するエンドポイントの場合、制限は 4 MB です。
要求/応答のサイズ	リクエストごと	1 MB を超える要求/応答はログに記録されません。
1 秒あたりのクエリ数 (QPS)	ワークスペースごと	200.QPS を高くするには、ルートの最適化を有効にします。
モデルの実行時間	リクエストごと	120秒
CPU エンドポイントモデルのメモリ使用量	エンドポイントごと	4 GB
GPU エンドポイントモデルのメモリ使用量	エンドポイントごと	割り当てられたGPUメモリと同等かそれ以上は、GPUワークロードのサイズによって異なります
プロビジョニングされた同時実行数	モデルごと、ワークスペースごと	200 の同時実行数。 Databricksアカウントチームに連絡することで増やすことができます。
オーバーヘッド遅延	リクエストごと	50 ミリ秒未満
initスクリプト		initスクリプトはサポートされていません。
基盤モデルAPI (トークン単位の従量課金) のレート制限	ワークスペースごと	次の制限がユースケースに不十分な場合、Databricks ではプロビジョニングされたスループットを使用することをお勧めします。 - Claude Sonnet 4 には、1 秒あたり 2 クエリの制限があります。 - Claude Opus 4 には、1 秒あたり 2 クエリの制限があります。 - Llama 4 Maverick には、1 秒あたり 4 クエリ、1 時間あたり 2400 クエリの制限があります。 - Claude 3.7 Sonnet には、1 秒あたり 4 クエリ、1 時間あたり 2400 クエリの制限があります。 - Llama 3.3 70B Instruct には、毎秒 4 クエリ、1 時間あたり 2400 クエリの制限があります。 - Llama 3.1 405B Instruct には、1 秒あたり 1 クエリ、1 時間あたり 1200 クエリの制限があります。 - Llama 3.1 8B Instruct には、1 秒あたり 2 クエリの制限があります。 - GTE Large (En) には、毎秒 150 クエリのレート制限があります - BGE Large (En) のレート制限は 1 秒あたり 600 クエリです。
基盤モデルAPI (プロビジョニングスループット) レート制限	ワークスペースごと	毎秒 200 クエリ。

ネットワークとセキュリティの制限

モデルサービングエンドポイントは、アクセス制御によって保護され、IP 許可リストや PrivateLink など、ワークスペースで構成されたネットワーク関連のイングレスルールを尊重します。
デフォルトでは、モデルサービングは外部エンドポイントへの PrivateLink をサポートしていません。この機能のサポートは、リージョンごとに評価および実装されます。詳細については、 Databricks アカウントチームにお問い合わせください。
モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。詳細については、 Databricks アカウントチームにお問い合わせください。
モデルサービングエンドポイントからの送信ネットワークアクセスを制限するには、ネットワークポリシーを設定します。サーバレス egress 制御については、Manage network ポリシーを参照してください。

コンプライアンスセキュリティプロファイル標準: CPU と GPU のワークロード

次の表に、CPU ワークロードと GPU ワークロードでのモデルサービングのリージョンの可用性とサポートされているコンプライアンスプロファイル、コンプライアンス標準を示します。

注記

これらのコンプライアンス標準では、提供されるコンテナを最新の 30 日間に組み込む必要があります。 Databricks は、ユーザーに代わって古いコンテナを自動的に再構築します。ただし、この自動ジョブが失敗した場合は、次のようなイベントログメッセージが表示され、エンドポイントがコンプライアンス要件内に収まるようにするためのガイダンスが提供されます。

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

リージョン	場所	HIPAA	PCI-DSS	FedRAMP Moderate	IRAP	CCCSミディアム(プロテクトB)	英国サイバーエッセンシャルプラス
`ap-northeast-1`	アジア太平洋（東京）	✓	✓
`ap-northeast-2`	アジア太平洋（ソウル）	✓	✓
`ap-south-1`	アジア太平洋（ムンバイ）	✓	✓
`ap-southeast-1`	アジア太平洋（シンガポール）	✓	✓
`ap-southeast-2`	アジア太平洋（シドニー）	✓	✓		✓
`ca-central-1`	中央カナダ	✓	✓			✓
`eu-central-1`	EU（フランクフルト）	✓	✓
`eu-west-1`	EU（アイルランド）	✓	✓
`eu-west-2`	EU（ロンドン）	✓	✓				✓
`eu-west-3`	EU（パリ）
`sa-east-1`	南米（サンパウロ）	✓	✓
`us-east-1`	米国東部（バージニア北部）	✓	✓	✓
`us-east-2`	米国東部（オハイオ）	✓	✓
`us-gov-west-1`	US Gov West (ペンドルトン)
`us-west-1`	米国西部（北カリフォルニア）
`us-west-2`	米国西部（オレゴン）	✓	✓	✓

コンプライアンスセキュリティプロファイル標準: プロビジョニングされたスループット

次の表に、基盤モデル API プロビジョニングスループットワークロードでサポートされているコンプライアンスセキュリティプロファイルコンプライアンス標準を示します。

注記

リージョン	場所	HIPAA	PCI-DSS	FedRAMP Moderate	IRAP	CCCSミディアム(プロテクトB)	英国サイバーエッセンシャルプラス
`ap-northeast-1`	アジア太平洋（東京）	✓	✓
`ap-northeast-2`	アジア太平洋（ソウル）	✓	✓
`ap-south-1`	アジア太平洋（ムンバイ）	✓	✓
`ap-southeast-1`	アジア太平洋（シンガポール）	✓	✓
`ap-southeast-2`	アジア太平洋（シドニー）	✓	✓		✓
`ca-central-1`	中央カナダ	✓	✓			✓
`eu-central-1`	EU（フランクフルト）	✓	✓
`eu-west-1`	EU（アイルランド）	✓	✓
`eu-west-2`	EU（ロンドン）	✓	✓				✓*
`eu-west-3`	EU（パリ）
`sa-east-1`	南米（サンパウロ）	✓	✓
`us-east-1`	米国東部（バージニア北部）	✓	✓	✓
`us-east-2`	米国東部（オハイオ）	✓	✓
`us-gov-west-1`	US Gov West (ペンドルトン)
`us-west-1`	米国西部（北カリフォルニア）
`us-west-2`	米国西部（オレゴン）	✓	✓	✓

* 一部のモデルでは、プロビジョニングされたスループットのために地域をまたいだルーティングが必要なため、UK Cyber Essentials Plus に準拠していません。詳細については、 Databricks アカウントチームにお問い合わせください。

基盤モデル APIの制限

注記

基盤モデル APIの提供の一環として、 Databricks は、データの発生元であるリージョンおよびクラウドプロバイダーの外部でデータを処理する場合があります。

トークン単位の従量課金ワークロードとプロビジョニングスループット ワークロードの両方について、次のようになります。

ワークスペース管理者のみが、基盤モデル API エンドポイントのレート制限などのガバナンス設定を変更できます。レート制限を変更するには、次の手順に従います。
1. ワークスペースで Serving UI を開き、Serving エンドポイントを確認します。
2. 編集する基盤モデルAPIエンドポイントの kebab メニューから、 [詳細の表示] を選択します。
3. エンドポイントの詳細ページの右上にあるケバブメニューから、 [ レート制限の変更 ] を選択します。
GTE Large (En) 埋め込みモデルでは、正規化された埋め込みは生成されません。

トークン単位の従量課金制限

以下は、基盤モデル API トークン単位の従量課金 ワークロードに関連する制限です。

トークン単位の従量課金 ワークロードは HIPPA に準拠しています。
- コンプライアンスセキュリティプロファイルが有効になっている顧客の場合、コンプライアンス標準の HIPPA または None が選択されている場合、トークン単位の従量課金ワークロードを使用できます。その他のコンプライアンス標準は、トークン単位の従量課金ワークロードではサポートされていません。
次の トークン単位の従量課金 モデルは、トークン単位の従量課金がサポートされている米国リージョン API 基盤モデルでのみサポートされています。
- Anthropic クロード・ソネット4
- Anthropic クロード Op.4
- Meta Llama 3.1 405B Instruct
- BGE Large (En)
ワークスペースがモデルサービングリージョンにあり、米国または EU リージョンではない場合、ワークスペースでクロスジオデータ処理を有効にする必要があります。「地理的領域、プロセス、トークン単位の従量課金ワークロード、および地域間データ処理が有効な場合にワークロードがルーティングされる場所のDatabricks 指定サービス」を参照してください。

プロビジョニングされたスループットの制限

以下は、基盤モデル API プロビジョン済みスループット ワークロードに関連する制限です。

プロビジョン済みスループット は HIPPA コンプライアンスプロファイルをサポートしており、コンプライアンス認定が必要なワークロードに推奨されます。
プロビジョニングされたスループット ワークロードに DBRX モデルアーキテクチャを使用するには、サービスエンドポイントが us-east-1 または us-west-2である必要があります。
Llama 4 Maverick を使用するプロビジョニング済みスループットワークロードの場合:
- プロビジョニングされたスループットワークロードでのこのモデルのサポートは、パブリックプレビュー段階です。
- オートスケールには対応しておりません。
- メトリクスパネルはサポートされていません。
- トラフィック分割は、Llama 4 Maverick を提供するエンドポイントではサポートされていません。Llama 4 Maverick を提供するエンドポイントで複数のモデルを提供することはできません。
Unity Catalog の system.ai から Meta Llama モデルをデプロイするには、該当する Instruct バージョンを選択する必要があります。Meta Llama モデルの基本バージョンは、Unity Catalog からのデプロイではサポートされていません。「[推奨] Unity Catalog から基盤モデルをデプロイする」を参照してください。

利用可能な地域

注記

サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウントチームにお問い合わせください。

ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロールプレーンによって提供されている場合、ワークスペースはモデルサービングをサポートしていません。このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。詳細については、 Databricks アカウントチームにお問い合わせください。

各モデルサービング機能の地域別の提供状況の詳細については、モデルサービング機能の可用性を参照してください。

Databricks-hosted 基盤モデルのリージョンの可用性については、「Databricksでホストされる基盤モデル」を参照してください。

リソースとペイロードの制限​

ネットワークとセキュリティの制限​

コンプライアンス セキュリティ プロファイル標準: CPU と GPU のワークロード​

コンプライアンス セキュリティ プロファイル標準: プロビジョニングされたスループット​

基盤モデル APIの制限​

トークン単位の従量課金制限​

プロビジョニングされたスループットの制限​

利用可能な地域​