モデルサービングの制限とリージョン

この記事では、 Mosaic AI Model Serving エンドポイントの種類とサポートされているエンドポイントの種類の制限事項と利用可能なリージョンをまとめています。

リソースとペイロードの制限

Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。これらの制限に関するフィードバックがある場合は、Databricks アカウントチームにお問い合わせください。

次の表は、モデルサービングエンドポイントのリソースとペイロードの制限をまとめたものです。

機能	粒度	上限
ペイロードサイズ	リクエストごと	16メガバイト基盤モデル、外部モデル、または AI エージェントを提供するエンドポイントの場合、制限は 4 MB です。
要求/応答のサイズ	リクエストごと	1 MB を超える要求/応答はログに記録されません。
1 秒あたりのクエリ数 (QPS)	ワークスペースごと	200.QPS を高くするには、ルートの最適化を有効にします。
モデルの実行時間	リクエストごと	297秒
CPU エンドポイントモデルのメモリ使用量	エンドポイントごと	4 GB
GPU エンドポイントモデルのメモリ使用量	エンドポイントごと	割り当てられたGPUメモリと同等かそれ以上は、GPUワークロードのサイズによって異なります
プロビジョニングされた同時実行数	モデルごと、ワークスペースごと	200 の同時実行数。 Databricksアカウントチームに連絡することで増やすことができます。
オーバーヘッド遅延	リクエストごと	50 ミリ秒未満
initスクリプト		initスクリプトはサポートされていません。
基盤モデル APIs rate limits	ワークスペースごと	トークン単位の従量課金とプロビジョニングスループット制限の詳細については、基盤モデル APIs rate limits and quotas を参照してください。

ネットワークとセキュリティの制限

モデルサービングエンドポイントは、アクセス制御によって保護され、IP 許可リストや PrivateLink など、ワークスペースで構成されたネットワーク関連のイングレスルールを尊重します。
デフォルトでは、モデルサービングは外部エンドポイントへの PrivateLink をサポートしていません。この機能のサポートは、リージョンごとに評価および実装されます。詳細については、 Databricks アカウントチームにお問い合わせください。
モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。詳細については、 Databricks アカウントチームにお問い合わせください。
モデルサービングエンドポイントからの送信ネットワークアクセスを制限するには、ネットワークポリシーを設定します。サーバレス egress 制御については、Manage network ポリシーを参照してください。

コンプライアンスセキュリティプロファイル標準: CPU と GPU のワークロード

次の表に、外部モデルを含む CPU および GPU ワークロードでのモデルサービングのリージョン、可用性、サポートされているコンプライアンス、セキュリティプロファイル、コンプライアンス標準を示します。

注記

これらのコンプライアンス標準では、提供されるコンテナを最新の 30 日間に組み込む必要があります。 Databricks は、ユーザーに代わって古いコンテナを自動的に再構築します。ただし、この自動ジョブが失敗した場合は、次のようなイベントログメッセージが表示され、エンドポイントがコンプライアンス要件内に収まるようにするためのガイダンスが提供されます。

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

リージョン	場所	HIPAA	PCI-DSS	FedRAMP Moderate	IRAP	CCCSミディアム(プロテクトB)	英国サイバーエッセンシャルプラス
`ap-northeast-1`	アジア太平洋（東京）	✓	✓
`ap-northeast-2`	アジア太平洋（ソウル）	✓	✓
`ap-south-1`	アジア太平洋（ムンバイ）	✓	✓
`ap-southeast-1`	アジア太平洋（シンガポール）	✓	✓
`ap-southeast-2`	アジア太平洋（シドニー）	✓	✓		✓
`ca-central-1`	中央カナダ	✓	✓			✓
`eu-central-1`	EU（フランクフルト）	✓	✓
`eu-west-1`	EU（アイルランド）	✓	✓
`eu-west-2`	EU（ロンドン）	✓	✓				✓
`eu-west-3`	EU（パリ）
`sa-east-1`	南米（サンパウロ）	✓	✓
`us-east-1`	米国東部（バージニア北部）	✓	✓	✓
`us-east-2`	米国東部（オハイオ）	✓	✓	✓
`us-gov-west-1`	US Gov West (ペンドルトン)
`us-west-1`	米国西部（北カリフォルニア）
`us-west-2`	米国西部（オレゴン）	✓	✓	✓

コンプライアンス security profile standards: ワークロード APIs 基盤モデル

次の表に、次の基盤モデル APIs ワークロードでサポートされているコンプライアンスセキュリティプロファイルコンプライアンス標準を示します。

プロビジョニング済みスループット
トークンごとの従量課金制
AI Functions モデルと Databricksホスト型モデルを使用したバッチ推論

注記

リージョン	場所	HIPAA	PCI-DSS	FedRAMP Moderate	IRAP	CCCSミディアム(プロテクトB)	英国サイバーエッセンシャルプラス
`ap-northeast-1`	アジア太平洋（東京）	✓	✓
`ap-northeast-2`	アジア太平洋（ソウル）	✓	✓
`ap-south-1`	アジア太平洋（ムンバイ）	✓	✓
`ap-southeast-1`	アジア太平洋（シンガポール）	✓	✓
`ap-southeast-2`	アジア太平洋（シドニー）	✓	✓		✓
`ca-central-1`	中央カナダ	✓	✓			✓
`eu-central-1`	EU（フランクフルト）	✓	✓
`eu-west-1`	EU（アイルランド）	✓	✓
`eu-west-2`	EU（ロンドン）	✓	✓				✓*
`eu-west-3`	EU（パリ）
`sa-east-1`	南米（サンパウロ）	✓	✓
`us-east-1`	米国東部（バージニア北部）	✓	✓	✓
`us-east-2`	米国東部（オハイオ）	✓	✓	✓
`us-gov-west-1`	US Gov West (ペンドルトン)
`us-west-1`	米国西部（北カリフォルニア）
`us-west-2`	米国西部（オレゴン）	✓	✓	✓

* 一部のモデルでは、プロビジョニングされたスループットのために地域をまたいだルーティングが必要なため、UK Cyber Essentials Plus に準拠していません。詳細については、 Databricks アカウントチームにお問い合わせください。

基盤モデル APIの制限

詳細については、基盤モデル APIsに関する詳細情報:

レート制限とクォータ : 基盤モデル APIs レート制限とクォータ - TPM 制限、リージョンの可用性、モデル固有の制限が含まれます
コンプライアンスとセキュリティ : コンプライアンスとセキュリティ APIs 基盤モデル - コンプライアンス標準、データ処理、セキュリティ要件をカバー

利用可能な地域

注記

サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウントチームにお問い合わせください。

ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロールプレーンによって提供されている場合、ワークスペースはモデルサービングをサポートしていません。このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。詳細については、 Databricks アカウントチームにお問い合わせください。

各モデルサービング機能の地域別可用性の詳細については、モデルサービング機能の可用性を参照してください。

Databricks-hosted 基盤モデルのリージョンの可用性については、「Databricksでホストされる基盤モデル」を参照してください。

リソースとペイロードの制限​

ネットワークとセキュリティの制限​

コンプライアンス セキュリティ プロファイル標準: CPU と GPU のワークロード​

コンプライアンス security profile standards: ワークロード APIs 基盤モデル​

基盤モデル APIの制限​

利用可能な地域​