モデルサービングの制限とリージョン
この記事では、 Mosaic AI Model Serving エンドポイントの種類とサポートされているエンドポイントの種類の制限事項と利用可能なリージョンをまとめています。
リソースとペイロードの制限
Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。 これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。
次の表は、モデルサービングエンドポイントのリソースとペイロードの制限をまとめたものです。
機能 | 粒度 | 上限 |
---|---|---|
ペイロードサイズ | リクエストごと | 16メガバイト 基盤モデル、外部モデル、または AI エージェントを提供するエンドポイントの場合、制限は 4 MB です。 |
要求/応答のサイズ | リクエストごと | 1 MB を超える要求/応答はログに記録されません。 |
1 秒あたりのクエリ数 (QPS) | ワークスペースごと | 200 ですが、Databricks アカウント チームに連絡することで 25,000 以上に増やすことができます。 |
モデルの実行時間 | リクエストごと | 120秒 |
CPU エンドポイント モデルのメモリ使用量 | エンドポイントごと | 4 GB |
GPU エンドポイント モデルのメモリ使用量 | エンドポイントごと | 割り当てられたGPUメモリと同等かそれ以上は、GPUワークロードのサイズによって異なります |
プロビジョニングされた同時実行数 | モデルごと、ワークスペースごと | 200 の同時実行数。 Databricksアカウントチームに連絡することで増やすことができます。 |
オーバーヘッド遅延 | リクエストごと | 50 ミリ秒未満 |
initスクリプト | initスクリプトはサポートされていません。 | |
基盤モデルAPI (トークン単位の従量課金) のレート制限 | ワークスペースごと | 次の制限がユース ケースに不十分な場合、Databricks ではプロビジョニングされたスループットを使用することをお勧めします。 - Llama 4 Maverick には、1 秒あたり 4 クエリ、1 時間あたり 2400 クエリの制限があります。 - Claude 3.7 Sonnet には、1 秒あたり 4 クエリ、1 時間あたり 2400 クエリの制限があります。 - Llama 3.3 70B Instruct には、毎秒 4 クエリ、1 時間あたり 2400 クエリの制限があります。 - Llama 3.1 405B Instruct には、1 秒あたり 1 クエリ、1 時間あたり 1200 クエリの制限があります。 - Llama 3.1 8B Instruct には、1 秒あたり 2 クエリの制限があります。 - GTE Large (En) には、毎秒 150 クエリのレート制限があります - BGE Large (En) のレート制限は 1 秒あたり 600 クエリです。 |
基盤モデルAPI (プロビジョニング スループット) レート制限 | ワークスペースごと | 毎秒 200 クエリ。 |
ネットワークとセキュリティの制限
- モデルサービング エンドポイントは 、アクセス制御 によって保護され、IP 許可リストや PrivateLink など、ワークスペースで構成されたネットワーク関連のイングレス ルールを尊重します。
- デフォルトでは、モデルサービングは外部エンドポイントへの PrivateLink をサポートしていません。 この機能のサポートは、リージョンごとに評価および実装されます。 詳細については、 Databricks アカウントチームにお問い合わせください。
- モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricks アカウントチームにお問い合わせください。
コンプライアンス セキュリティ プロファイル標準: CPU と GPU のワークロード
次の表に、CPU ワークロードと GPU ワークロードでのモデルサービングのリージョンの可用性とサポートされているコンプライアンス プロファイル、コンプライアンス標準を示します。
これらのコンプライアンス標準では、提供されるコンテナを最新の 30 日間に組み込む必要があります。 Databricks は、ユーザーに代わって古いコンテナを自動的に再構築します。ただし、この自動ジョブが失敗した場合は、次のようなイベントログメッセージが表示され、エンドポイントがコンプライアンス要件内に収まるようにするためのガイダンスが提供されます。
"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."
リージョン | 場所 | HIPAA | PCI-DSS | FedRAMP Moderate | IRAP | CCCSミディアム(プロテクトB) | 英国サイバーエッセンシャルプラス |
---|---|---|---|---|---|---|---|
| アジア太平洋(東京) | ✓ | ✓ | ||||
| アジア太平洋(ソウル) | ✓ | ✓ | ||||
| アジア太平洋(ムンバイ) | ✓ | ✓ | ||||
| アジア太平洋(シンガポール) | ✓ | ✓ | ||||
| アジア太平洋(シドニー) | ✓ | ✓ | ||||
| 中央カナダ | ✓ | ✓ | ||||
| EU(フランクフルト) | ✓ | ✓ | ||||
| EU(アイルランド) | ✓ | ✓ | ||||
| EU(ロンドン) | ✓ | ✓ | ✓ | |||
| EU(パリ) | ||||||
| 南米(サンパウロ) | ✓ | ✓ | ||||
| 米国東部(バージニア北部) | ✓ | ✓ | ||||
| 米国東部(オハイオ) | ✓ | ✓ | ||||
| US Gov West (ペンドルトン) | ||||||
| 米国西部(北カリフォルニア) | ||||||
| 米国西部(オレゴン) | ✓ | ✓ |
コンプライアンス セキュリティ プロファイル標準: プロビジョニングされたスループット
次の表に、基盤モデル APIs プロビジョニング スループット ワークロードでサポートされているコンプライアンス セキュリティ プロファイル コンプライアンス標準を示します。
これらのコンプライアンス標準では、提供されるコンテナを最新の 30 日間に組み込む必要があります。 Databricks は、ユーザーに代わって古いコンテナを自動的に再構築します。ただし、この自動ジョブが失敗した場合は、次のようなイベントログメッセージが表示され、エンドポイントがコンプライアンス要件内に収まるようにするためのガイダンスが提供されます。
"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."
リージョン | 場所 | HIPAA | PCI-DSS | FedRAMP Moderate | IRAP | CCCSミディアム(プロテクトB) | 英国サイバーエッセンシャルプラス |
---|---|---|---|---|---|---|---|
| アジア太平洋(東京) | ✓ | ✓ | ||||
| アジア太平洋(ソウル) | ✓ | ✓ | ||||
| アジア太平洋(ムンバイ) | ✓ | ✓ | ||||
| アジア太平洋(シンガポール) | ✓ | ✓ | ||||
| アジア太平洋(シドニー) | ✓ | ✓ | ||||
| 中央カナダ | ✓ | ✓ | ||||
| EU(フランクフルト) | ✓ | ✓ | ||||
| EU(アイルランド) | ✓ | ✓ | ||||
| EU(ロンドン) | ✓ | ✓ | ✓* | |||
| EU(パリ) | ||||||
| 南米(サンパウロ) | ✓ | ✓ | ||||
| 米国東部(バージニア北部) | ✓ | ✓ | ||||
| 米国東部(オハイオ) | ✓ | ✓ | ||||
| US Gov West (ペンドルトン) | ||||||
| 米国西部(北カリフォルニア) | ||||||
| 米国西部(オレゴン) | ✓ | ✓ |
* 一部のモデルでは、プロビジョニングされたスループットのために地域をまたいだルーティングが必要なため、UK Cyber Essentials Plus に準拠していません。詳細については、 Databricks アカウントチームにお問い合わせください。
基盤モデル APIの制限
基盤モデル APIの提供の一環として、 Databricks は、データの発生元であるリージョンおよびクラウド プロバイダーの外部でデータを処理する場合があります。
トークン単位の従量課金ワークロードとプロビジョニング スループット ワークロードの両方について、次のようになります。
-
ワークスペース管理者のみが、基盤モデル APIs エンドポイントのレート制限などのガバナンス設定を変更できます。 レート制限を変更するには、次の手順に従います。
- ワークスペースで Serving UI を開き、Serving エンドポイントを確認します。
- 編集する基盤モデルAPIエンドポイントの kebab メニューから、 [詳細の表示] を選択します。
- エンドポイントの詳細ページの右上にあるケバブメニューから、 [ レート制限の変更 ] を選択します。
-
GTE Large (En) 埋め込みモデルでは、正規化された埋め込みは生成されません。
トークン単位の従量課金制限
以下は、基盤モデル API トークン単位の従量課金 ワークロードに関連する制限です。
-
トークン単位の従量課金 ワークロードは HIPPA に準拠しています。
- コンプライアンス セキュリティ プロファイルが有効になっている顧客の場合、コンプライアンス標準の HIPPA または None が選択されている場合、トークン単位の従量課金ワークロードを使用できます。 その他のコンプライアンス標準は、トークン単位の従量課金ワークロードではサポートされていません。
-
Anthropic Claude 3.7 Sonnet 、 Meta Llama 4 Maverick 、 Meta Llama 3.3 70B Instruct 、 および GTE Large (En) モデルは、トークン単位の従量課金 EU および米国でサポートされている地域で利用できます。
-
次の トークン単位の従量課金 モデルは、トークン単位の従量課金がサポートされている米国リージョン APIs 基盤モデルでのみサポートされています。
- Meta Llama 3.1 405B Instruct
- BGE Large (En)
-
ワークスペースがモデルサービング リージョンにあり、米国または EU リージョンではない場合、ワークスペースで クロスジオ データ処理を有効にする必要があります。 有効にすると、トークン単位の従量課金ワークロードは米国 Databricks Geoにルーティングされます。トークン単位の従量課金ワークロードを処理する地理的リージョンを確認するには、「Databricks指定サービス」を参照してください。
プロビジョニングされたスループットの制限
以下は、基盤モデル API プロビジョン済み スループット ワークロードに関連する制限です。
-
プロビジョン済み スループット は HIPPA コンプライアンス プロファイルをサポートしており、コンプライアンス認定が必要なワークロードに推奨されます。
-
プロビジョニングされたスループット ワークロードに DBRX モデルアーキテクチャを使用するには、サービスエンドポイントが
us-east-1
またはus-west-2
である必要があります。 -
Llama 4 Maverick を使用するプロビジョニング済みスループットワークロードの場合:
- プロビジョニングされたスループット ワークロードでのこのモデルのサポートはプレビュー段階です。Databricks アカウント チームに連絡して、プレビューに参加してください。
- オートスケールには対応しておりません。
- メトリクスパネルはサポートされていません。
- トラフィック分割は、Llama 4 Maverick を提供するエンドポイントではサポートされていません。Llama 4 Maverick を提供するエンドポイントで複数のモデルを提供することはできません。
-
Unity Catalog の
system.ai
から Meta Llama モデルをデプロイするには、該当する Instruct バージョンを選択する必要があります。Meta Llama モデルの基本バージョンは、Unity Catalog からのデプロイではサポートされていません。「[推奨] Unity Catalog から基盤モデルをデプロイする」を参照してください。 -
次の表は、サポートされている Meta Llama 3.1、3.2、3.3、Llama 4 Maverick モデルの利用可能な地域を示しています。微調整されたモデルをデプロイする方法のガイダンスについては、「 微調整された基盤モデルのデプロイ 」を参照してください。
Meta Llamaモデルバリアント | リージョン |
---|---|
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
meta-llama/Llama-4-70B(プレビュー) |
|
* このリージョンでは、 モデルがクロス ジオグラフィ ルーティング が有効になっている場合にのみ使用できます。
利用可能な地域
サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。
ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンの コントロールプレーン によって提供されている場合、ワークスペースはモデルサービングをサポートしていません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。 詳細については、 Databricks アカウントチームにお問い合わせください。
機能の地域別の提供状況の詳細については、「 モデルサービング機能の利用可能性」を参照してください。