モデルサービングの制限とリージョン
この記事では、 Databricksモデルサービングの制限事項と利用可能なリージョン、およびサポートされているエンドポイントの種類について概要を説明します。
リソースとペイロードの制限
モデルサービングでは、信頼性の高いパフォーマンスを確保するためにデフォルトの制限が課せられます。これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。
次の表は、モデルサービングエンドポイントのリソースとペイロードの制限をまとめたものです。
機能 | 粒度 | 上限 |
|---|---|---|
ペイロードサイズ | リクエストごと | 16メガバイト 基盤モデル、外部モデル、または AI エージェントを提供するエンドポイントの場合、制限は 4 MB です。 |
要求/応答のサイズ | リクエストごと | 1 MB を超える要求/応答はログに記録されません。 |
1 秒あたりのクエリ数 (QPS) | ワークスペースごと |
|
モデルの実行時間 | リクエストごと | 297秒 |
CPU エンドポイント モデルのメモリ使用量 | エンドポイントごと | 4 GB |
GPU エンドポイント モデルのメモリ使用量 | エンドポイントごと | 割り当てられたGPUメモリと同等かそれ以上は、GPUワークロードのサイズによって異なります |
プロビジョニングされた同時実行数 | モデルごと、ワークスペースごと | 200 の同時実行数。 Databricksアカウントチームに連絡することで増やすことができます。 |
オーバーヘッド遅延 | リクエストごと | 50 ミリ秒未満 |
initスクリプト | initスクリプトはサポートされていません。 | |
基盤モデル APIs rate limits | ワークスペースごと | トークン単位の従量課金とプロビジョニング スループット制限の詳細については、 基盤モデル APIs rate limits and quotas を参照してください。 |
ベクトル検索応答サイズ | クエリごと | 10MB |
メトリクス ビューアの制限事項の組み込み
Databricks 、モデルビングサー メトリクス用の組み込みビューアを提供します。 ただし、ビューアには以下の制限があります。長期間の保持と中断のない可観測性を実現するために、 Databricks 、サービング エンドポイント メトリクスを外部モニタリング システムにエクスポートすることをお勧めします。
- 組み込まれたメトリクス履歴は最大 14 日間利用できます。
- 特定のエンドポイントの更新後、組み込まれたビューアに過去のメトリクスのギャップが表示される場合があります。 エンドポイントの更新は主にユーザーのアクションによって発生します。ただし、エンドポイントの更新は、ユーザーが制御できないバックエンド インフラストラクチャの変更によっても発生する可能性があります。これらのギャップはメトリクス表示にのみ影響します。 この間も、サービスエンドポイントは完全に動作し続けます。モニタリング履歴のギャップを避けるために、メトリクスを外部モニタリング システムにエクスポートします。
ネットワークとセキュリティの制限
- モデルサービング エンドポイントは 、アクセス制御 によって保護され、IP 許可リストや PrivateLink など、ワークスペースで構成されたネットワーク関連のイングレス ルールを尊重します。
- デフォルトでは、モデルサービングは外部エンドポイントへの PrivateLink をサポートしていません。 この機能のサポートは、リージョンごとに評価および実装されます。 詳細については、 Databricks アカウントチームにお問い合わせください。
- モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricks アカウントチームにお問い合わせください。
- モデルサービングエンドポイントからの送信ネットワークアクセスを制限するには、ネットワークポリシーを設定します。 サーバレス egress 制御については、Manage network ポリシーを参照してください。
コンプライアンス セキュリティ プロファイル標準: CPU と GPU のワークロード
次の表に、外部モデルを含む CPU および GPU ワークロードでのモデルサービングのリージョン、可用性、サポートされているコンプライアンス、セキュリティプロファイル、コンプライアンス標準を示します。
これらのコンプライアンス標準では、提供されるコンテナを最新の 30 日間に組み込む必要があります。 Databricks は、ユーザーに代わって古いコンテナを自動的に再構築します。ただし、この自動ジョブが失敗した場合は、次のようなイベントログメッセージが表示され、エンドポイントがコンプライアンス要件内に収まるようにするためのガイダンスが提供されます。
"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."
リージョン | 場所 | HIPAA | PCI-DSS | FedRAMP Moderate | IRAP | CCCSミディアム(プロテクトB) | 英国サイバーエッセンシャルプラス |
|---|---|---|---|---|---|---|---|
| アジア太平洋(東京) | ✓ | ✓ | ||||
| アジア太平洋(ソウル) | ✓ | ✓ | ||||
| アジア太平洋(ムンバイ) | ✓ | ✓ | ||||
| アジア太平洋(シンガポール) | ✓ | ✓ | ||||
| アジア太平洋(シドニー) | ✓ | ✓ | ✓ | |||
| 中央カナダ | ✓ | ✓ | ✓ | |||
| EU(フランクフルト) | ✓ | ✓ | ||||
| EU(アイルランド) | ✓ | ✓ | ||||
| EU(ロンドン) | ✓ | ✓ | ✓ | |||
| EU(パリ) | ||||||
| 南米(サンパウロ) | ✓ | ✓ | ||||
| 米国東部(バージニア北部) | ✓ | ✓ | ✓ | |||
| 米国東部(オハイオ) | ✓ | ✓ | ✓ | |||
| US Gov West (ペンドルトン) | ||||||
| 米国西部(北カリフォルニア) | ||||||
| 米国西部(オレゴン) | ✓ | ✓ | ✓ |
コンプライアンス security profile standards: ワークロード APIs 基盤モデル
次の表に、次の基盤モデル APIs ワークロードでサポートされているコンプライアンス セキュリティ プロファイル コンプライアンス標準を示します。
- プロビジョニング済みスループット
- トークンごとの従量課金制
- AI Functions モデルと Databricksホスト型モデルを使用したバッチ推論
これらのコンプライアンス標準では、提供されるコンテナを最新の 30 日間に組み込む必要があります。 Databricks は、ユーザーに代わって古いコンテナを自動的に再構築します。ただし、この自動ジョブが失敗した場合は、次のようなイベントログメッセージが表示され、エンドポイントがコンプライアンス要件内に収まるようにするためのガイダンスが提供されます。
"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."
リージョン | 場所 | HIPAA | PCI-DSS | FedRAMP Moderate | IRAP | CCCSミディアム(プロテクトB) | 英国サイバーエッセンシャルプラス |
|---|---|---|---|---|---|---|---|
| アジア太平洋(東京) | ✓ | ✓ | ||||
| アジア太平洋(ソウル) | ✓ | ✓ | ||||
| アジア太平洋(ムンバイ) | ✓ | ✓ | ||||
| アジア太平洋(シンガポール) | ✓ | ✓ | ||||
| アジア太平洋(シドニー) | ✓ | ✓ | ✓ | |||
| 中央カナダ | ✓ | ✓ | ✓ | |||
| EU(フランクフルト) | ✓ | ✓ | ||||
| EU(アイルランド) | ✓ | ✓ | ||||
| EU(ロンドン) | ✓ | ✓ | ✓* | |||
| EU(パリ) | ||||||
| 南米(サンパウロ) | ✓ | ✓ | ||||
| 米国東部(バージニア北部) | ✓ | ✓ | ✓ | |||
| 米国東部(オハイオ) | ✓ | ✓ | ✓ | |||
| US Gov West (ペンドルトン) | ||||||
| 米国西部(北カリフォルニア) | ||||||
| 米国西部(オレゴン) | ✓ | ✓ | ✓ |
* 一部のモデルでは、プロビジョニングされたスループットのために地域をまたいだルーティングが必要なため、UK Cyber Essentials Plus に準拠していません。詳細については、 Databricks アカウントチームにお問い合わせください。
基盤モデル APIの制限
詳細については、 基盤モデル APIsに関する詳細情報:
- レート制限とクォータ : 基盤モデル APIs レート制限とクォータ - TPM 制限、リージョンの可用性、モデル固有の制限が含まれます
- コンプライアンスとセキュリティ : コンプライアンスと セキュリティ APIs 基盤モデル - コンプライアンス標準、データ処理、セキュリティ要件をカバー
利用可能な地域
サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。
ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンの コントロールプレーン によって提供されている場合、ワークスペースはモデルサービングをサポートしていません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。 詳細については、 Databricks アカウントチームにお問い合わせください。
各モデルサービング機能の地域別可用性の詳細については、 モデルサービング機能の可用性 を参照してください。
Databricks-hosted 基盤モデルのリージョンの可用性については、「Databricksでホストされる基盤モデル」を参照してください。