メインコンテンツまでスキップ

モデルサービングの制限とリージョン

この記事では、 Databricksモデルサービングの制限事項と利用可能なリージョン、およびサポートされているエンドポイントの種類について概要を説明します。

リソースとペイロードの制限

モデルサービングでは、信頼性の高いパフォーマンスを確保するためにデフォルトの制限が課せられます。これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。

次の表は、モデルサービングエンドポイントのリソースとペイロードの制限をまとめたものです。

機能

粒度

上限

ペイロードサイズ

リクエストごと

16メガバイト 基盤モデル外部モデル、または AI エージェントを提供するエンドポイントの場合、制限は 4 MB です。

要求/応答のサイズ

リクエストごと

1 MB を超える要求/応答はログに記録されません。

1 秒あたりのクエリ数 (QPS)

ワークスペースごと

  1. QPS を高めるには、ルート最適化を有効にします。

モデルの実行時間

リクエストごと

297秒

CPU エンドポイント モデルのメモリ使用量

エンドポイントごと

4 GB

GPU エンドポイント モデルのメモリ使用量

エンドポイントごと

割り当てられたGPUメモリと同等かそれ以上は、GPUワークロードのサイズによって異なります

プロビジョニングされた同時実行数

モデルごと、ワークスペースごと

200 の同時実行数。 Databricksアカウントチームに連絡することで増やすことができます。

オーバーヘッド遅延

リクエストごと

50 ミリ秒未満

initスクリプト

initスクリプトはサポートされていません。

基盤モデル APIs rate limits

ワークスペースごと

トークン単位の従量課金とプロビジョニング スループット制限の詳細については、 基盤モデル APIs rate limits and quotas を参照してください。

ベクトル検索応答サイズ

クエリごと

10MB

メトリクス ビューアの制限事項の組み込み

Databricks 、モデルビングサー メトリクス用の組み込みビューアを提供します。 ただし、ビューアには以下の制限があります。長期間の保持と中断のない可観測性を実現するために、 Databricks 、サービング エンドポイント メトリクスを外部モニタリング システムにエクスポートすることをお勧めします。

  • 組み込まれたメトリクス履歴は最大 14 日間利用できます。
  • 特定のエンドポイントの更新後、組み込まれたビューアに過去のメトリクスのギャップが表示される場合があります。 エンドポイントの更新は主にユーザーのアクションによって発生します。ただし、エンドポイントの更新は、ユーザーが制御できないバックエンド インフラストラクチャの変更によっても発生する可能性があります。これらのギャップはメトリクス表示にのみ影響します。 この間も、サービスエンドポイントは完全に動作し続けます。モニタリング履歴のギャップを避けるために、メトリクスを外部モニタリング システムにエクスポートします。

ネットワークとセキュリティの制限

  • モデルサービング エンドポイントは 、アクセス制御 によって保護され、IP 許可リストや PrivateLink など、ワークスペースで構成されたネットワーク関連のイングレス ルールを尊重します。
  • デフォルトでは、モデルサービングは外部エンドポイントへの PrivateLink をサポートしていません。 この機能のサポートは、リージョンごとに評価および実装されます。 詳細については、 Databricks アカウントチームにお問い合わせください。
  • モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricks アカウントチームにお問い合わせください。
  • モデルサービングエンドポイントからの送信ネットワークアクセスを制限するには、ネットワークポリシーを設定します。 サーバレス egress 制御については、Manage network ポリシーを参照してください。

コンプライアンス セキュリティ プロファイル標準: CPU と GPU のワークロード

次の表に、外部モデルを含む CPU および GPU ワークロードでのモデルサービングのリージョン、可用性、サポートされているコンプライアンス、セキュリティプロファイル、コンプライアンス標準を示します。

注記

これらのコンプライアンス標準では、提供されるコンテナを最新の 30 日間に組み込む必要があります。 Databricks は、ユーザーに代わって古いコンテナを自動的に再構築します。ただし、この自動ジョブが失敗した場合は、次のようなイベントログメッセージが表示され、エンドポイントがコンプライアンス要件内に収まるようにするためのガイダンスが提供されます。

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

リージョン

場所

HIPAA

PCI-DSS

FedRAMP Moderate

IRAP

CCCSミディアム(プロテクトB)

英国サイバーエッセンシャルプラス

ap-northeast-1

アジア太平洋(東京)

ap-northeast-2

アジア太平洋(ソウル)

ap-south-1

アジア太平洋(ムンバイ)

ap-southeast-1

アジア太平洋(シンガポール)

ap-southeast-2

アジア太平洋(シドニー)

ca-central-1

中央カナダ

eu-central-1

EU(フランクフルト)

eu-west-1

EU(アイルランド)

eu-west-2

EU(ロンドン)

eu-west-3

EU(パリ)

sa-east-1

南米(サンパウロ)

us-east-1

米国東部(バージニア北部)

us-east-2

米国東部(オハイオ)

us-gov-west-1

US Gov West (ペンドルトン)

us-west-1

米国西部(北カリフォルニア)

us-west-2

米国西部(オレゴン)

コンプライアンス security profile standards: ワークロード APIs 基盤モデル

次の表に、次の基盤モデル APIs ワークロードでサポートされているコンプライアンス セキュリティ プロファイル コンプライアンス標準を示します。

  • プロビジョニング済みスループット
  • トークンごとの従量課金制
  • AI Functions モデルと Databricksホスト型モデルを使用したバッチ推論
注記

これらのコンプライアンス標準では、提供されるコンテナを最新の 30 日間に組み込む必要があります。 Databricks は、ユーザーに代わって古いコンテナを自動的に再構築します。ただし、この自動ジョブが失敗した場合は、次のようなイベントログメッセージが表示され、エンドポイントがコンプライアンス要件内に収まるようにするためのガイダンスが提供されます。

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

リージョン

場所

HIPAA

PCI-DSS

FedRAMP Moderate

IRAP

CCCSミディアム(プロテクトB)

英国サイバーエッセンシャルプラス

ap-northeast-1

アジア太平洋(東京)

ap-northeast-2

アジア太平洋(ソウル)

ap-south-1

アジア太平洋(ムンバイ)

ap-southeast-1

アジア太平洋(シンガポール)

ap-southeast-2

アジア太平洋(シドニー)

ca-central-1

中央カナダ

eu-central-1

EU(フランクフルト)

eu-west-1

EU(アイルランド)

eu-west-2

EU(ロンドン)

✓*

eu-west-3

EU(パリ)

sa-east-1

南米(サンパウロ)

us-east-1

米国東部(バージニア北部)

us-east-2

米国東部(オハイオ)

us-gov-west-1

US Gov West (ペンドルトン)

us-west-1

米国西部(北カリフォルニア)

us-west-2

米国西部(オレゴン)

* 一部のモデルでは、プロビジョニングされたスループットのために地域をまたいだルーティングが必要なため、UK Cyber Essentials Plus に準拠していません。詳細については、 Databricks アカウントチームにお問い合わせください。

基盤モデル APIの制限

詳細については、 基盤モデル APIsに関する詳細情報:

利用可能な地域

注記

サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。

ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンの コントロールプレーン によって提供されている場合、ワークスペースはモデルサービングをサポートしていません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。 詳細については、 Databricks アカウントチームにお問い合わせください。

各モデルサービング機能の地域別可用性の詳細については、 モデルサービング機能の可用性 を参照してください。

Databricks-hosted 基盤モデルのリージョンの可用性については、「Databricksでホストされる基盤モデル」を参照してください。