メインコンテンツまでスキップ

モデルサービングの制限とリージョン

この記事では、 Databricksモデルサービングの制限事項と利用可能なリージョン、およびサポートされているエンドポイントの種類について概要を説明します。

リソースとペイロードの制限

モデルサービングでは、信頼性の高いパフォーマンスを確保するためにデフォルトの制限が課せられます。これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。

このセクションの制限は、カスタム モデルとAI エージェントのエンドポイントにのみ適用されます。基盤モデルAPIsと外部モデルのリソースとペイロード制限については、 「基盤モデルAPIsレート制限とクォータ」を参照してください。

カスタムモデルとAIエージェント

機能

粒度

上限

エンドポイント

ワークスペースごと

1000。増やすには、Databricks アカウント チームにお問い合わせください。

1 秒あたりのクエリ数 (QPS)

エンドポイントごと

ルート最適化を使用した 300,000 。1024 の同時実行では不十分な場合は、Databricks アカウント チームに連絡して増加を依頼してください。

1 秒あたりのクエリ数 (QPS)

ワークスペースごと

ルート最適化を使用した 300,000 。ルートが最適化されていない場合は 200 です。小規模な開発ユースケースにのみ推奨されます。

プロビジョニングされた同時実行数

モデルごと

カスタム オプションルート最適化を備えた 1024。増やすには、Databricks アカウント チームにお問い合わせください。

プロビジョニングされた同時実行数

ワークスペースごと

4096。増やすには、Databricks アカウント チームにお問い合わせください。

作成/更新操作

ワークスペースごと

5分で50個。

ペイロードサイズ

リクエストごと

16MB。AI エージェントエンドポイントの場合、制限は 4 MB です。

モデルの実行時間

リクエストごと

297秒

CPU エンドポイント モデルのメモリ使用量

エンドポイントごと

4 GB

環境変数

パーサーブモデル

30.増やすには、Databricks アカウント チームにお問い合わせください。

オーバーヘッド遅延

リクエストごと

ルート最適化により 20 ミリ秒未満。

:::

ネットワークとセキュリティの制限

  • モデルサービング エンドポイントは 、アクセス制御 によって保護され、ワークスペースで構成されたネットワーク関連のイングレス ルールを尊重します。
  • モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricks アカウントチームにお問い合わせください。

基盤モデル APIの制限

基盤モデルと外部モデルのリソースとペイロード制限を含む、基盤モデルAPIsの詳細情報については、 「基盤モデルAPIsレート制限とクォータ」を参照してください。

利用可能な地域

注記

サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。

ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンの コントロールプレーン によって提供されている場合、ワークスペースはモデルサービングをサポートしていません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。 詳細については、 Databricks アカウントチームにお問い合わせください。

詳細については、 情報 機能の地域的な可用性については、「 モデルサービング機能の可用性」を参照してください。

Databricks-hosted 基盤モデルのリージョンの可用性については、「Databricksでホストされている基盤モデル」を参照してください。