モデルサービングの制限とリージョン
この記事では、 Databricksモデルサービングの制限事項と利用可能なリージョン、およびサポートされているエンドポイントの種類について概要を説明します。
リソースとペイロードの制限
モデルサービングでは、信頼性の高いパフォーマンスを確保するためにデフォルトの制限が課せられます。これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。
このセクションの制限は、カスタム モデルとAI エージェントのエンドポイントにのみ適用されます。基盤モデルAPIsと外部モデルのリソースとペイロード制限については、 「基盤モデルAPIsレート制限とクォータ」を参照してください。
カスタムモデルとAIエージェント
機能 | 粒度 | 上限 |
|---|---|---|
エンドポイント | ワークスペースごと | 1000。増やすには、Databricks アカウント チームにお問い合わせください。 |
1 秒あたりのクエリ数 (QPS) | エンドポイントごと | ルート最適化を使用した 300,000 。1024 の同時実行では不十分な場合は、Databricks アカウント チームに連絡して増加を依頼してください。 |
1 秒あたりのクエリ数 (QPS) | ワークスペースごと | ルート最適化を使用した 300,000 。ルートが最適化されていない場合は 200 です。小規模な開発ユースケースにのみ推奨されます。 |
プロビジョニングされた同時実行数 | モデルごと | カスタム オプションとルート最適化を備えた 1024。増やすには、Databricks アカウント チームにお問い合わせください。 |
プロビジョニングされた同時実行数 | ワークスペースごと | 4096。増やすには、Databricks アカウント チームにお問い合わせください。 |
作成/更新操作 | ワークスペースごと | 5分で50個。 |
ペイロードサイズ | リクエストごと | 16MB。AI エージェントエンドポイントの場合、制限は 4 MB です。 |
モデルの実行時間 | リクエストごと | 297秒 |
CPU エンドポイント モデルのメモリ使用量 | エンドポイントごと | 4 GB |
環境変数 | パーサーブモデル | 30.増やすには、Databricks アカウント チームにお問い合わせください。 |
オーバーヘッド遅延 | リクエストごと | ルート最適化により 20 ミリ秒未満。 |
:::
ネットワークとセキュリティの制限
- モデルサービング エンドポイントは 、アクセス制御 によって保護され、ワークスペースで構成されたネットワーク関連のイングレス ルールを尊重します。
- モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricks アカウントチームにお問い合わせください。
基盤モデル APIの制限
基盤モデルと外部モデルのリソースとペイロード制限を含む、基盤モデルAPIsの詳細情報については、 「基盤モデルAPIsレート制限とクォータ」を参照してください。
利用可能な地域
サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。
ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンの コントロールプレーン によって提供されている場合、ワークスペースはモデルサービングをサポートしていません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。 詳細については、 Databricks アカウントチームにお問い合わせください。
詳細については、 情報 機能の地域的な可用性については、「 モデルサービング機能の可用性」を参照してください。
Databricks-hosted 基盤モデルのリージョンの可用性については、「Databricksでホストされている基盤モデル」を参照してください。