モデルサービングの制限とリージョン

この記事では、 Mosaic AI Model Serving エンドポイントの種類とサポートされているエンドポイントの種類の制限事項と利用可能なリージョンをまとめています。

リソースとペイロードの制限

Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。これらの制限に関するフィードバックがある場合は、Databricks アカウントチームにお問い合わせください。

次の表は、モデルサービングエンドポイントのリソースとペイロードの制限をまとめたものです。

機能	粒度	上限
ペイロードサイズ	リクエストごと	16メガバイト基盤モデル、外部モデル、または AI エージェントを提供するエンドポイントの場合、制限は 4 MB です。
1 秒あたりのクエリ数 (QPS)	ワークスペースごと	200.QPS を高くするには、ルートの最適化を有効にします。
モデルの実行時間	リクエストごと	297秒
CPU エンドポイントモデルのメモリ使用量	エンドポイントごと	4 GB
プロビジョニングされた同時実行数	ワークスペースごと	200 の同時実行数。 Databricksアカウントチームに連絡することで増やすことができます。
オーバーヘッド遅延	リクエストごと	50 ミリ秒未満
initスクリプト		initスクリプトはサポートされていません。
基盤モデル APIs rate limits	ワークスペースごと	トークン単位の従量課金とプロビジョニングスループット制限の詳細については、基盤モデル APIs rate limits and quotas を参照してください。

ネットワークとセキュリティの制限

モデルサービングエンドポイントは、アクセス制御によって保護され、ワークスペースで構成されたネットワーク関連のイングレスルールを尊重します。
モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。詳細については、 Databricks アカウントチームにお問い合わせください。

基盤モデル APIの制限

詳細については、基盤モデル APIsに関する詳細情報:

レート制限とクォータ : 基盤モデル APIs レート制限とクォータ - TPM 制限、リージョンの可用性、モデル固有の制限が含まれます
コンプライアンスとセキュリティ : コンプライアンスとセキュリティ APIs 基盤モデル - コンプライアンス標準、データ処理、セキュリティ要件をカバー

利用可能な地域

注記

サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウントチームにお問い合わせください。

ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロールプレーンによって提供されている場合、ワークスペースはモデルサービングをサポートしていません。このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。詳細については、 Databricks アカウントチームにお問い合わせください。

詳細については、情報機能の地域的な可用性については、「モデルサービング機能の可用性」を参照してください。

Databricks-hosted 基盤モデルのリージョンの可用性については、「Databricksでホストされている基盤モデル」を参照してください。

リソースとペイロードの制限​

ネットワークとセキュリティの制限​

基盤モデル APIの制限​

利用可能な地域​

リソースとペイロードの制限

ネットワークとセキュリティの制限

基盤モデル APIの制限

利用可能な地域