モデルサービングの制限と地域

この記事では、Databricks モデルサービングの制限事項と利用可能なリージョン、およびサポートされているエンドポイントの種類について概要を説明します。

制限事項

Databricks モデルサービングは、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課します。 これらの制限についてフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。

次の表は、モデルビング エンドポイントのリソースとペイロードの制限をまとめたものです。

特徴量

粒 度

制限

ペイロードサイズ

要求ごと

16 MB

クエリ/秒 (QPS)

ワークスペースごと

200 ですが、Databricks アカウント チームに連絡することで 25,000 以上に増やすことができます。

モデルの実行期間

要求ごと

120秒

CPU エンドポイント モデルのメモリ使用量

エンドポイントごと

4ギガバイト

GPU エンドポイント モデルのメモリ使用量

エンドポイントごと

割り当てられた GPU メモリ以上、GPU ワークロード サイズによって異なります

プロビジョニングされた同時実行性

ワークスペースごと

200 コンカレンシー。 Databricks アカウント チームに問い合わせることで増やすことができます。

オーバーヘッド待ち時間

要求ごと

50ミリ秒未満

基盤モデルAPIs (トークンごとの支払い) のレート制限

ワークスペースごと

次の制限を増やすには、Databricks アカウント チームにお問い合わせください。

  • DBRX Instruct モデルには、1 秒あたり 1 つのクエリの制限があります。

  • 他のチャットおよび完了モデルには、1 秒あたり 2 クエリというデフォルトのレート制限があります。

  • 埋め込みモデルのデフォルトの埋め込み入力は 1 秒あたり 300 です。

基盤モデルAPIs (プロビジョニング スループット) レート制限

ワークスペースごと

200

モデルサービング エンドポイントはアクセス制御によって保護され、IP ホワイトリストやPrivateLinkなど、ワークスペースに設定されたネットワーク関連のイングレス ルールを尊重します。

その他の制限があります。

  • ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロール プレーンによってサービスされている場合、ワークスペースはモデルサービングをサポートしません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、 Databricksアカウント チームにお問い合わせください。

  • モデルサービングはinitスクリプトをサポートしていません。

  • デフォルトでは、モデルサービングは外部エンドポイントへの PrivateLink をサポートしていません。 この機能のサポートは、リージョンごとに評価され、実装されます。 詳細については、Databricks アカウント チームにお問い合わせください。

プラットフォームAPIs制限

注:

基盤モデルAPIsの提供の一環として、Databricks はデータが生成された地域およびクラウド プロバイダーの外でデータを処理する場合があります。

以下は、プラットフォームモデルAPIsのワークロードに関連する制限です。

  • プロビジョニング スループットはHIPPA コンプライアンス プロファイルをサポートしており、コンプライアンス認定を必要とするワークロードに使用する必要があります。 支払い単位のワークロードは、HIPPA またはコンプライアンスのセキュリティ プロファイルに準拠していませ

  • プラットフォームモデルAPIsエンドポイントの場合、レート制限などのガバナンス設定を変更できるのはワークスペース管理者のみです。 レート制限を変更するには、次のステップを使用します。

    1. ワークスペースでサービス提供 UI を開いて、サービス提供エンドポイントを確認します。

    2. 編集する基盤モデルAPIsエンドポイントの kebab メニューから、 [詳細の表示]を選択します。

    3. エンドポイントの詳細ページの右上にあるケバブ メニューから、[ レート制限の変更] を選択します。

  • プロビジョニングされたスループット ワークロードに DBRX モデル アーキテクチャを使用するには、サービス エンドポイントがus-east-1またはus-west-2にある必要があります。

利用可能なリージョン

注:

サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。

DBRX モデルを使用するリモート ワークロードの場合は、リージョンの可用性に関するモデルAPIs制限を参照してください。

リージョン

場所

コアモデルのサービング機能 *

基盤モデルAPIs (全体にわたってプロビジョニング) **

基盤モデルAPIs (トークンごとの支払い)

外部モデル

ap-northeast-1

アジア太平洋(東京)

X

X

X

ap-northeast-2

アジア太平洋(ソウル)

ap-south-1

アジア太平洋(ムンバイ)

ap-southeast-1

アジア太平洋(シンガポール)

X

X

ap-southeast-2

アジア太平洋(シドニー)

X

X

X

ca-central-1

中央カナダ

X

X

X

eu-central-1

EU(フランクフルト)

X

X

X

eu-west-1

EU(アイルランド)

X

X

X

eu-west-2

EU(ロンドン)

eu-west-3

EU(パリ)

sa-east-1

南米(サンパウロ)

us-west-1

米国西部(北カリフォルニア)

us-west-2

米国西部(オレゴン)

X

X

X

X

us-east-1

米国東部(バージニア北部)

X

X

X

X

us-east-2

米国東部(オハイオ)

X

X

X

X

※CPUコンピュートのみ

** GPUサポートを含む