モデルサービングの制限と地域
この記事では、Databricks モデルサービングの制限事項と利用可能なリージョン、およびサポートされているエンドポイントの種類について概要を説明します。
制限事項
Databricks モデルサービングは、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課します。 これらの制限についてフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。
次の表は、モデルビング エンドポイントのリソースとペイロードの制限をまとめたものです。
特徴量 |
粒 度 |
制限 |
---|---|---|
ペイロードサイズ |
要求ごと |
16 MB |
クエリ/秒 (QPS) |
ワークスペースごと |
200 ですが、Databricks アカウント チームに連絡することで 25,000 以上に増やすことができます。 |
モデルの実行期間 |
要求ごと |
120秒 |
CPU エンドポイント モデルのメモリ使用量 |
エンドポイントごと |
4ギガバイト |
GPU エンドポイント モデルのメモリ使用量 |
エンドポイントごと |
割り当てられた GPU メモリ以上、GPU ワークロード サイズによって異なります |
プロビジョニングされた同時実行性 |
ワークスペースごと |
200 コンカレンシー。 Databricks アカウント チームに問い合わせることで増やすことができます。 |
オーバーヘッド待ち時間 |
要求ごと |
50ミリ秒未満 |
基盤モデルAPIs (トークンごとの支払い) のレート制限 |
ワークスペースごと |
次の制限を増やすには、Databricks アカウント チームにお問い合わせください。
|
基盤モデルAPIs (プロビジョニング スループット) レート制限 |
ワークスペースごと |
200 |
モデルサービング エンドポイントはアクセス制御によって保護され、IP ホワイトリストやPrivateLinkなど、ワークスペースに設定されたネットワーク関連のイングレス ルールを尊重します。
その他の制限があります。
ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロール プレーンによってサービスされている場合、ワークスペースはモデルサービングをサポートしません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、 Databricksアカウント チームにお問い合わせください。
モデルサービングはinitスクリプトをサポートしていません。
デフォルトでは、モデルサービングは外部エンドポイントへの PrivateLink をサポートしていません。 この機能のサポートは、リージョンごとに評価され、実装されます。 詳細については、Databricks アカウント チームにお問い合わせください。
プラットフォームAPIs制限
注:
基盤モデルAPIsの提供の一環として、Databricks はデータが生成された地域およびクラウド プロバイダーの外でデータを処理する場合があります。
以下は、プラットフォームモデルAPIsのワークロードに関連する制限です。
プロビジョニング スループットはHIPPA コンプライアンス プロファイルをサポートしており、コンプライアンス認定を必要とするワークロードに使用する必要があります。 支払い単位のワークロードは、HIPPA またはコンプライアンスのセキュリティ プロファイルに準拠していません。
プラットフォームモデルAPIsエンドポイントの場合、レート制限などのガバナンス設定を変更できるのはワークスペース管理者のみです。 レート制限を変更するには、次のステップを使用します。
ワークスペースでサービス提供 UI を開いて、サービス提供エンドポイントを確認します。
編集する基盤モデルAPIsエンドポイントの kebab メニューから、 [詳細の表示]を選択します。
エンドポイントの詳細ページの右上にあるケバブ メニューから、[ レート制限の変更] を選択します。
プロビジョニングされたスループット ワークロードに DBRX モデル アーキテクチャを使用するには、サービス エンドポイントが
us-east-1
またはus-west-2
にある必要があります。
利用可能なリージョン
注:
サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。
DBRX モデルを使用するリモート ワークロードの場合は、リージョンの可用性に関するモデルAPIs制限を参照してください。
リージョン |
場所 |
コアモデルのサービング機能 * |
基盤モデルAPIs (全体にわたってプロビジョニング) ** |
基盤モデルAPIs (トークンごとの支払い) |
外部モデル |
---|---|---|---|---|---|
|
アジア太平洋(東京) |
X |
X |
X |
|
|
アジア太平洋(ソウル) |
||||
|
アジア太平洋(ムンバイ) |
||||
|
アジア太平洋(シンガポール) |
X |
X |
||
|
アジア太平洋(シドニー) |
X |
X |
X |
|
|
中央カナダ |
X |
X |
X |
|
|
EU(フランクフルト) |
X |
X |
X |
|
|
EU(アイルランド) |
X |
X |
X |
|
|
EU(ロンドン) |
||||
|
EU(パリ) |
||||
|
南米(サンパウロ) |
||||
|
米国西部(北カリフォルニア) |
||||
|
米国西部(オレゴン) |
X |
X |
X |
X |
|
米国東部(バージニア北部) |
X |
X |
X |
X |
|
米国東部(オハイオ) |
X |
X |
X |
X |
※CPUコンピュートのみ
** GPUサポートを含む