モデルサービングの制限とリージョン
プレビュー
Mosaic AI Model Serving は パブリック プレビュー 段階にあり、 us-east1
と us-central1
でサポートされています。
この記事では、 Mosaic AI Model Serving エンドポイントの種類とサポートされているエンドポイントの種類の制限事項と利用可能なリージョンをまとめています。
リソースとペイロードの制限
Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。 これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。
次の表は、モデルサービングエンドポイントのリソースとペイロードの制限をまとめたものです。
機能 | 粒度 | 上限 |
---|---|---|
ペイロードサイズ | リクエストごと | |
1 秒あたりのクエリ数 (QPS) | ワークスペースごと | 200 ですが、Databricks アカウント チームに連絡することで 25,000 以上に増やすことができます。 |
モデルの実行時間 | リクエストごと | 120秒 |
CPU エンドポイント モデルのメモリ使用量 | エンドポイントごと | 4 GB |
プロビジョニングされた同時実行数 | ワークスペースごと | 200 の同時実行数。 Databricksアカウントチームに連絡することで増やすことができます。 |
オーバーヘッド遅延 | リクエストごと | 50 ミリ秒未満 |
initスクリプト | initスクリプトはサポートされていません。 | |
基盤モデルAPI (トークン単位の従量課金) のレート制限 | ワークスペースごと | Llama 3.3 70B Instruct には、1 秒あたり 2 クエリ、1 時間あたり 1200 クエリの制限があります。 この制限がユースケースに不十分な場合、Databricks ではプロビジョニングされたスループットを使用することをお勧めします。 |
基盤モデルAPI (プロビジョニング スループット) レート制限 | ワークスペースごと | 200 |
ネットワークとセキュリティの制限
- モデルサービング エンドポイントは 、アクセス制御 によって保護され、ワークスペースで構成されたネットワーク関連のイングレス ルールを尊重します。
- モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricks アカウントチームにお問い合わせください。
基盤モデル APIの制限
基盤モデル APIの提供の一環として、 Databricks は、データの発生元であるリージョンおよびクラウド プロバイダーの外部でデータを処理する場合があります。
トークン単位の従量課金ワークロードとプロビジョニング スループット ワークロードの両方について、次のようになります。
ワークスペース管理者のみが、基盤モデル APIs エンドポイントのレート制限などのガバナンス設定を変更できます。 レート制限を変更するには、次の手順に従います。
- ワークスペースで Serving UI を開き、Serving エンドポイントを確認します。
- 編集する基盤モデルAPIエンドポイントの kebab メニューから、 [詳細の表示] を選択します。
- エンドポイントの詳細ページの右上にあるケバブメニューから、 [ レート制限の変更 ] を選択します。
トークン単位の従量課金制限
以下は、基盤モデル API トークン単位の従量課金 ワークロードに関連する制限です。
-
トークン単位の従量課金 ワークロードは HIPPA に準拠しています。
- コンプライアンス セキュリティ プロファイルが有効になっている顧客の場合、コンプライアンス標準の HIPPA または None が選択されている場合、トークン単位の従量課金ワークロードを使用できます。 その他のコンプライアンス標準は、トークン単位の従量課金ワークロードではサポートされていません。
-
Meta Llama 3.3 70B Instruct は、トークン単位の従量課金 米国でサポートされている地域でのみ使用できます。
-
Anthropic Claude 3.7 Sonnet は、トークン単位の従量課金 US supported リージョンで利用できます。ワークスペースが米国リージョンではなく、サポートされているモデルサービング リージョンにある場合は、 クロスジオ データ処理 を有効にしてこのモデルにアクセスできます。
プロビジョニングされたスループットの制限
以下は、基盤モデル API プロビジョン済み スループット ワークロードに関連する制限です。
- プロビジョン済み スループット は HIPPA コンプライアンス プロファイルをサポートしており、コンプライアンス認定が必要なワークロードに推奨されます。
- GTE Large (En) 埋め込みモデルでは、正規化された埋め込みは生成されません。
- 次の表は、サポートされている Meta Llama 3.1、3.2、および 3.3 モデルの利用可能な地域を示しています。 ファインチューンされたモデルをデプロイする方法のガイダンスについては、「 ファインチューンされた基盤モデルのデプロイ 」を参照してください。
Meta Llamaモデルバリアント | リージョン |
---|---|
| |
| |
| |
|
利用可能な地域
サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。
ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンの コントロールプレーン によって提供されている場合、ワークスペースはモデルサービングをサポートしていません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。 詳細については、 Databricks アカウントチームにお問い合わせください。
機能の地域別の提供状況の詳細については、「 モデルサービングの地域別の提供状況」を参照してください。