最適化された LLM サービス エンドポイントをプロビジョニングされたスループットに移行する
この記事では、既存の LLM サービス エンドポイントを、 基盤モデルAPI を使用して利用可能な プロビジョニングされたスループット エクスペリエンスに移行する方法について説明します。
変更点
プロビジョニングされたスループットは、最適化された LLM サービスエンドポイントを起動するためのよりシンプルなエクスペリエンスを提供します。 Databricks は、LLM モデルサービング システムを次のように変更しました。
スケールアウト範囲は、同時実行ではなくトークン/秒など、LLM ネイティブの用語で構成できます。
顧客は、GPU ワークロードの種類を自分で選択する必要がなくなりました。
新しい LLM サービス エンドポイントは、デフォルトでプロビジョニングされたスループットで作成されます。 GPU ワークロードの種類を引き続き選択する場合、このエクスペリエンスは API を使用してのみサポートされます。
LLM サービスエンドポイントをプロビジョニングされたスループットに移行する
既存のエンドポイントをプロビジョニングされたスループットに移行する最も簡単な方法は、エンドポイントを新しいモデルバージョンで更新することです。 新しいモデル バージョンを選択すると、プロビジョニングされたスループットのエクスペリエンスが UI に表示されます。 UI には、一般的なユース ケースの Databricks ベンチマークに基づいて、トークン/秒の範囲が表示されます。
この更新されたオファリングのパフォーマンスは、最適化の改善により厳密に改善されており、エンドポイントの価格は変更されません。 製品に関するフィードバックや懸念事項については、 model-serving-feedback@databricks.com
にお問い合わせください。