Databricks 基盤モデル APIs

この記事では、Databricks の基盤モデル APIs の概要について説明します。これには、使用要件、サポートされているモデル、および制限事項が含まれています。

Databricks 基盤モデル APIsとは

Databricks モデルサービングでは、サービスエンドポイントから最先端のオープンモデルにアクセスしてクエリを実行できる基盤モデル APIs がサポートされるようになりました。基盤モデル APIsを使用すると、独自のモデルデプロイを維持することなく、高品質の生成 AI モデルを活用するアプリケーションを迅速かつ簡単に構築できます。

基盤モデル APIs は、次の 2 つの価格設定モードで提供されます。

支払い単位: これは、 Databricks上の基盤モデルへのアクセスを開始する最も簡単な方法であり、基盤モデルAPIsの使用を開始する場合にお勧めします。このモードは、高スループットアプリケーションやパフォーマンスの本番運用ワークロード向けに設計されていません。
プロビジョニングスループット: このモードは、すべての本番運用ワークロード、特に高スループット、パフォーマンス保証、微調整されたモデルを必要とするワークロード、または追加のセキュリティ要件があるワークロードに推奨されます。プロビジョニングスループットエンドポイントは、HIPPA などのコンプライアンス認定で利用できます。

これら 2 つのモードとサポートされているモデルの使用方法については、「基盤モデル APIsの使用」を参照してください。

プラットフォームAPIsを使用すると、次のことが可能になります。

クエリーより多くのリソースを投資する前にプロジェクトの妥当性を検証するための一般化されたLLM。
クエリーカスタムモデルのトレーニングとデプロイに投資する前に、LLMベースのアプリケーションの概念実証を迅速に作成するための一般化されたLLM。
基盤モデルとベクトルデータベースを使用して、検索拡張生成(RAG)を使用してチャットボットを構築します。
プロプライエタリなモデルをオープンな代替品に置き換えて、コストとパフォーマンスを最適化します。
LLMを効率的に比較して、ユースケースに最適な候補を確認したり、本番運用モデルをよりパフォーマンスの高いモデルと交換したりできます。
本番運用トラフィックの急増をサポートできるスケーラブルでSLAに裏打ちされたLLMサービスソリューションの上に、開発または本番運用用のLLMアプリケーションを構築します。

要件

エンドポイント要求を認証するための Databricks API トークン。
サーバレスコンピュート (プロビジョニングされたスループットモデルの場合)。
サポートされているリージョンのワークスペース:
- トークンごとに支払うリージョン。
- プロビジョニングされたスループット領域。

注：

DBRX 基本モデルを使用するプロビジョニングスループットワークロードについては、リージョンの可用性に関するインフラストラクチャAPIs制限を参照してください。

Foundation Model APIs を使用

プラットフォームAPIsを使用するには複数のオプションがあります。

APIs OpenAI と互換性があるため、クエリに OpenAI クライアントを使用することもできます。サポートされているモデルをクエリするために、UI、基盤APIs Python SDK、MLflow Deployments SDK、または REST API を使用することもできます。 Databricks では、拡張対話には MLflow Deployments SDK または REST API を使用し、機能を試すには UI を使用することをお勧めします。

スコアリングの例については、「クエリ基盤モデル」を参照してください。

Pay-per-token 基盤モデル APIs

プレビュー

この機能はパブリックプレビュー版です。

Pay-per-VPN モデルはDatabricksワークスペースからアクセスできるので、始めるのに推奨されます。ワークスペースでこれらにアクセスするには、左側のサイドバーの[配信中]タブに移動します。基盤モデルAPIsエンドポイントリストビューの上部にあります。

次の表は、トークンごとの支払いでサポートされているモデルをまとめたものです。追加のモデル情報については「トークン単位の支払いでサポートされるモデル」を参照してください。

これらのモデルをテストしてチャットしたい場合は、 AI Playground使用して行うことができます。「AI Playground を使用してサポートされている LLM とチャットする」を参照してください。

モデル	タスクのタイプ	エンドポイント
DBRX Instruct	Chat	`databricks-dbrx-instruct`
メタラマ-3-70B-指示	Chat	`databricks-meta-llama-3-70b-instruct`
メタラマ- 2 - 70B -チャット	Chat	`databricks-llama-2-70b-chat`
Mixtral-8x7B Instruct	Chat	`databricks-mixtral-8x7b-instruct`
MPT 7B Instruct	Completion	`databricks-mpt-7b-instruct`
MPT 30B Instruct	Completion	`databricks-mpt-30b-instruct`
BGE Large (英語)	Embeddings	`databricks-bge-large-en`

基盤モデルを照会する方法については、「基盤モデルの照会」をAPIs 参照してください。
必要なパラメータと構文については、「プラットフォームモデル REST API リファレンス」を参照してください。

プロビジョニングされたスループットの基盤モデルAPIs

プロビジョニングスループットは一般提供されており、 Databricks本番運用ワークロードにはプロビジョニングスループットを推奨しています。プロビジョニングされたスループットは、パフォーマンスの保証を必要とする基盤モデルのワークロードに対して最適化された推論をエンドポイントに提供します。プロビジョニング全体モードで基盤モデルAPIsを展開する方法のステップバイステップガイドについては、「プロビジョニングスループット基盤APIsを参照してください。

プロビジョニングされたスループットのサポートには、次のものが含まれます。

DBRX Base など、あらゆるサイズのベースモデル。基本モデルにはDatabricks Marketplace使用してアクセスすることも、 Hugging Faceまたは別の外部ソースからダウンロードしてUnity Catalogに登録することもできます。後者のアプローチは、使用される微調整方法に関係なく、サポートされているモデルの微調整されたバリアントで機能します。
LlamaGuard-7Bなどのベースモデルの微調整されたバリエーション。これには、独自のデータで微調整されたモデルが含まれます。
ゼロからトレーニングされたもの、ベースモデルアーキテクチャ(CodeLlama、Yi-34B-Chat、SOLAR-10.7Bなど)を使用した継続的な事前トレーニングやその他のバリエーションなど、完全にカスタマイズされた重みとトークナイザー。

次の表は、プロビジョニングされたスループットでサポートされているモデルアーキテクチャをまとめたものです。

モデルアーキテクチャ	タスクの種類	注
DBRXの	Chat または Completion	利用可能なリージョンについては、「プラットフォームモデルAPIs制限」を参照してください。
Llama 3	Chat または Completion
Llama 2	Chat または Completion
Mistral	Chat または Completion
Mixtral	Chat または Completion
MPT	Chat または Completion
BGE v1.5 (英語)	Embeddings

制限事項

「モデルサービングの制限と地域」を参照してください。

Databricks 基盤モデル APIs