Databricks 基盤モデル APIs

この記事では、Databricks の基盤モデル APIs の概要について説明します。 これには、使用要件、サポートされているモデル、および制限事項が含まれています。

Databricks 基盤モデル APIsとは

Databricks モデルサービングでは、サービスエンドポイントから最先端のオープンモデルにアクセスしてクエリを実行できる基盤モデル APIs がサポートされるようになりました。 基盤モデル APIsを使用すると、独自のモデルデプロイを維持することなく、高品質の生成 AI モデルを活用するアプリケーションを迅速かつ簡単に構築できます。

基盤モデル APIs は、次の 2 つの価格設定モードで提供されます。

  • 支払い単位: これは、 Databricks上の基盤モデルへのアクセスを開始する最も簡単な方法であり、基盤モデルAPIsの使用を開始する場合にお勧めします。 このモードは、高スループット アプリケーションやパフォーマンスの本番運用ワークロード向けに設計されていません。

  • プロビジョニング スループット: このモードは、すべての本番運用ワークロード、特に高スループット、パフォーマンス保証、微調整されたモデルを必要とするワークロード、または追加のセキュリティ要件があるワークロードに推奨されます。 プロビジョニング スループット エンドポイントは、HIPPA などのコンプライアンス認定で利用できます。

これら 2 つのモードとサポートされているモデルの使用方法については、「基盤モデル APIsの使用」を参照してください。

プラットフォームAPIsを使用すると、次のことが可能になります。

  • クエリー より多くのリソースを投資する前にプロジェクトの妥当性を検証するための一般化されたLLM。

  • クエリー カスタムモデルのトレーニングとデプロイに投資する前に、LLMベースのアプリケーションの概念実証を迅速に作成するための一般化されたLLM。

  • 基盤モデルとベクトルデータベースを使用して、検索拡張生成(RAG)を使用してチャットボットを構築します。

  • プロプライエタリなモデルをオープンな代替品に置き換えて、コストとパフォーマンスを最適化します。

  • LLMを効率的に比較して、ユースケースに最適な候補を確認したり、本番運用モデルをよりパフォーマンスの高いモデルと交換したりできます。

  • 本番運用トラフィックの急増をサポートできるスケーラブルでSLAに裏打ちされたLLMサービスソリューションの上に、開発または本番運用用のLLMアプリケーションを構築します。

要件

注:

DBRX 基本モデルを使用するプロビジョニング スループット ワークロードについては、リージョンの可用性に関するインフラストラクチャAPIs制限を参照してください。

Foundation Model APIs を使用

プラットフォームAPIsを使用するには複数のオプションがあります。

APIs OpenAI と互換性があるため、クエリに OpenAI クライアントを使用することもできます。 サポートされているモデルをクエリするために、UI、基盤APIs Python SDK、MLflow Deployments SDK、または REST API を使用することもできます。 Databricks では、拡張対話には MLflow Deployments SDK または REST API を使用し、機能を試すには UI を使用することをお勧めします。

スコアリングの例については、 「クエリ基盤モデル」を参照してください。

Pay-per-token 基盤モデル APIs

プレビュー

この機能は パブリックプレビュー版です。

Pay-per-VPN モデルはDatabricksワークスペースからアクセスできるので、始めるのに推奨されます。 ワークスペースでこれらにアクセスするには、左側のサイドバーの[配信中]タブに移動します。 基盤モデルAPIsエンドポイント リスト ビューの上部にあります。

配信エンドポイントのリスト

次の表は、トークンごとの支払いでサポートされているモデルをまとめたものです。 追加のモデル情報については「トークン単位の支払いでサポートされるモデル」を参照してください。

これらのモデルをテストしてチャットしたい場合は、 AI Playground使用して行うことができます。 「AI Playground を使用してサポートされている LLM とチャットする」を参照してください。

モデル

タスクのタイプ

エンドポイント

DBRX Instruct

Chat

databricks-dbrx-instruct

メタラマ-3-70B-指示

Chat

databricks-meta-llama-3-70b-instruct

メタラマ- 2 - 70B -チャット

Chat

databricks-llama-2-70b-chat

Mixtral-8x7B Instruct

Chat

databricks-mixtral-8x7b-instruct

MPT 7B Instruct

Completion

databricks-mpt-7b-instruct

MPT 30B Instruct

Completion

databricks-mpt-30b-instruct

BGE Large (英語)

Embeddings

databricks-bge-large-en

プロビジョニングされたスループットの基盤モデルAPIs

プロビジョニング スループットは一般提供されており、 Databricks本番運用ワークロードにはプロビジョニング スループットを推奨しています。 プロビジョニングされたスループットは、パフォーマンスの保証を必要とする基盤モデルのワークロードに対して最適化された推論をエンドポイントに提供します。 プロビジョニング全体モードで基盤モデルAPIsを展開する方法のステップバイステップ ガイドについては、「プロビジョニング スループット 基盤APIsを参照してください。

プロビジョニングされたスループットのサポートには、次のものが含まれます。

  • DBRX Base など、あらゆるサイズのベース モデル。基本モデルにはDatabricks Marketplace使用してアクセスすることも、 Hugging Faceまたは別の外部ソースからダウンロードしてUnity Catalogに登録することもできます。 後者のアプローチは、使用される微調整方法に関係なく、サポートされているモデルの微調整されたバリアントで機能します。

  • LlamaGuard-7Bなどのベースモデルの微調整されたバリエーション。これには、独自のデータで微調整されたモデルが含まれます。

  • ゼロからトレーニングされたもの、ベースモデルアーキテクチャ(CodeLlama、Yi-34B-Chat、SOLAR-10.7Bなど)を使用した継続的な事前トレーニングやその他のバリエーションなど、完全にカスタマイズされた重みとトークナイザー

次の表は、プロビジョニングされたスループットでサポートされているモデル アーキテクチャをまとめたものです。

モデル アーキテクチャ

タスクの種類

DBRXの

Chat または Completion

利用可能なリージョンについては、「プラットフォームモデルAPIs制限」を参照してください。

Llama 3

Chat または Completion

Llama 2

Chat または Completion

Mistral

Chat または Completion

Mixtral

Chat または Completion

MPT

Chat または Completion

BGE v1.5 (英語)

Embeddings

制限事項

「モデルサービングの制限と地域」を参照してください。