Databricks基盤モデルAPI

この記事では、Databricksの基盤モデルAPIの概要を説明します。使用条件、対応機種、制限事項などが記載されています。

Databricks基盤モデルAPIとは

Mosaic AI Model Serving では、サービングエンドポイントから最先端のオープンモデルにアクセスしてクエリを実行することができる基盤モデル・APIsがサポートされるようになりました。基盤モデル APIsを使用すると、独自のモデルデプロイメントを維持することなく、高品質な生成AI モデルを活用したアプリケーションを迅速かつ簡単に構築できます。 基盤モデル APIs は Databricks Designated サービスであり、顧客コンテンツを処理する際にDatabricks Geosを使用してデータ所在地を管理します。

基盤モデルAPIは、次の2つの価格体系で提供しています。

  • トークン単位の従量課金: これは、 Databricks上の基盤モデルへのアクセスを開始する最も簡単な方法であり、基盤モデルAPIsの使用を開始する場合にお勧めします。このモードは、高スループットアプリケーションやパフォーマンスの本番運用ワークロード向けに設計されていません。

  • プロビジョニングされたスループット:このモードは、すべての本番運用ワークロード、特に高スループット、パフォーマンス保証、ファインチューニングされたモデル、または追加のセキュリティ要件が必要なワークロードに推奨されます。プロビジョニングされたスループットエンドポイントは、HIPAAなどのコンプライアンス認証を取得して利用できます。

これら2つのモードの使用方法とサポートされているモデルについては、「基盤モデルAPIを使用する 」を参照してください。

基盤モデルAPIを使用すると、次のことが可能になります。

  • 追加のリソースを投資する前に、一般化されたLLMをクエリーしてプロジェクトの有効性を確認します。

  • カスタムモデルのトレーニングやデプロイに投資する前に、LLMベースのアプリケーションの概念実証を迅速に行うために、一般化されたLLMをクエリーします。

  • 基盤モデルとベクトルデータベースを使用して、検索拡張生成(RAG)を使用するチャットボットを構築します。

  • 独自のモデルをオープンな代替モデルに置き換えて、コストとパフォーマンスを最適化します。

  • LLMを効率的に比較して、ユースケースに最適な候補を確認したり、本番運用モデルをよりパフォーマンスの高いものと交換したりできます。

  • 開発用または本番運用のLLMアプリケーションを、SLAに裏打ちされたスケーラブルなLLMサービスソリューションの上に構築し、本番環境のトラフィックの急増に対応できます。

要件

基盤モデルAPIを使用する

Foundation Model APIを使用するには、複数の選択肢があります。

APIsはOpenAIと互換性があるため、OpenAIクライアントを使用してクエリを実行できます。また、UI、基盤モデル APIs Python SDK、 MLflow Deployments の SDK、またはサポートされているモデルのクエリに REST API を使用することもできます。 Databricks では、拡張インタラクションには OpenAI クライアント SDK または API を使用し、機能を試すには UI を使用することをお勧めします。

スコアリングの例については 、「Query 生成AI モデル 」を参照してください。

トークン単位の従量課金の基盤モデルAPI

トークン単位の従量課金のモデルはDatabricksワークスペースからアクセスできるので、始めるのに推奨されます。ワークスペースでこれらにアクセスするには、左側のサイドバーの[配信中]タブに移動します。基盤モデルAPIエンドポイントリストビューの上部にあります。

サービスエンドポイントリスト

次の表は、トークンごとの支払いでサポートされているモデルをまとめたものです。追加のモデル情報については「トークン単位の従量課金がサポートされるモデル」を参照してください。

これらのモデルを試してチャットしたい場合は、AI Playground を使用して行うことができます。 「LLM とのチャット」および「AI Playground を使用した GenAI アプリのプロトタイプ作成」を参照してください。

重要

  • 2024年7月23日より、Meta-Llama-3.1-70B-Instructは基盤モデルAPIのトークン単位の従量課金エンドポイントにおけるMeta-Llama-3-70B-Instructのサポートを置き換えます。

  • 以下のモデルは現在廃止されています。 推奨される交換モデルについては 、廃止されたモデル を参照してください。

    • Llama 2 70B Chat

    • MPT 7B Instruct

    • MPT 30B Instruct

モデル

タスクのタイプ

エンドポイント

GTE Large (英語)

Embeddings

databricks-gte-large-en

正規化された埋め込みは生成されません。

Meta-Llama-3.1-70B-Instruct

Chat

databricks-meta-llama-3-1-70b-instruct

Meta-Llama-3.1-405B-Instruct*

Chat

databricks-meta-llama-3-1-405b-instruct

リージョンの可用性については、基盤モデルAPIの制限を参照してください。

DBRX Instruct

Chat

databricks-dbrx-instruct

リージョンの可用性については、基盤モデルAPIの制限を参照してください。

Mixtral-8x7B Instruct

Chat

databricks-mixtral-8x7b-instruct

リージョンの可用性については、基盤モデルAPIの制限を参照してください。

BGE Large (英語)

Embeddings

databricks-bge-large-en

リージョンの可用性については、基盤モデルAPIの制限を参照してください。

* このモデルの使用中にエンドポイントのエラーや安定化エラーが発生した場合は、Databricks アカウント チームにお問い合わせください。

プロビジョニングされたスループットの基盤モデルAPI

プロビジョニングされたスループットは、パフォーマンスの保証を必要とする基盤モデルのワークロードに対してエンドポイントに最適化された推論を提供します。Databricks本番運用ワークロードにはプロビジョニング スループットを推奨します。 プロビジョニングされたスループットの基盤モデルAPIをプロビジョニング全体でデプロイする方法のステップバイステップガイドについては、「 プロビジョニングされたスループットの基盤モデルAPI」を参照してください。

プロビジョニングされたスループットのサポートには以下が含まれます。

  • DBRXベースなど、あらゆるサイズの基本モデル。基本モデルには、Databricks Marketplaceを使用してアクセスできます。または、Hugging Faceや他の外部ソースからダウンロードしてUnity Catalogに登録することもできます。後者のアプローチは、採用されているファインチューニングの方法に関係なく、サポートされているモデルのどのファインチューニングされたバリエーションでも機能します。

  • 基本モデルの微調整されたバリエーション、たとえば LlamaGuard-7B や meta-llama/Llama-3.1-8B. これには、独自のデータに基づいて微調整されたモデルが含まれます。

  • 完全にカスタマイズされた重みとトークナイザー (ゼロからトレーニングされたもの、または 基本モデルアーキテクチャ (CodeLlama) を使用して事前トレーニングされたものやその他のバリエーションなど)。

次の表は、プロビジョニングされたスループットでサポートされているモデルアーキテクチャをまとめたものです。

重要

Meta Llama 3.2 は、 LLAMA 3.2 コミュニティ ライセンス、Copyright © Meta Platforms, Inc. の下でライセンスされています。 全著作権所有。 お客様は、本ライセンスおよび Llama 3.2 Acceptable Use ポリシーの条項に対するコンプライアンスを確保する責任があります。

Meta Llama 3.1 は、 LLAMA 3.1 コミュニティ ライセンス、Copyright © Meta Platforms, Inc. の下でライセンスされています。 全著作権所有。 お客様は、該当するモデルライセンスでコンプライアンスを確保する責任があります。

モデルアーキテクチャ

タスクのタイプ

メタ Llama 3.2 3B

ChatまたはCompletion

プロビジョニングされたスループットの制限 」を参照して、サポートされているモデルのバリエーションとリージョンの可用性を確認してください。

メタ Llama 3.2 1B

ChatまたはCompletion

プロビジョニングされたスループットの制限 」を参照して、サポートされているモデルのバリエーションとリージョンの可用性を確認してください。

Meta Llama 3.1

ChatまたはCompletion

プロビジョニングされたスループットの制限 」を参照して、サポートされているモデルのバリエーションとリージョンの可用性を確認してください。

Meta Llama 3

ChatまたはCompletion

Meta Llama 2

ChatまたはCompletion

DBRX

ChatまたはCompletion

「リージョンの可用性に関する プロビジョニングされたスループットの制限 」を参照してください。

Mistral

ChatまたはCompletion

Mixtral

ChatまたはCompletion

MPT

ChatまたはCompletion

GTE v1.5 (英語)

Embeddings

正規化された埋め込みは生成されません。

BGE v1.5 (英語)

Embeddings

制限事項

「基盤モデルのAPIs制限」を参照してください。