Databricks基盤モデルAPI

この記事では、 の基盤モデルAPIs Databricksの概要を説明します。これには、使用要件、サポートされているモデル、および制限が含まれています。

Databricks基盤モデルAPIとは

Mosaic AI Model Serving では、サービングエンドポイントから最先端のオープンモデルにアクセスしてクエリを実行することができる基盤モデル・APIsがサポートされるようになりました。これらのモデルは Databricks によってホストされ、独自のモデルデプロイを維持することなく、それらを使用するアプリケーションを迅速かつ簡単に構築できます。 基盤モデル APIs は Databricks Designated サービスであり、顧客コンテンツを処理する際にDatabricks Geosを使用してデータ所在地を管理します。

基盤モデル APIs は、以下の価格モードで提供されます。

  • トークン単位の従量課金: これは、 Databricks上の基盤モデルへのアクセスを開始する最も簡単な方法であり、基盤モデルAPIsの使用を開始する場合にお勧めします。このモードは、高スループットアプリケーションやパフォーマンスの本番運用ワークロード向けに設計されていません。

  • プロビジョニングされたスループット:このモードは、すべての本番運用ワークロード、特に高スループット、パフォーマンス保証、ファインチューニングされたモデル、または追加のセキュリティ要件が必要なワークロードに推奨されます。プロビジョニングされたスループットエンドポイントは、HIPAAなどのコンプライアンス認証を取得して利用できます。

これらのモードとサポートされているモデルの使用方法に関するガイダンスについては、 基盤モデル APIsの使用を参照してください。

基盤モデル APIs を使用すると、以下のことを行うことができます

  • 追加のリソースを投資する前に、一般化されたLLMをクエリーしてプロジェクトの有効性を確認します。

  • カスタムモデルのトレーニングやデプロイに投資する前に、LLMベースのアプリケーションの概念実証を迅速に行うために、一般化されたLLMをクエリーします。

  • 基盤モデルとベクトルデータベースを使用して、検索拡張生成(RAG)を使用するチャットボットを構築します。

  • 独自のモデルをオープンな代替モデルに置き換えて、コストとパフォーマンスを最適化します。

  • LLMを効率的に比較して、ユースケースに最適な候補を確認したり、本番運用モデルをよりパフォーマンスの高いものと交換したりできます。

  • 開発用または本番運用のLLMアプリケーションを、SLAに裏打ちされたスケーラブルなLLMサービスソリューションの上に構築し、本番環境のトラフィックの急増に対応できます。

要件

基盤モデルAPIを使用する

Foundation Model APIを使用するには、複数の選択肢があります。

APIsはOpenAIと互換性があるため、OpenAIクライアントを使用してクエリを実行できます。また、UI、基盤モデル APIs Python SDK、 MLflow Deployments の SDK、またはサポートされているモデルのクエリに REST API を使用することもできます。 Databricks では、拡張インタラクションには OpenAI クライアント SDK または API を使用し、機能を試すには UI を使用することをお勧めします。

スコアリングの例については、「 クエリ基盤モデル 」を参照してください。

トークン単位の従量課金の基盤モデルAPI

トークン単位の従量課金モデルを提供する事前設定されたエンドポイントには、 Databricks ワークスペースからアクセスできます。 これらのトークン単位の従量課金モデルは、作業を開始するために推奨されます。 ワークスペースでアクセスするには、左側のサイドバーの 「サービング 」タブに移動します。 基盤モデル APIs は、エンドポイント リスト ビューの上部にあります。

サービスエンドポイントリスト

プロビジョニングされたスループットの基盤モデルAPI

プロビジョニングされたスループットは、パフォーマンスの保証を必要とする基盤モデルのワークロードに対してエンドポイントに最適化された推論を提供します。Databricks本番運用ワークロードにはプロビジョニング スループットを推奨します。

プロビジョニングされたスループットのサポートには以下が含まれます。

  • すべてのサイズのベースモデル。 ベースモデルには、 Databricks Marketplaceを使用してアクセスするか、 Hugging Face または別の外部ソースからダウンロードして Unity Catalogに登録することもできます。 後者のアプローチは、サポートされているモデルの微調整されたバリアントで機能します。

  • 基本モデルの微調整されたバリアント (独自のデータに基づいて微調整されたモデルなど)。

  • 完全にカスタマイズされた重みとトークナイザー (ゼロからトレーニングされたもの、または 基本モデル アーキテクチャ (CodeLlama) を使用して事前トレーニングされたものやその他のバリエーションなど)。

制限事項

「基盤モデルのAPIs制限」を参照してください。