メインコンテンツまでスキップ

Mosaic AI Model Serving を使用したモデルのデプロイ

この記事では、リアルタイム サービングとバッチ推論のAIモデルとMLモデルをデプロイするための ソリューションである Mosaic AI Model Servingについて説明します。

Mosaic AI Model Servingとは?

Mosaic AI Model Serving は、リアルタイムおよびバッチ推論のための AI モデルをデプロイ、制御、クエリするための統一されたインターフェイスを提供します。 提供する各モデルは、Web アプリケーションまたはクライアント アプリケーションに統合できる REST API として使用できます。

モデルサービングは、モデルをデプロイするための高可用性と低遅延のサービスを提供します。 このサービスは、需要の変化に合わせて自動的にスケールアップまたはスケールダウンするため、インフラストラクチャのコストを節約しながら、レイテンシのパフォーマンスを最適化します。 この機能は サーバレス コンピュートを使用します。 詳細については、 モデルサービングの価格ページを参照してください

モデルサービングは、CRUDおよびクエリタスクのための統一された REST API および MLflow デプロイメント API を提供します。 さらに、すべてのモデルとそれぞれの配信エンドポイントを管理するための単一のUIを提供します。 また、SQLAI 関数 を使用して から直接モデルにアクセスすることもでき、アナリティクス ワークフローに簡単に統合できます。

開始するには、次のガイドを参照してください。

デプロイできるモデル

モデルサービングは、次のモデルタイプのリアルタイム推論とバッチ推論をサポートします。

  • カスタムモデル。 これらは、MLflow 形式でパッケージ化された Python モデルです。 これらは、 Unity Catalog またはワークスペース モデルレジストリに登録できます。 例としては、scikit-learn、XGBoost、PyTorch、Hugging Face トランスフォーマーモデルなどがあります。

  • 基盤モデル.

    • Meta Llamaのような Databricksがホストする基盤モデル 。これらのモデルは、基盤モデル APIsを使用して使用できます。これらのモデルは、最適化された推論をサポートするキュレーションされた基盤モデル アーキテクチャです。 Meta-Llama-3.3-70B-Instructのような基本モデル、 GTE-Large と Mistral-7B は、 トークン単位の従量課金 価格ですぐに使用でき、パフォーマンスの保証と微調整されたモデル バリアントが必要なワークロードは 、プロビジョニング スループット でデプロイできます。
    • OpenAI の GPT-4 など 、Databricks の外部でホストされている基盤モデル 。これらのモデルには、 外部モデルを使用してアクセスできます。 これらのモデルを提供するエンドポイントは Databricks から一元的に管理できるため、組織内の OpenAI や Anthropic などのさまざまな LLM プロバイダーの使用と管理を効率化できます。
注記

サポートされている大規模言語モデルは、 AI Playgroundを使用して操作できます。 AI Playground は、LLM をテスト、プロンプト、比較できるチャットのような環境です。 この機能は、Databricks ワークスペースで使用できます。

モデルサービングを使用する理由

  • 任意のモデルのデプロイとクエリ: モデルサービングは、すべてのモデルを 1 か所で管理し、API でホストされているか外部でホストされているかに関係なく、1 つのDatabricks でクエリを実行できるようにする統一インターフェイスを提供します。このアプローチにより、エクスペリメントのプロセスを簡素化し、さまざまなクラウドやプロバイダー間での本番運用のモデルをカスタマイズし、デプロイします。
  • プライベートデータでモデルを安全にカスタマイズ: データインテリジェンスプラットフォーム上に構築されたモデルサービングは、Databricks Feature Store および とのネイティブ統合により、モデルへの機能と埋め込みの統合を簡素化しMosaic AI Vector Search ます 。精度と文脈理解をさらに向上させるために、モデルは独自のデータで微調整し、モデルサービングに簡単に展開できます。
  • モデルの管理と監視 : Serving UI を使用すると、外部でホストされているエンドポイントを含め、すべてのモデル エンドポイントを 1 か所で一元的に管理できます。 AI Gateway を使用して、権限の管理、使用制限の追跡と設定、すべてのタイプのモデルの品質の監視を行うことができます。これにより、SaaSへのアクセスを民主化し、組織内でLLMを開放しながら、適切なガードレールを確保することができます。
  • 最適化された推論と高速スケーリングによるコスト削減 :Databricks は、大規模モデルに対して最高のスループットとレイテンシを実現するために、さまざまな最適化を実装しています。 エンドポイントは、需要の変化に合わせて自動的にスケールアップまたはスケールダウンし、インフラストラクチャのコストを節約しながら、レイテンシパフォーマンスを最適化します。 モデルサービングのコストを監視します。
注記

レイテンシーの影響を受けやすいワークロードや、1 秒あたりのクエリ数が多いワークロードの場合、 Databricks はカスタムモデルサービングエンドポイントで ルート最適化 を使用することをお勧めします。 Databricks アカウント チームに連絡して、ワークスペースが高いスケーラビリティを実現できることを確認してください。

  • モデルサービングに信頼性とセキュリティをもたらそう : モデルサービングは、高可用性、低レイテンシの本番運用用に設計されており、毎秒25Kを超えるクエリを50ミリ秒未満のオーバーヘッドレイテンシでサポートできます。 サービングワークロードは、複数のセキュリティレイヤーによって保護され、最も機密性の高いタスクでも安全で信頼性の高い環境を確保します。
注記

モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricks アカウントチームにお問い合わせください。

必要条件

ワークスペースのモデルサービングを有効にする

モデルサービングを使用するには、アカウント管理者がアカウントコンソールでサーバレス コンピュートを有効にするための利用規約を読み、同意する必要があります。

注記

アカウントが2022年3月28日以降に作成された場合、ワークスペースではサーバレスコンピューティングがデフォルトで有効になっています。

アカウント管理者でない場合は、これらの手順を実行できません。 ワークスペースがサーバレス コンピュートにアクセスする必要がある場合は、アカウント管理者にお問い合わせください。

  1. アカウント管理者は、 アカウントコンソールの設定ページの機能有効化タブに移動します。
  2. ページ上部のバナーで、追加の条件に同意するように求められます。利用規約を読み、「 同意する 」をクリックしてください。利用規約に同意するかどうかを尋ねるバナーが表示されない場合は、このステップはすでに完了しています。

利用規約に同意すると、サーバレス用のアカウントが有効になります。

ワークスペースでモデルサービングを有効にするために追加の手順は必要ありません。

制限事項と利用可能な地域

Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。 モデルサービングの制限と地域を参照してください。これらの制限に関するフィードバックがある場合、またはサポートされていないリージョンのエンドポイントがある場合は、Databricks アカウント チームにお問い合わせください。

モデルサービングでのデータ保護

Databricks はデータセキュリティに真剣に取り組んでいます。 Databricks は、 Mosaic AI Model Servingを使用して分析するデータの重要性を理解し、データを保護するために次のセキュリティ制御を実装します。

  • モデルサービングに対するすべての顧客リクエストは、論理的に分離され、認証され、承認されます。
  • Mosaic AI Model Serving は、保存中 (AES-256) および転送中 (TLS 1.2+) のすべてのデータを暗号化します。

すべての有料アカウントについて、 Mosaic AI Model Serving は、サービスに送信されたユーザー入力またはサービスからの出力を使用して、モデルのトレーニングや Databricks サービスの改善を行うことはありません。

Databricks基盤モデルAPIsについては、サービスの提供の一環として、Databricks、乱用または有害な使用を防止、検出、および軽減する目的で、入力と出力を一時的に処理および保存する場合があります。お客様の入力と出力は、他の顧客の入力と出力から分離され、ワークスペースと同じリージョンに最大 30 日間保存され、セキュリティや不正使用の懸念を検出して対応するためにのみアクセスできます。 APIs は Databricks Designated サービスであり、Databricks Geosによって実装されているデータ レジデンシー境界に準拠しています。

追加のリソース