Mosaic AI Model Serving を使用したモデルのデプロイ

この記事では、リアルタイムサービングとバッチ推論のAIモデルとMLモデルをデプロイするためのソリューションである Mosaic AI Model Servingについて説明します。

Mosaic AI Model Servingとは?

Mosaic AI Model Serving は、リアルタイムおよびバッチ推論のための AI モデルをデプロイ、制御、クエリするための統一されたインターフェイスを提供します。提供する各モデルは、Web アプリケーションまたはクライアントアプリケーションに統合できる REST API として使用できます。

モデルサービングは、モデルをデプロイするための高可用性と低遅延のサービスを提供します。このサービスは、需要の変化に合わせて自動的にスケールアップまたはスケールダウンするため、インフラストラクチャのコストを節約しながら、レイテンシのパフォーマンスを最適化します。この機能はサーバレスコンピュートを使用します。詳細については、モデルサービングの価格ページを参照してください。

モデルサービングは、CRUDおよびクエリタスクのための統一された REST API および MLflow デプロイメント API を提供します。さらに、すべてのモデルとそれぞれの配信エンドポイントを管理するための単一のUIを提供します。また、AI 関数を使用してSQLから直接モデルにアクセスすることもでき、アナリティクスワークフローに簡単に統合できます。

AI 関数とモデルサービングは、バッチ推論シナリオ用に緊密に統合されています。バッチ推論パイプラインでは、タスク固有の AI 関数または ai-query のいずれかを使用できます。 Databricksによってホストおよび管理される事前プロビジョニングモデルを使用することを選択した場合、モデルサービングエンドポイントを自分で設定する必要はありません。

開始するには、次のガイドを参照してください。

バッチ推論の実行については、 Databricks AI Functionsを使用してデータにAIを適用する」を参照してください。
Databricks でリアルタイム推論のためにカスタムモデルを提供する方法の入門チュートリアルについては、「チュートリアル: カスタムモデルのデプロイとクエリ」を参照してください。
リアルタイム推論のために Databricks で基盤モデルに対してクエリを実行する方法に関する入門チュートリアルについては、「 Databricks で LLM のクエリを開始する」を参照してください。

デプロイできるモデル

モデルサービングは、次のモデルタイプのリアルタイム推論とバッチ推論をサポートします。

カスタムモデル。これらは、MLflow 形式でパッケージ化された Python モデルです。これらは、 Unity Catalog またはワークスペースモデルレジストリに登録できます。例としては、scikit-learn、XGBoost、PyTorch、Hugging Face トランスフォーマーモデルなどがあります。
- エージェントサービスは、カスタムモデルとしてサポートされています。「AIアプリケーションを生成するためのエージェントのデプロイ」を参照してください。
基盤モデル.
- Meta Llamaのような Databricksがホストする基盤モデル 。これらのモデルは、基盤モデル APIを使用して使用できます。これらのモデルは、最適化された推論をサポートするキュレーションされた基盤モデルアーキテクチャです。 Meta-Llama-3.3-70B-Instructのような基本モデル、 GTE-Large と Mistral-7B は、 トークン単位の従量課金 価格ですぐに使用でき、パフォーマンスの保証と微調整されたモデルバリアントが必要なワークロードは、 プロビジョン済みスループット でデプロイできます。
- OpenAI の GPT-4 など、 Databricks の外部でホストされている基盤モデル 。これらのモデルには、外部モデルを使用してアクセスできます。これらのモデルを提供するエンドポイントは Databricks から一元的に管理できるため、組織内の OpenAI や Anthropic などのさまざまな LLM プロバイダーの使用と管理を効率化できます。

注記

サポートされている大規模言語モデルは、 AI Playgroundを使用して操作できます。 AI Playground は、LLM をテスト、プロンプト、比較できるチャットのような環境です。この機能は、Databricks ワークスペースで使用できます。

モデルサービングを使用する理由

任意のモデルのデプロイとクエリ: モデルサービングは、すべてのモデルを 1 か所で管理し、API でホストされているか外部でホストされているかに関係なく、1 つのDatabricks でクエリを実行できるようにする統一インターフェイスを提供します。このアプローチにより、エクスペリメントのプロセスを簡素化し、さまざまなクラウドやプロバイダー間での本番運用のモデルをカスタマイズし、デプロイします。
プライベートデータでモデルを安全にカスタマイズ: データインテリジェンスプラットフォーム上に構築されたモデルサービングは、Databricks Feature Store およびとのネイティブ統合により、モデルへの機能と埋め込みの統合を簡素化しMosaic AI Vector Search ます。精度と文脈理解をさらに向上させるために、モデルは独自のデータで微調整し、モデルサービングに簡単に展開できます。
モデルの管理と監視 : Serving UI を使用すると、外部でホストされているエンドポイントを含め、すべてのモデルエンドポイントを 1 か所で一元的に管理できます。 AI Gateway を使用して、権限の管理、使用制限の追跡と設定、すべてのタイプのモデルの品質の監視を行うことができます。これにより、SaaSへのアクセスを民主化し、組織内でLLMを開放しながら、適切なガードレールを確保することができます。
最適化された推論と高速スケーリングによるコスト削減 :Databricks は、大規模モデルに対して最高のスループットとレイテンシを実現するために、さまざまな最適化を実装しています。エンドポイントは、需要の変化に合わせて自動的にスケールアップまたはスケールダウンし、インフラストラクチャのコストを節約しながら、レイテンシパフォーマンスを最適化します。モデルサービングのコストを監視します。
- レイテンシーの影響を受けやすいワークロード、または 1 秒あたりのクエリ数が多いワークロードの場合、包括的な最適化戦略については、「本番運用用のモデルサービングエンドポイントの最適化」を参照してください。ワークスペースで高いスケーラビリティが実現されていることを確認するには、Databricks アカウントチームにお問い合わせください。
モデルサービングに信頼性とセキュリティをもたらそう : モデルサービングは、高可用性、低レイテンシの本番運用用に設計されており、毎秒25Kを超えるクエリを50ミリ秒未満のオーバーヘッドレイテンシでサポートできます。サービングワークロードは、複数のセキュリティレイヤーによって保護され、最も機密性の高いタスクでも安全で信頼性の高い環境を確保します。ネットワークポリシーを設定することで、モデルサービングエンドポイントへのネットワークアクセスを制御できます。サーバレス egress 制御については、Manage network ポリシーを参照してください。

注記

モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。詳細については、 Databricks アカウントチームにお問い合わせください。

必要条件

Unity Catalog または Workspace Model Registry に登録されているモデル。
登録済みモデルに対するアクセス許可 ( サービングエンドポイントのACLを参照)。
MLflow 1.29 以降。
ワークスペースの権限が設定されました。「権限の管理」を参照してください。

ワークスペースのモデルサービングを有効にする

モデルサービングを使用するには、アカウント管理者がアカウントコンソールでサーバレスコンピュートを有効にするための利用規約を読み、同意する必要があります。

注記

アカウントが2022年3月28日以降に作成された場合、ワークスペースではサーバレスコンピューティングがデフォルトで有効になっています。

アカウント管理者でない場合は、これらの手順を実行できません。ワークスペースがサーバレスコンピュートにアクセスする必要がある場合は、アカウント管理者にお問い合わせください。

アカウント管理者は、アカウントコンソールの設定ページの機能有効化タブに移動します。
ページ上部のバナーで、追加の条件に同意するように求められます。利用規約を読み、「 同意する 」をクリックしてください。利用規約に同意するかどうかを尋ねるバナーが表示されない場合は、このステップはすでに完了しています。

利用規約に同意すると、アカウントはサーバレスに対して有効になります。

ワークスペースでモデルサービングを有効にするために追加の手順は必要ありません。

制限事項と利用可能な地域

Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。モデルサービングの制限と地域を参照してください。これらの制限に関するフィードバックがある場合、またはサポートされていないリージョンのエンドポイントがある場合は、Databricks アカウントチームにお問い合わせください。

モデルサービングでのデータ保護

Databricks はデータセキュリティに真剣に取り組んでいます。 Databricks は、 Mosaic AI Model Servingを使用して分析するデータの重要性を理解し、データを保護するために次のセキュリティ制御を実装します。

モデルサービングに対するすべての顧客リクエストは、論理的に分離され、認証され、承認されます。
Mosaic AI Model Serving は、保存中 (AES-256) および転送中 (TLS 1.2+) のすべてのデータを暗号化します。

すべての有料アカウントについて、 Mosaic AI Model Serving は、サービスに送信されたユーザー入力またはサービスからの出力を使用して、モデルのトレーニングや Databricks サービスの改善を行うことはありません。

すべての Mosaic AI Model Serving ワークロードについて、 Databricks コンテナービルドログを最大 30 日間保持し、メトリクスデータを最大 14 日間保持します。

Databricks基盤モデルAPIについては、サービスの提供の一環として、Databricks、乱用または有害な使用を防止、検出、および軽減する目的で、入力と出力を一時的に処理および保存する場合があります。お客様の入力と出力は、他の顧客の入力と出力から分離され、ワークスペースと同じリージョンに最大 30 日間保存され、セキュリティや不正使用の懸念を検出して対応するためにのみアクセスできます。

API は Databricks指定サービスであり、Databricks Geosによって実装されているデータレジデンシー境界に準拠しています。

Mosaic AI Model Servingとは?​

デプロイできるモデル​

モデルサービングを使用する理由​

必要条件​

ワークスペースのモデルサービングを有効にする​

制限事項と利用可能な地域​

モデルサービングでのデータ保護​

追加のリソース​