モデルサービングを使用してモデルをデプロイします。
この記事では、マネーサービングとバッチ推論のためのAIおよびMLモデルをデプロイするためのDatabricksソリューションであるモデルビングサーについて説明します。
モデルサービングとは何ですか?
モデルサービングは、リアルタイム推論およびバッチ推論のためのAIモデルのデプロイ、管理、およびクエリを実行するための統一されたインターフェースを提供します。提供する各モデルは、REST APIとして利用可能であり、Webアプリケーションやクライアントアプリケーションに統合できます。
モデルサービングは、モデルをデプロイするための高可用性と低遅延のサービスを提供します。 このサービスは、需要の変化に合わせて自動的にスケールアップまたはスケールダウンするため、インフラストラクチャのコストを節約しながら、レイテンシのパフォーマンスを最適化します。 この機能は サーバレス コンピュートを使用します。 詳細については、 モデルサービングの価格ページを参照してください。
モデルサービングは、CRUDおよびクエリタスクのための統一された REST API および MLflow デプロイメント API を提供します。 さらに、すべてのモデルとそれぞれの配信エンドポイントを管理するための単一のUIを提供します。 また、AI 関数 を使用してSQLから直接モデルにアクセスすることもでき、アナリティクス ワークフローに簡単に統合できます。
AI 関数 とモデルサービングは、バッチ推論シナリオ用に緊密に統合されています。 バッチ推論パイプラインでは、タスク固有の AI 関数 または ai-query のいずれかを使用できます。 Databricksによってホストおよび管理される事前プロビジョニングモデルを使用することを選択した場合、モデルサービングエンドポイントを自分で設定する必要はありません。
開始するには、次のガイドを参照してください。
- バッチ推論の実行については、 「 AI Functionsを使用したエンリッチデータ」を参照してください。
- Databricks でリアルタイム推論のためにカスタムモデルを提供する方法の入門チュートリアルについては、「チュートリアル: カスタムモデルのデプロイとクエリ」を参照してください。
- リアルタイム推論のために Databricks で基盤モデルに対してクエリを実行する方法に関する入門チュートリアルについては、「 Databricks で LLM のクエリを開始する」を参照してください。
デプロイできるモデル
モデルサービングは、次のモデルタイプのリアルタイム推論とバッチ推論をサポートします。
-
カスタムモデル。 これらは、MLflow 形式でパッケージ化された Python モデルです。 これらは、 Unity Catalog またはワークスペース モデルレジストリに登録できます。 例としては、scikit-learn、XGBoost、PyTorch、Hugging Face トランスフォーマーモデルなどがあります。
- エージェント サービングはカスタム モデルとしてサポートされます。「生成AIアプリケーションのエージェントのデプロイ (モデルサービング)」を参照してください。
-
- Meta Llamaのような Databricksがホストする基盤モデル 。これらのモデルは、基盤モデル APIを使用して使用できます。これらのモデルは、最適化された推論をサポートするキュレーションされた基盤モデル アーキテクチャです。 Meta-Llama-3.3-70B-Instructのような基本モデル、 GTE-Large と Mistral-7B は、 トークン単位の従量課金 価格ですぐに使用でき、パフォーマンスの保証と微調整されたモデル バリアントが必要なワークロードは、 プロビジョン済みスループット でデプロイできます。
- OpenAI の GPT-4 など、 Databricks の外部でホストされている基盤モデル 。これらのモデルには、 外部モデルを使用してアクセスできます。 これらのモデルを提供するエンドポイントは Databricks から一元的に管理できるため、組織内の OpenAI や Anthropic などのさまざまな LLM プロバイダーの使用と管理を効率化できます。
サポートされている大規模言語モデルは、 AI Playgroundを使用して操作できます。 AI Playground は、LLM をテスト、プロンプト、比較できるチャットのような環境です。 この機能は、Databricks ワークスペースで使用できます。
モデルサービングを使用する理由
-
任意のモデルのデプロイとクエリ: モデルサービングは、すべてのモデルを 1 か所で管理し、API でホストされているか外部でホストされているかに関係なく、1 つのDatabricks でクエリを実行できるようにする統一インターフェイスを提供します。このアプローチにより、エクスペリメントのプロセスを簡素化し、さまざまなクラウドやプロバイダー間での本番運用のモデルをカスタマイズし、デプロイします。
-
プライベート データを使用してモデルを安全にカスタマイズ : データ インテリジェンス プラットフォーム上に構築されたモデルサービングは、 Databricks Feature Storeおよび一連検索とのネイティブ統合を通じて、モデルへの機能と埋め込みの統合を簡素化します。 精度と文脈理解をさらに向上させるために、独自のデータを用いてモデルを微調整し、モデルサービングに容易に展開することができます。
-
モデルの管理と監視 : Serving UI を使用すると、外部でホストされているエンドポイントを含め、すべてのモデル エンドポイントを 1 か所で一元的に管理できます。 AI Gateway を使用して、権限の管理、使用制限の追跡と設定、すべてのタイプのモデルの品質の監視を行うことができます。これにより、SaaSへのアクセスを民主化し、組織内でLLMを開放しながら、適切なガードレールを確保することができます。
-
最適化された推論と高速スケーリングによるコスト削減 :Databricks は、大規模モデルに対して最高のスループットとレイテンシを実現するために、さまざまな最適化を実装しています。 エンドポイントは、需要の変化に合わせて自動的にスケールアップまたはスケールダウンし、インフラストラクチャのコストを節約しながら、レイテンシパフォーマンスを最適化します。 モデルサービングのコストを監視します。
- レイテンシーの影響を受けやすいワークロード、または 1 秒あたりのクエリ数が多いワークロードの場合、包括的な最適化戦略については、「本番運用用のモデルサービング エンドポイントの最適化」を参照してください。 ワークスペースで高いスケーラビリティが実現されていることを確認するには、Databricks アカウント チームにお問い合わせください。
-
モデルサービングに信頼性とセキュリティをもたらそう : モデルサービングは、高可用性、低レイテンシの本番運用用に設計されており、毎秒25Kを超えるクエリを50ミリ秒未満のオーバーヘッドレイテンシでサポートできます。 サービングワークロードは、複数のセキュリティレイヤーによって保護され、最も機密性の高いタスクでも安全で信頼性の高い環境を確保します。ネットワークポリシーを設定することで、モデルサービングエンドポイントへのネットワークアクセスを制御できます。サーバレス egress 制御については、Manage network ポリシーを参照してください。
モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricks アカウントチームにお問い合わせください。
必要条件
- Unity Catalog または Workspace Model Registry に登録されているモデル。
- 登録済みモデルに対するアクセス許可 ( サービングエンドポイントのACLを参照)。
- MLflow 1.29 以降。
- ワークスペースの権限が設定されました。「権限の管理」を参照してください。
ワークスペースのモデルサービングを有効にする
モデルサービングを使用するには、アカウント管理者がアカウントコンソールでサーバレス コンピュートを有効にするための利用規約を読み、同意する必要があります。
アカウントが2022年3月28日以降に作成された場合、ワークスペースではサーバレスコンピューティングがデフォルトで有効になっています。
アカウント管理者でない場合は、これらの手順を実行できません。 ワークスペースがサーバレス コンピュートにアクセスする必要がある場合は、アカウント管理者にお問い合わせください。
- アカウント管理者は、 アカウントコンソールの設定ページの機能有効化タブに移動します。
- ページ上部のバナーで、追加の条件に同意するように求められます。利用規約を読み、「 同意する 」をクリックしてください。利用規約に同意するかどうかを尋ねるバナーが表示されない場合は、このステップはすでに完了しています。
利用規約に同意すると、アカウントはサーバレスに対して有効になります。
ワークスペースでモデルサービングを有効にするために追加の手順は必要ありません。
制限事項と利用可能な地域
モデルサービングは、信頼性の高いパフォーマンスを確保するために、デフォルトの制限を設けています。「モデルサービングの制限と地域」を参照してください。 これらの制限事項や、サポート対象外の地域にあるエンドポイントについてご意見がある場合は、Databricksのアカウントチームまでお問い合わせください。
モデルサービングでのデータ保護
Databricksはデータセキュリティを真剣に考えています。Databricksは、モデルサービングを使用して分析するデータの重要性を理解しており、お客様のデータを保護するために以下のセキュリティ制御を実装しています。
- モデルサービングに対するすべての顧客リクエストは、論理的に分離され、認証され、承認されます。
- モデルサービングは、保存時 (AES-256) および転送中 (TLS 1.2+) のすべてのデータを暗号化します。
すべての有料アカウントについて、モデルサービングは、モデルのトレーニングや Databricks サービスの改善のために、サービスにDatabricksされたユーザー入力やサービスからの出力を使用しません。
Databricksは、すべてのモデルサービングワークロードにおいて、コンテナのビルドログを最大30日間、メトリクスデータを最大14日間保持します。
Databricks基盤モデルAPIについては、サービスの提供の一環として、Databricks、乱用または有害な使用を防止、検出、および軽減する目的で、入力と出力を一時的に処理および保存する場合があります。お客様の入力と出力は、他の顧客の入力と出力から分離され、ワークスペースと同じリージョンに最大 30 日間保存され、セキュリティや不正使用の懸念を検出して対応するためにのみアクセスできます。
API は Databricks指定 サービスであり、Databricks Geosによって実装されているデータ レジデンシー境界に準拠しています。