基盤モデル API プロビジョニング スループットを用いたバッチ推論
この記事では、基盤モデル APIを使用して、プロビジョニング スループット エンドポイントでバッチ推論を実行するノートブックの例を示します。また、バッチ推論ワークロードに基づいてエンドポイントの最適な同時実行性を決定するためのサンプル ノートブックも含まれています。
要件
基盤モデルAPIがサポートされているリージョンのワークスペース。
Databricks Runtime 14.3 ML LTS 以降。
バッチ推論の実行
一般に、バッチ推論の設定には、次の 3 つの手順が含まれます。
サンプル データを準備し、ベンチマーク エンドポイントを設定します。
ベンチマーク エンドポイントのサンプル データを使用してロード テストを実行し、理想的なエンドポイント構成を決定します。
バッチ推論に使用するエンドポイントを作成し、バッチ推論要求を送信します。
このサンプル ノートブックでは、バッチ推論を設定し、Meta Llama 3.1 70B モデルと PySpark を使用して次のことを実現します。
入力データをサンプリングして、代表的なデータセットを構築します
選択したモデルでベンチマーク エンドポイントを作成する
サンプル データを使用してベンチマーク エンドポイントのロード テストを行い、待機時間と同時実行性を判断します
特定のロード テスト結果に対するバッチ推論用のプロビジョニング済みスループット エンドポイントを作成する
バッチ要求を作成し、バッチ推論エンドポイントに送信します