バッチ inference using 基盤モデル APIs プロビジョニング スループット

この記事では、基盤モデル APIを使用して、プロビジョン済み スループット エンドポイントでバッチ推論を実行するノートブックの例を示します。また、バッチ推論ワークロードに基づいてエンドポイントの最適な同時実行性を決定するためのサンプル ノートブックも含まれています。

要件

バッチ推論の実行

一般に、バッチ推論の設定には、次の 3 つの手順が含まれます。

  1. サンプル データを準備し、ベンチマーク エンドポイントを設定します。

  2. ベンチマーク エンドポイントのサンプル データを使用してロード テストを実行し、理想的なエンドポイント構成を決定します。

  3. バッチ推論に使用するエンドポイントを作成し、バッチ推論要求を送信します。

このサンプル ノートブックでは、バッチ推論を設定し、Meta Llama 3.1 70B モデルと PySpark を使用して次のことを実現します。

  • 入力データをサンプリングして、代表的なデータセットを構築します

  • 選択したモデルでベンチマーク エンドポイントを作成する

  • サンプル データを使用してベンチマーク エンドポイントのロード テストを行い、待機時間と同時実行性を判断します

  • 特定のロード テスト結果に対するバッチ推論用のプロビジョニング済みスループット エンドポイントを作成する

  • バッチ要求を作成し、バッチ推論エンドポイントに送信します

プロビジョニングされたスループットエンドポイントを使用したバッチ推論ノートブック

ノートブックを新しいタブで開く

バッチ推論ワークロードの最適な同時実行性を決定する

次のノートブックは、PySpark を使用してベンチマーク エンドポイントをロード テストするための代替ツールを提供します。

バッチ推論の最適な同時実行性を決定するノートブック

ノートブックを新しいタブで開く