分散LLMバッチ推論
備考
ベータ版
この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。
このページでは、 Ray Dataを使用したLLMバッチ推論のノートブックの例を提供します。 サーバレス GPU コンピュート上の、 AIワークロード用のスケーラブルなデータ処理ライブラリ。
Ray Data による vLLM を使用したバッチ推論
このノートブックでは、サーバレス GPU で Ray Data とvLLMを使用してLLM推論を大規模に実行する方法を示します。 分散サーバレス GPU APIを利用して、分散推論用のマルチノード A10 GPU を自動的にプロビジョニングおよび管理します。
vLLM バッチ推論
Ray Data を使用した SGLang によるバッチ推論
SGLangは、LLM 用の高性能なサービス フレームワークです。このノートブックでは、 Databricksサーバレス GPU で SGLang と Ray Data を使用してLLMバッチ推論を実行する方法を示します。