メインコンテンツまでスキップ

分散LLMバッチ推論

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

このページでは、 Ray Dataを使用したLLMバッチ推論のノートブックの例を提供します。 サーバレス GPU コンピュート上の、 AIワークロード用のスケーラブルなデータ処理ライブラリ。

Ray Data による vLLM を使用したバッチ推論

このノートブックでは、サーバレス GPU で Ray Data とvLLMを使用してLLM推論を大規模に実行する方法を示します。 分散サーバレス GPU APIを利用して、分散推論用のマルチノード A10 GPU を自動的にプロビジョニングおよび管理します。

vLLM バッチ推論

Open notebook in new tab

Ray Data を使用した SGLang によるバッチ推論

SGLangは、LLM 用の高性能なサービス フレームワークです。このノートブックでは、 Databricksサーバレス GPU で SGLang と Ray Data を使用してLLMバッチ推論を実行する方法を示します。

SGLang バッチ推論

Open notebook in new tab