Inferência de lotes LLM distribuídos

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Esta página fornece exemplos em formato de notebook para inferência de lotes LLM usando dados Ray. Uma biblioteca de processamento de dados escalável para cargas de trabalho AI , em compute GPU serverless .

Tutorial	Descrição
Inferência de lotes usando vLLM com dados Ray	Este notebook demonstra como executar inferência LLM em escala usando Ray Data e vLLM em GPU serverless . Ele utiliza a API de GPU distribuída serverless para provisionar e gerenciar automaticamente GPUs A10 em vários nós para inferência distribuída.
Inferência de lotes usando SGLang com dados de raio	SGLang é uma estrutura de servidor de alto desempenho para LLMs. Este notebook demonstra como executar inferência de lotes LLM usando SGLang e Ray Data em uma GPU serverless Databricks .