provisionamento Taxa de transferência Foundation Model APIs

Este artigo demonstra como implantar modelos usando o Foundation Model APIs provisionamento Taxa de transferência. Databricks recomenda o provisionamento de taxas de transferência para cargas de trabalho de produção e fornece inferência otimizada para modelos de fundação com garantias de desempenho.

O que é provisionamento Taxa de transferência?

provisionamento A taxa de transferência refere-se ao número de solicitações no valor de tokens que o senhor pode enviar a um endpoint ao mesmo tempo. provisionamento Taxa de transferência servindo endpoint são endpoints dedicados que são configurados em termos de um intervalo de tokens por segundo que o senhor pode enviar para o endpoint.

Consulte o recurso a seguir para obter mais informações:

Consulte Modelos de fundação suportados em Mosaic AI Model Serving para obter uma lista de arquiteturas de modelo suportadas para o endpoint de provisionamento Taxa de transferência.

Requisitos

Veja os requisitos. Para modelos de fundação implantados com ajuste fino, consulte modelos de fundação implantados com ajuste fino.

[Recomendado] implantado modelos de fundação de Unity Catalog

info

Visualização

Esse recurso está em Public Preview.

A Databricks recomenda o uso dos modelos básicos que estão pré-instalados no Unity Catalog. Você pode encontrar esses modelos no catálogo system no esquema ai (system.ai).

Implantar um modelo de fundação:

Navegue até system.ai no Catalog Explorer.
Clique no nome do modelo a ser implantado.
Na página do modelo, clique no botão Servir este modelo .
A página Create serving endpoint é exibida. Consulte Criar seu provisionamento Taxa de transferência endpoint usando a UI.

nota

Para implantar um modelo Meta Llama de system.ai em Unity Catalog, o senhor deve escolher a versão do Instruct aplicável. As versões básicas dos modelos Meta Llama não são compatíveis com a implantação a partir do Unity Catalog. Consulte os modelos Foundation hospedados na Databricks para saber quais são as variantes do modelo Meta Llama suportadas.

modelos de fundação implantados a partir de Databricks Marketplace

Como alternativa, o senhor pode instalar modelos básicos no Unity Catalog a partir do Databricks Marketplace.

O senhor pode pesquisar uma família de modelos e, na página do modelo, pode selecionar Get access (Obter acesso ) e fornecer credenciais de login para instalar o modelo no Unity Catalog.

Depois que o modelo for instalado em Unity Catalog, o senhor poderá criar um modelo de serviço endpoint usando a Serving UI.

implantado modelos de fundação ajustados

Se não for possível usar os modelos no esquema system.ai ou instalar modelos do site Databricks Marketplace, o senhor pode implantar um modelo de base ajustado, registrando-o no site Unity Catalog. Esta seção e as seguintes mostram como configurar seu código para log um modelo MLflow para Unity Catalog e criar seu provisionamento Taxa de transferência endpoint usando a interface do usuário ou o REST API.

Consulte os modelos Foundation hospedados na Databricks para saber quais são os modelos Meta Llama 3.1, 3.2 e 3.3 de ajuste fino compatíveis e a disponibilidade de suas regiões.

Requisitos

A implantação de modelos de fundação com ajuste fino é compatível apenas com o site MLflow 2.11 ou acima. Databricks Runtime 15.0 ML e o acima pré-instala a versão compatível do MLflow.
A Databricks recomenda o uso de modelos no Unity Catalog para acelerar o upload e o download de modelos grandes.

Defina o nome do catálogo, do esquema e do modelo

Para implantar um modelo de base bem ajustado, defina o catálogo de destino Unity Catalog, o esquema e o nome do modelo de sua escolha.

Python
mlflow.set_registry_uri('databricks-uc')
CATALOG = "catalog"
SCHEMA = "schema"
MODEL_NAME = "model_name"
registered_model_name = f"{CATALOG}.{SCHEMA}.{MODEL_NAME}"

registrar seu modelo

Para habilitar o provisionamento da Taxa de transferência para o seu modelo endpoint, o senhor deve log seu modelo usando a variante MLflow transformers e especificar o argumento task com a interface de tipo de modelo apropriada entre as seguintes opções:

"llm/v1/completions"
"llm/v1/chat"
"llm/v1/embeddings"

Esses argumentos especificam a assinatura API usada para o modelo de serviço endpoint. Consulte a documentação do site MLflow para obter mais detalhes sobre essas tarefas e os esquemas de entrada/saída correspondentes.

Veja a seguir um exemplo de como log um modelo de linguagem de preenchimento de texto com logs usando MLflow:

Python
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.3-70B-Instruct", torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.3-70B-Instruct")

with mlflow.start_run():
    components = {
      "model": model,
      "tokenizer": tokenizer,
    }
    mlflow.transformers.log_model(
        transformers_model=components,
        artifact_path="model",
        # Specify the llm/v1/xxx task that is compatible with the model being logged
        task="llm/v1/completions",
        # Specify an input example that conforms to the input schema for the task.
        input_example={"prompt": np.array(["Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\nWhat is Apache Spark?\n\n### Response:\n"])},
        # By passing the model name, MLflow automatically registers the Transformers model to Unity Catalog with the given catalog/schema/model_name.
        registered_model_name=registered_model_name
        # Optionally, you can set save_pretrained to False to avoid unnecessary copy of model weight and gain more efficiency.
        save_pretrained=False
    )

nota

Se estiver usando o MLflow antes da versão 2.12, o senhor deverá especificar a tarefa no parâmetro metadata da mesma função mlflow.transformer.log_model().

metadata = {"task": "llm/v1/completions"}
metadata = {"task": "llm/v1/chat"}
metadata = {"task": "llm/v1/embeddings"}

O provisionamento Taxa de transferência também suporta os modelos de incorporação GTE básico e grande. A seguir, um exemplo de como log o modelo Alibaba-NLP/gte-large-en-v1.5 para que ele possa ser atendido com o provisionamento Taxa de transferência:

Python
model = AutoModel.from_pretrained("Alibaba-NLP/gte-large-en-v1.5")
tokenizer = AutoTokenizer.from_pretrained("Alibaba-NLP/gte-large-en-v1.5")
with mlflow.start_run():
    components = {
      "model": model,
      "tokenizer": tokenizer,
    }
    mlflow.transformers.log_model(
        transformers_model=components,
        artifact_path="model",
        task="llm/v1/embeddings",
        registered_model_name=registered_model_name,
        # model_type is required for logging a fine-tuned BGE models.
        metadata={
            "model_type": "gte-large"
        }
    )

Depois que seu modelo estiver registrado em Unity Catalog, continue em Create your provisionamento Taxa de transferência endpoint usando a UI para criar um modelo de serviço endpoint com provisionamento Taxa de transferência.

Crie seu provisionamento Taxa de transferência endpoint usando a UI.

Depois que os modelos registrados estiverem em Unity Catalog, crie um provisionamento da Taxa de transferência que atenda a endpoint com as seguintes etapas:

Navegue até a UI de serviço em seu site workspace.
Selecione Criar endpoint de serviço .
No campo Entity (Entidade ), selecione seu modelo no Unity Catalog. Para modelos elegíveis, a interface do usuário da entidade atendida mostra a tela de provisionamento Taxa de transferência .
Em Up to dropdown o senhor pode configurar o máximo de tokens por segundo Taxa de transferência para o seu endpoint.
1. provisionamento O ponto de extremidade da taxa de transferência escala automaticamente, de modo que o senhor pode selecionar Modify para view o mínimo de tokens por segundo que seu endpoint pode escalar.

Throughput provisionado

Crie seu provisionamento Taxa de transferência endpoint usando o site REST API

Para implantar seu modelo no modo de provisionamento Taxa de transferência usando o site REST API, o senhor deve especificar os campos min_provisioned_throughput e max_provisioned_throughput em sua solicitação. Se preferir o Python, o senhor também pode criar um endpoint usando o MLflow Deployment SDK.

Para identificar a faixa adequada de provisionamento da Taxa de transferência para seu modelo, consulte Obter provisionamento da Taxa de transferência em incrementos.

Python
import requests
import json

# Set the name of the MLflow endpoint
endpoint_name = "prov-throughput-endpoint"

# Name of the registered MLflow model
model_name = "ml.llm-catalog.foundation-model"

# Get the latest version of the MLflow model
model_version = 3

# Get the API endpoint and token for the current notebook context
API_ROOT = "<YOUR-API-URL>"
API_TOKEN = "<YOUR-API-TOKEN>"

headers = {"Context-Type": "text/json", "Authorization": f"Bearer {API_TOKEN}"}

optimizable_info = requests.get(
  url=f"{API_ROOT}/api/2.0/serving-endpoints/get-model-optimization-info/{model_name}/{model_version}",
  headers=headers)
  .json()

if 'optimizable' not in optimizable_info or not optimizable_info['optimizable']:
  raise ValueError("Model is not eligible for provisioned throughput")

chunk_size = optimizable_info['throughput_chunk_size']

# Minimum desired provisioned throughput
min_provisioned_throughput = 2 * chunk_size

# Maximum desired provisioned throughput
max_provisioned_throughput = 3 * chunk_size

# Send the POST request to create the serving endpoint
data = {
  "name": endpoint_name,
  "config": {
    "served_entities": [
      {
        "entity_name": model_name,
        "entity_version": model_version,
        "min_provisioned_throughput": min_provisioned_throughput,
        "max_provisioned_throughput": max_provisioned_throughput,
      }
    ]
  },
}

response = requests.post(
  url=f"{API_ROOT}/api/2.0/serving-endpoints", json=data, headers=headers
)

print(json.dumps(response.json(), indent=4))

probabilidade logarítmica de conclusão do chat tarefa

Para a tarefa de conclusão de bate-papo, o senhor pode usar o parâmetro logprobs para fornecer a log probabilidade de um token ser amostrado como parte do processo de geração do modelo de linguagem grande. O senhor pode usar logprobs em vários cenários, incluindo classificação, avaliação da incerteza do modelo e execução de métricas de avaliação. Consulte a tarefa Chat para obter detalhes sobre os parâmetros.

Obter provisionamento Taxa de transferência em incrementos

O provisionamento Taxa de transferência está disponível em incrementos de tokens por segundo, com incrementos específicos que variam de acordo com o modelo. Para identificar a faixa adequada às suas necessidades, o site Databricks recomenda o uso das informações de otimização do modelo API na plataforma.

Bash
GET api/2.0/serving-endpoints/get-model-optimization-info/{registered_model_name}/{version}

A seguir, um exemplo de resposta da API:

JSON
{
  "optimizable": true,
  "model_type": "llama",
  "throughput_chunk_size": 980
}

JSON
{
  "optimizable": true,
  "model_type": "gte",
  "throughput_chunk_size": 980
}

Notebook exemplos

O Notebook a seguir mostra exemplos de como criar um provisionamento Taxa de transferência Foundation Model API:

provisionamento Taxa de transferência servindo para o modelo GTE Notebook

Open notebook in new tab

provisionamento Taxa de transferência servindo para o modelo BGE Notebook

Open notebook in new tab

O Notebook a seguir mostra como o senhor pode download e registrar o modelo Llama destilado do DeepSeek R1 em Unity Catalog, para que possa implantá-lo usando um Foundation Model APIs provisionamento Taxa de transferência endpoint.

provisionamento Taxa de transferência serving for DeepSeek R1 distilled Llama model Notebook

Open notebook in new tab

Limitações

A implantação do modelo pode falhar devido a problemas de capacidade da GPU, o que resulta em um tempo limite durante a criação ou atualização do endpoint. Entre em contato com a equipe do Databricks account para ajudar a resolver o problema.
Auto-scaling for Foundation Models APIs é mais lento do que a CPU servindo modelo. A Databricks recomenda o provisionamento excessivo para evitar tempos limite de solicitação.
O GTE v1.5 (inglês) não gera incorporações normalizadas.

O que é provisionamento Taxa de transferência?​

Requisitos​

[Recomendado] implantado modelos de fundação de Unity Catalog​

modelos de fundação implantados a partir de Databricks Marketplace​

implantado modelos de fundação ajustados​

Requisitos​

Defina o nome do catálogo, do esquema e do modelo​

registrar seu modelo​

Crie seu provisionamento Taxa de transferência endpoint usando a UI.​

Crie seu provisionamento Taxa de transferência endpoint usando o site REST API​

probabilidade logarítmica de conclusão do chat tarefa​

Obter provisionamento Taxa de transferência em incrementos​

Notebook exemplos​

provisionamento Taxa de transferência servindo para o modelo GTE Notebook

provisionamento Taxa de transferência servindo para o modelo BGE Notebook

provisionamento Taxa de transferência serving for DeepSeek R1 distilled Llama model Notebook

Limitações​

O que é provisionamento Taxa de transferência?

Requisitos

[Recomendado] implantado modelos de fundação de Unity Catalog

modelos de fundação implantados a partir de Databricks Marketplace

implantado modelos de fundação ajustados

Requisitos

Defina o nome do catálogo, do esquema e do modelo

registrar seu modelo

Crie seu provisionamento Taxa de transferência endpoint usando a UI.

Crie seu provisionamento Taxa de transferência endpoint usando o site REST API

probabilidade logarítmica de conclusão do chat tarefa

Obter provisionamento Taxa de transferência em incrementos

Notebook exemplos

Limitações