Começar a consultar LLMs no Databricks
Este artigo descreve como começar a usar as APIs do Foundation Model para servir e consultar LLMs no Databricks.
A maneira mais fácil de começar a servir e consultar modelos LLM na Databricks é usar as APIs do Foundation Model com base no pagamento por tokens. As APIs fornecem acesso a modelos de base populares a partir de endpoints pay-per-tokens que estão automaticamente disponíveis na UI de serviço do seu Databricks workspace. Consulte Modelos suportados para pay-per-tokens.
O senhor também pode testar e conversar com modelos pay-per-tokens usando o site AI Playground. Consulte Bate-papo com LLMs compatíveis usando o AI Playground.
Para cargas de trabalho de produção, especialmente se o senhor tiver um modelo ajustado ou uma carga de trabalho que exija garantias de desempenho, o site Databricks recomenda que o senhor faça o upgrade para o Foundation Model APIs em um provisionamento Taxa de transferência endpoint.
Requisitos
Espaço de trabalho do Databricks em uma região compatível com o pagamento por tokens das APIs do Foundation Model.
Databricks access token pessoal para consultar e acessar o endpoint Databricks servindo modelo usando o cliente OpenAI.
Importante
Como prática recomendada de segurança para cenários de produção, a Databricks recomenda que o senhor use tokens OAuth máquina a máquina para autenticação durante a produção.
Para testes e desenvolvimento, o Databricks recomenda o uso de um access token pessoal pertencente à entidade de serviço em vez de usuários do workspace. Para criar o site tokens para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.
Obter começar usando as APIs do Foundation Model
O exemplo a seguir consulta o modelo databricks-dbrx-instruct
que é servido no pay-per-tokens endpoint,databricks-dbrx-instruct
. Saiba mais sobre o modelo DBRX Instruct.
Neste exemplo, o senhor usa o cliente OpenAI para consultar o modelo, preenchendo o campo model
com o nome do endpoint servindo modelo que hospeda o modelo que deseja consultar. Use seu access token pessoal para preencher o DATABRICKS_TOKEN
e sua instância de espaço de trabalho do Databricks para conectar o cliente OpenAI ao Databricks.
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")
client = OpenAI(
api_key=DATABRICKS_TOKEN, # your personal access token
base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)
chat_completion = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are an AI assistant",
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
model="databricks-dbrx-instruct",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
Resultado esperado:
{
"id": "xxxxxxxxxxxxx",
"object": "chat.completion",
"created": "xxxxxxxxx",
"model": "databricks-dbrx-instruct",
"choices": [
{
"index": 0,
"message":
{
"role": "assistant",
"content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
},
"finish_reason": "stop"
}
],
"usage":
{
"prompt_tokens": 123,
"completion_tokens": 23,
"total_tokens": 146
}
}
Próximos passos
Use o playground de IA para experimentar diferentes modelos em uma interface de bate-papo familiar.
Acessar modelos hospedados fora da Databricks usando modelos externos.
Saiba como implantar modelos ajustados usando o provisionamento do endpoint da Taxa de transferência.
Explore métodos para monitorar a qualidade do modelo e a saúde do site endpoint .