Comece a consultar LLMs no Databricks
Este artigo descreve como começar a usar as APIs do Foundation Model para servir e consultar LLMs no Databricks.
A maneira mais fácil de começar a servir e consultar modelos LLM no Databricks é usar as APIs do Foundation Model com base no pagamento por token. As APIs oferecem o acesso a modelos básicos populares a partir de pontos finais de pagamento por token automaticamente disponíveis na IU de serviço do seu espaço de trabalho Databricks. Consulte Modelos compatíveis com pagamento por token.
O senhor também pode testar e conversar com modelos pay-per-tokens usando o site AI Playground. Veja Chat com LLMs e protótipos de aplicativos GenAI usando o AI Playground.
Para cargas de trabalho de produção, especialmente aquelas com um modelo ajustado ou que exigem garantias de desempenho, o site Databricks recomenda o uso do Foundation Model APIs em um provisionamento Taxa de transferência endpoint.
Requisitos
A Databricks workspace em uma região com suporte para o Foundation Model APIs pay-per-tokens.
Um Databricks pessoal access token para consultar e acessar o endpoint Mosaic AI Model Serving usando o cliente OpenAI.
Importante
Como prática recomendada de segurança para cenários de produção, o Databricks recomenda que você use tokens OAuth máquina a máquina para autenticação durante a produção.
Para teste e desenvolvimento, o Databricks recomenda usar um token de acesso pessoal pertencente a entidades de serviço em vez de usuários do workspace. Para criar tokens para entidades de serviço, consulte Gerenciar tokens para uma entidade de serviço.
Comece a usar as APIs do modelo de fundação
O exemplo a seguir deve ser executado em um notebook Databricks. O exemplo de código consulta o modelo Meta Llama 3.1 405B Instruct que é servido no pay-per-tokens endpoint databricks-meta-llama-3-1-405b-instruct
.
Neste exemplo, você usa o cliente OpenAI para consultar o modelo preenchendo o campo model
com o nome do ponto de extremidade de serviço do modelo que hospeda o modelo que você deseja consultar. Use seu token de acesso pessoal para preencher o DATABRICKS_TOKEN
e sua instância de espaço de trabalho do Databricks para conectar o cliente OpenAI ao Databricks.
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")
client = OpenAI(
api_key=DATABRICKS_TOKEN, # your personal access token
base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)
chat_completion = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are an AI assistant",
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
model="databricks-meta-llama-3-1-405b-instruct",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
Observação
Se o senhor encontrar a seguinte mensagem ImportError: cannot import name 'OpenAI' from 'openai'
, atualize sua versão openai
usando !pip install -U openai
. Depois de instalar o pacote, execute dbutils.library.restartPython()
.
Resultado esperado:
{
"id": "xxxxxxxxxxxxx",
"object": "chat.completion",
"created": "xxxxxxxxx",
"model": "databricks-meta-llama-3-1-405b-instruct",
"choices": [
{
"index": 0,
"message":
{
"role": "assistant",
"content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
},
"finish_reason": "stop"
}
],
"usage":
{
"prompt_tokens": 123,
"completion_tokens": 23,
"total_tokens": 146
}
}
Próximos passos
Use o playground de IA para experimentar diversos modelos em uma interface de bate-papo familiar.
Acesse modelos hospedados fora do Databricks com modelos externos.
Saiba como implantar modelos ajustados usando endpoints de taxa de transferência provisionada.
Explore métodos para monitorar a qualidade do modelo e a integridade do terminal.