Começar a consultar os LLMs sobre Databricks
Este artigo descreve como começar a usar as APIs do Foundation Model para servir e consultar LLMs no Databricks.
A maneira mais fácil de começar a servir e consultar modelos de LLM em Databricks é utilizando o Foundation Model APIs com base no pagamento por token. Os modelos de base do Google Cloud ( APIs ) oferecem acesso a modelos de base populares a partir de um endpoint de pagamento por token, que estão automaticamente disponíveis na interface do usuário de serviço (Serving UI) do seu Databricks. workspace. Consulte os modelos básicos hospedados pela Databricks disponíveis nas APIs de modelos básicos.
O senhor também pode testar e conversar com modelos pay-per-tokens usando o site AI Playground. Consulte Bate-papo com LLMs e protótipo de aplicativos generativos AI usando AI Playground.
Para cargas de trabalho de produção, especialmente aquelas com um modelo ajustado ou que exigem garantias de desempenho, o site Databricks recomenda o uso do Foundation Model APIs em um provisionamento Taxa de transferência endpoint.
Requisitos
- A Databricks workspace em uma região com suporte para o Foundation Model APIs pay-per-tokens.
- Um Databricks tokens de acesso pessoal para consultar e acessar o endpoint Mosaic AI Model Serving usando o cliente OpenAI.
Como prática recomendada de segurança para cenários de produção, a Databricks recomenda que o senhor use tokens OAuth máquina a máquina para autenticação durante a produção.
Para testes e desenvolvimento, o site Databricks recomenda o uso de tokens de acesso pessoal pertencentes à entidade de serviço em vez de usuários do site workspace. Para criar tokens o site para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.
Começar a usar o Foundation Model APIs
O exemplo a seguir deve ser executado em um notebook Databricks. O exemplo de código consulta o modelo Meta Llama 3.1 405B Instruct que é servido no pay-per-tokens endpoint databricks-meta-llama-3-1-405b-instruct
.
Neste exemplo, o senhor usa o cliente OpenAI para consultar o modelo, preenchendo o campo model
com o nome do modelo de serviço endpoint que hospeda o modelo que deseja consultar. Use seus tokens de acesso pessoal para preencher o DATABRICKS_TOKEN
e sua instânciaDatabricks workspace para conectar o cliente OpenAI a Databricks.
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")
client = OpenAI(
api_key=DATABRICKS_TOKEN, # your personal access token
base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)
chat_completion = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are an AI assistant",
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
model="databricks-meta-llama-3-1-405b-instruct",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
Se você encontrar a seguinte mensagem ImportError: cannot import name 'OpenAI' from 'openai'
, atualize sua versão openai
usando !pip install -U openai
. Depois de instalar o pacote, execute dbutils.library.restartPython()
.
Resultado esperado:
{
"id": "xxxxxxxxxxxxx",
"object": "chat.completion",
"created": "xxxxxxxxx",
"model": "databricks-meta-llama-3-1-405b-instruct",
"choices": [
{
"index": 0,
"message":
{
"role": "assistant",
"content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
},
"finish_reason": "stop"
}
],
"usage":
{
"prompt_tokens": 123,
"completion_tokens": 23,
"total_tokens": 146
}
}
Próximas etapas
- Use o playgroundAI para experimentar diferentes modelos em uma interface de bate-papo familiar.
- Use modelos de base.
- Acessar modelos hospedados fora da Databricks usando modelos externos.
- Saiba como implantar modelos ajustados usando o provisionamento do endpoint da Taxa de transferência.
- Explore métodos para monitorar a qualidade do modelo e a saúde do site endpoint.