Comece a consultar LLMs no Databricks

Este artigo descreve como começar a usar as APIs do Foundation Model para servir e consultar LLMs no Databricks.

A maneira mais fácil de começar a servir e consultar modelos LLM no Databricks é usar as APIs do Foundation Model com base no pagamento por token. As APIs oferecem o acesso a modelos básicos populares a partir de pontos finais de pagamento por token automaticamente disponíveis na IU de serviço do seu espaço de trabalho Databricks. Consulte Modelos compatíveis com pagamento por token.

Você pode também testar e conversar com modelos pay-per-token com o AI Playground. Veja Converse com LLMs compatíveis utilizando o AI Playground.

Para cargas de trabalho de produção, especialmente se você tiver um modelo ajustado ou uma carga de trabalho que exija garantias de desempenho, a Databricks recomenda que você atualize para usar as APIs do Foundation Model em um endpoint de taxa de transferência provisionada.

Requisitos

  • Workspace do Databricks em uma região com suporte para o pagamento por token das APIs do Foundation Model.

  • Token de acesso pessoal da Databricks para consultar e acessar os pontos de extremidade do Mosaic AI Model Serving usando o cliente OpenAI.

Importante

Como prática recomendada de segurança para cenários de produção, o Databricks recomenda que você use tokens OAuth máquina a máquina para autenticação durante a produção.

Para teste e desenvolvimento, o Databricks recomenda usar um token de acesso pessoal pertencente a entidades de serviço em vez de usuários do workspace. Para criar tokens para entidades de serviço, consulte Gerenciar tokens para uma entidade de serviço.

Comece a usar as APIs do modelo de fundação

O exemplo a seguir consulta o modelo databricks-dbrx-instruct que é atendido no ponto de extremidade de pagamento por token,databricks-dbrx-instruct. Saiba mais sobre o modelo DBRX Instruct.

Neste exemplo, você usa o cliente OpenAI para consultar o modelo preenchendo o campo model com o nome do ponto de extremidade de serviço do modelo que hospeda o modelo que você deseja consultar. Use seu token de acesso pessoal para preencher o DATABRICKS_TOKEN e sua instância de espaço de trabalho do Databricks para conectar o cliente OpenAI ao Databricks.

Observação

Se você encontrar a seguinte mensagem ImportError: cannot import name 'OpenAI' from 'openai', atualize sua versão openai com !pip install -U openai.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3.1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Resultado esperado:

{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3.1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Próximos passos