Começar a consultar os LLMs sobre Databricks

Este artigo descreve como começar a usar as APIs do Foundation Model para servir e consultar LLMs no Databricks.

A maneira mais fácil de começar a servir e consultar os modelos LLM em Databricks é usar o Foundation Model APIs com base no pagamento por tokens. O site APIs fornece acesso a modelos de fundação populares a partir do endpoint pay-per-tokens que estão automaticamente disponíveis na UI de serviço de seu site Databricks workspace. Consulte Modelos suportados para APIs de modelos do Databricks Foundation.

O senhor também pode testar e conversar com modelos pay-per-tokens usando o site AI Playground. Consulte Bate-papo com LLMs e protótipo de aplicativos generativos AI usando AI Playground.

Para cargas de trabalho de produção, especialmente aquelas com um modelo ajustado ou que exigem garantias de desempenho, o site Databricks recomenda o uso do Foundation Model APIs em um provisionamento Taxa de transferência endpoint.

Requisitos

A Databricks workspace em uma região com suporte para o Foundation Model APIs pay-per-tokens.
Um Databricks tokens de acesso pessoal para consultar e acessar o endpoint Mosaic AI Model Serving usando o cliente OpenAI.

important

Como prática recomendada de segurança para cenários de produção, a Databricks recomenda que o senhor use tokens OAuth máquina a máquina para autenticação durante a produção.

Para testes e desenvolvimento, o site Databricks recomenda o uso de tokens de acesso pessoal pertencentes à entidade de serviço em vez de usuários do site workspace. Para criar tokens o site para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.

Começar a usar o Foundation Model APIs

O exemplo a seguir deve ser executado em um notebook Databricks. O exemplo de código consulta o modelo Meta Llama 3.1 405B Instruct que é servido no pay-per-tokens endpoint databricks-meta-llama-3-1-405b-instruct.

Neste exemplo, o senhor usa o cliente OpenAI para consultar o modelo, preenchendo o campo model com o nome do modelo de serviço endpoint que hospeda o modelo que deseja consultar. Use seus tokens de acesso pessoal para preencher o DATABRICKS_TOKEN e sua instânciaDatabricks workspace para conectar o cliente OpenAI a Databricks.

Python
from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

nota

Se você encontrar a seguinte mensagem ImportError: cannot import name 'OpenAI' from 'openai', atualize sua versão openai usando !pip install -U openai. Depois de instalar o pacote, execute dbutils.library.restartPython().

Resultado esperado:

Bash

{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Requisitos​

Começar a usar o Foundation Model APIs​

Requisitos

Começar a usar o Foundation Model APIs