Modelos suportados para pay-per-tokens
Importante
Somente os modelos GTE Large (En) e Meta Llama 3.3 70B Instruct estão disponíveis nas regiões com suporte para pay-per-tokens da UE e dos EUA.
Consulte Foundation Model APIs limites para os modelos pay-per-tokens compatíveis apenas com as regiões dos EUA.
Este artigo descreve os modelos abertos de última geração que são compatíveis com o modelo da FundaçãoDatabricks APIsno modo pay-per-tokens.
O senhor pode enviar solicitações de consulta a esses modelos usando o endpoint pay-per-tokens disponível em seu site Databricks workspace. Consulte a tabela Modelos de fundação de consultas e modelos suportados por pay-per-tokens para obter os nomes do ponto de extremidade do modelo a ser usado.
Além de oferecer suporte a modelos no modo pay-per-tokens, o Foundation Model APIs também oferece o modo de provisionamento Taxa de transferência. Databricks recomenda o provisionamento Taxa de transferência para cargas de trabalho de produção. Esse modo é compatível com todos os modelos de uma família de arquitetura de modelos (por exemplo, modelos DBRX), inclusive os modelos pré-treinados ajustados e personalizados compatíveis com o modo pay-per-tokens. Consulte o provisionamento Taxa de transferência Foundation Model APIs para obter a lista de arquiteturas compatíveis.
O senhor pode interagir com esses modelos compatíveis usando o AI Playground.
Meta Llama 3.3 70B Instruct
Importante
A partir de 11 de dezembro de 2024, Meta-Llama-3.3-70B-Instruct Substitui o suporte para Meta-Llama-3.1-70B-Instruct no modelo Foundation APIs pay-per-tokens endpoint.
Importante
O Meta Llama 3.3 está licenciado sob a Licença da comunidade LLAMA 3.3, Copyright © Meta Platforms, Inc. Todos os direitos reservados. compliance Os clientes são responsáveis por garantir o cumprimento dos termos desta licença e da Política de Uso Aceitável doLlama 3.3.
O Meta-Llama-3.3-70B-Instruct é um modelo de linguagem grande de última geração com um contexto de 128.000 tokens que foi criado e treinado pelo Meta. O modelo oferece suporte a vários idiomas e é otimizado para casos de uso de diálogo. Saiba mais sobre o Meta Llama 3.3.
Semelhante a outros modelos de linguagem de grande porte, o resultado do Llama-3 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários em que a precisão é especialmente importante.
Meta Llama 3.1 405B Instruct
Prévia
O uso desse modelo com as APIs do Foundation Model está em Public Preview. Entre em contato com a equipe do Databricks account se o senhor encontrar falhas no endpoint ou erros de estabilização ao usar esse modelo.
Importante
O Meta Llama 3.1 está licenciado sob a Licença da comunidade LLAMA 3.1, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.
O Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande de última geração disponível abertamente, construído e treinado pela Meta. O uso desse modelo permite que os clientes desbloqueiem novos recursos, como raciocínio avançado em várias etapas e geração de dados sintéticos de alta qualidade. Este modelo é competitivo com o GPT-4-Turbo em termos de qualidade.
Como Meta-Llama-3.1-70B-Instruct, Esse modelo tem um contexto de 128.000 tokens e suporte em dez idiomas. Ele se alinha às preferências humanas de utilidade e segurança e é otimizado para casos de uso de diálogo. Saiba mais sobre os modelos Meta Llama 3.1.
Semelhante a outros modelos de linguagem grande, o Llama-3.1's O resultado pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários em que a precisão é especialmente importante.
Instrução DBRX
Importante
O DBRX é conforme e sujeito à Licença de Modelo Aberto do Databricks, Copyright © Databricks, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis, incluindo a política de uso aceitável do Databricks.
O DBRX Instruct é um modelo de linguagem de mistura de especialistas (MoE) de última geração treinado pela Databricks.
O modelo supera os modelos de código aberto estabelecidos em benchmarks padrão e se destaca em um amplo conjunto de tarefas de linguagem natural, como: resumo de texto, resposta a perguntas, extração e codificação.
O DBRX Instruct pode lidar com até 32 mil tokens de comprimento de entrada e gera saídas de até 4 mil tokens. Graças à sua arquitetura MoE, o DBRX Instruct é altamente eficiente para inferência, ativando apenas 36B de parâmetros de um total de 132B de parâmetros treinados. O pay-per-tokens endpoint que atende a esse modelo tem um limite de taxa de uma consulta por segundo. Veja servindo modelo limites e regiões.
Semelhante a outros modelos de linguagem de grande porte, a saída do DBRX Instruct pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários em que a precisão é especialmente importante.
Os modelos DBRX usam o seguinte prompt do sistema default para garantir a relevância e a precisão das respostas do modelo:
You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.
Instrução Mixtral-8x7B
O Mixtral-8x7B Instruct é uma mistura esparsa de alta qualidade do modelo de especialistas (SMoE) treinado pela Mistral AI. Mixtral-8x7B O Instruct pode ser usado para uma variedade de tarefas, como resposta a perguntas, resumo e extração.
O Mixtral pode lidar com comprimentos de contexto de até 32k tokens. O Mixtral pode processar inglês, francês, italiano, alemão e espanhol. O Mixtral iguala ou supera o Llama 2 70B e o GPT3.5 na maioria dos benchmarks(desempenho do Mixtral), sendo quatro vezes mais rápido que o Llama 70B durante a inferência.
Assim como outros modelos de linguagem de grande porte, o modelo Mixtral-8x7B Instruct não deve ser usado para produzir informações factualmente precisas. Embora grandes esforços tenham sido feitos para limpar os dados de pré-treinamento, é possível que esse modelo possa gerar resultados obscenos, tendenciosos ou ofensivos. Para reduzir o risco, oDatabricks usa por padrão uma variante do Mistral prompt do sistema do modo de segurança do.
GTE Large (En)
Importante
O GTE Large (En) é fornecido sob e sujeito à Licença Apache 2.0, Copyright © The Apache Software Foundation, Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.
O General Text Embedding (GTE) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma janela de incorporação de 8192 tokens. Esses vetores podem ser usados em bancos de dados de vetores para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, clustering ou pesquisa semântica. Esse endpoint serve a versão em inglês do modelo e não gera embeddings normalizados.
Os modelos de incorporação são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). O GTE pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados no contexto de um LLM.
BGE Grande (En)
O BAAI General Embedding (BGE) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma janela de incorporação de 512 tokens. Esses vetores podem ser usados em bancos de dados de vetores para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, clustering ou pesquisa semântica. Esse endpoint serve a versão em inglês do modelo e gera embeddings normalizados.
Os modelos de incorporação são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). O BGE pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados no contexto de um LLM.
Nos aplicativos RAG, o senhor pode melhorar o desempenho do seu sistema de recuperação incluindo um parâmetro de instrução. Os autores do BGE recomendam experimentar a instrução "Represent this sentence for searching relevant passages:"
para incorporação de consultas, embora seu impacto no desempenho dependa do domínio.