modelos implantados usando modelo específico

Este artigo descreve o modelo de atividade, as soluções Databricks para modelos implantados AI e ML para atendimento em tempo real e inferência de lotes.

O que é servir modelo?

O modelo corporativo fornece uma interface unificada para implantar, governar e consultar modelos AI para inferência de tempo real e lotes. Cada modelo que você oferece está disponível como uma API REST que você pode integrar ao seu aplicativo web ou cliente.

O servindo modelo fornece um serviço altamente disponível e de baixa latência para modelos implantados. O serviço aumenta ou diminui automaticamente para atender às mudanças na demanda, economizando custos de infraestrutura e otimizando o desempenho da latência. Essa funcionalidade usa serverless compute. Consulte a página servindo modelo preços para obter mais detalhes.

O servindo modelo oferece um REST API e MLflow Deployment API unificados para CRUD e tarefa de consulta. Além disso, ele oferece uma única interface de usuário para gerenciar todos os seus modelos e seus respectivos endpoints de atendimento. O senhor também pode acessar modelos diretamente do site SQL usando o AI Functions para facilitar a integração com a analítica fluxo de trabalho.

AI Functions e servindo modelo estão fortemente integrados para vários cenários de inferência. O senhor pode usar qualquer um dos sites AI Functions ou ai-query específicos da tarefa em seu pipeline de inferência de lotes. Se o senhor optar por usar um modelo de pré-provisionamento que seja hospedado e gerenciado por Databricks, não precisará configurar um modelo de serviço endpoint por conta própria.

Veja o guia a seguir para começar:

Para realizar inferência de lotes, consulte enriquecer dados usando AI Functions.
Para obter uma introdução em tutorial sobre como servir modelos personalizados em Databricks para inferência de tempo real, consulte o tutorial: implantado e consultar um modelo personalizado.
Para começar tutorial sobre como consultar um modelo de fundação em Databricks para inferência de tempo real, consulte Começar a consultar LLMs em Databricks.

Modelos que o senhor pode implantar

O servindo modelo suporta inferência de tempo real e lotes para os seguintes tipos de modelos:

Modelos personalizados. Esses são os modelos Python pacote no formato MLflow. Eles devem ser registrados no Unity Catalog. Os exemplos incluem os modelos de transformadores scikit-learn, XGBoost, PyTorch e Hugging Face.
- O serviço de agentes é suportado como um modelo personalizado. Veja um agente implantado para aplicações generativas AI (servindo modelo)
Modelos de fundação.
- Modelos de base hospedados pelo Databricks , como o Meta Llama. Esses modelos estão disponíveis usando as APIs do Foundation Model. Esses modelos são arquiteturas de modelos básicos selecionadas que oferecem suporte à inferência otimizada. Modelos básicos, como Meta-Llama-3.3-70B-Instruct e GTE-Large estão disponíveis para uso imediato com preços pay-per-tokens , e as cargas de trabalho que exigem garantias de desempenho e variantes de modelos ajustados podem ser implantadas com o provisionamento Taxa de transferência .
- Modelos básicos hospedados fora do Databricks , como o GPT-4 da OpenAI. Esses modelos são acessíveis usando modelos externos. O endpoint que atende a esses modelos pode ser controlado de forma centralizada em Databricks, para que o senhor possa simplificar o uso e o gerenciamento de vários provedores de LLM, como OpenAI e Anthropic, em sua organização.

nota

O senhor pode interagir com grandes modelos de linguagem suportados usando o AI Playground. O AI Playground é um ambiente semelhante a um bate-papo em que o senhor pode testar, solicitar e comparar LLMs. Essa funcionalidade está disponível em seu site Databricks workspace.

Por que usar o servindo modelo?

Implante e consulte qualquer modelo : o servindo modelo oferece uma interface unificada para que o senhor possa gerenciar todos os modelos em um único local e consultá-los com um único API, independentemente de estarem hospedados em Databricks ou externamente. Essa abordagem simplifica o processo de experimentação, personalização e implantação de modelos em produção em várias nuvens e provedores.
Personalize modelos com segurança com seus dados privados: Desenvolvido em uma Plataforma de Inteligência de Dados, o Model Serving simplifica a integração de recursos e embeddings em modelos através da integração nativa com o Databricks Feature Store e AI Search. Para uma precisão e compreensão contextual ainda mais aprimoradas, os modelos podem ser ajustados com dados proprietários e implantados sem esforço no Model Serving.
Administre e monitore modelos : O Serving UI permite que o senhor gerencie centralmente todos os pontos de extremidade do modelo em um único local, inclusive aqueles que são hospedados externamente. O senhor pode gerenciar permissões, rastrear e definir limites de uso e monitorar a qualidade de todos os tipos de modelos usando o AI Gateway. Isso permite que o senhor democratize o acesso ao SaaS e aos LLMs abertos dentro da sua organização, ao mesmo tempo em que garante que as proteções adequadas estejam em vigor.
Reduza o custo com inferência otimizada e dimensionamento rápido : o site Databricks implementou uma série de otimizações para garantir que o senhor obtenha a melhor taxa de transferência e latência para modelos grandes. O endpoint aumenta ou diminui automaticamente para atender às mudanças na demanda, economizando custos de infraestrutura e otimizando o desempenho da latência. Monitorar os custos do modelo de serviço.
- Para cargas de trabalho sensíveis à latência ou que envolvam um grande número de consultas por segundo, consulte Otimizar o endpoint do modelo de serviço para produção para obter estratégias de otimização abrangentes. Entre em contato com a equipe da sua account Databricks para garantir que seu workspace esteja habilitado para alta escalabilidade.
Traga confiabilidade e segurança para a servindo modelo : a servindo modelo foi projetada para uso em produção com alta disponibilidade e baixa latência e pode suportar mais de 25 mil consultas por segundo com uma latência de sobrecarga inferior a 50 ms. As cargas de trabalho de serviço são protegidas por várias camadas de segurança, garantindo um ambiente seguro e confiável até mesmo para as tarefas mais confidenciais.

nota

A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.

Requisitos

Modelo registrado no Unity Catalog.
Permissões nos modelos registrados, conforme descrito em Serving endpoint ACLs.
MLflow 1.29 ou superior
direitos de espaço de trabalho configurados. Veja direitos de gerenciar.

Habilite o modelo servindo para o seu workspace

Nenhuma passo adicional é necessária para habilitar Model Serving em seu workspace.

Limitações e disponibilidade regional

O modelo privado impõe limites default para garantir um desempenho confiável. Consulte os limites e regiões do modelo disponível. Se você tiver comentários sobre esses limites ou sobre um endpoint em uma região não suportada, entre em contato com a equipe da sua account Databricks .

Proteção de dados no modelo servindo

A Databricks leva a segurança de dados a sério. Databricks entende a importância dos dados que você analisa usando o Servindo Modelo e implementa os seguintes controles de segurança para proteger seus dados.

Cada solicitação de cliente à Servindo Modelo é logicamente isolada, autenticada e autorizada.
Servindo modelo criptografa todos os dados em repouso (AES-256) e em trânsito (TLS 1.2+).

Para todas as contas pagas, o Servindo Modelo não utiliza as entradas do usuário enviadas ao serviço nem as saídas do serviço para ensinar quaisquer modelos ou aprimorar qualquer serviço Databricks .

O Foundation Model APIs é um serviço designado pela Databricks, o que significa que ele adere aos limites de residência de dados, conforme implementado pelo Databricks Geos.

Retenção de dados

Para todas as cargas de trabalho do modelo de serviço, Databricks retém logs de construção do contêiner por até trinta (30) dias e os dados de métricas por até quatorze (14) dias.

Para as APIs do Databricks Foundation Model, como parte do fornecimento do serviço, a Databricks pode processar e armazenar temporariamente entradas e saídas para fins de prevenção, detecção e mitigação de abuso ou usos prejudiciais. Suas entradas e saídas são isoladas das de outros clientes, armazenadas na mesma região que seu workspace por até 30 (trinta) dias e acessíveis apenas para detectar e responder a questões de segurança ou abuso.

Retenção de dados do provedor de modelo parceiro

Provedores de modelo parceiros podem reter dados para fins de segurança. Esta retenção depende de verificação automatizada antes de qualquer revisão humana limitada.

Retenção de dados OpenAI

De acordo com a política pública de retenção de segurança da OpenAI, para gpt-5.5, gpt-5.5-proe modelos futuros, a OpenAI pode reter determinado conteúdo de cliente de codificação e roteamento de clientes que os classificadores da OpenAI detectam como potencialmente violador das políticas de uso da OpenAI ao usar esses modelos. Caso contrário, a retenção não será afetada.

Clientes de codificação e roteamento são clientes que:

Forneça trabalhos de engenharia de software ou implantação para terceiros, por exemplo, geração de código, conclusão de código e fluxos de trabalho de desenvolvimento/implantação com agentes
Atuar como plataformas ou serviços intermediários de acesso a modelos que permitem a terceiros utilizar modelos da OpenAI para desenvolvimento de software relevante para o risco cibernético, juntamente com o acesso a modelos de outros provedores

Para todos os outros clientes, poderá haver retenção adicional mediante aviso prévio.

Retenção de dados da Anthropic

Para o Fable 5 da Anthropic e futuros modelos da classe Mythos, todos os clientes estão sujeitos à retenção de dados para fins de segurança, conforme descrito nas práticas de retenção de dados da Anthropic.

O que é servir modelo?​

Modelos que o senhor pode implantar​

Por que usar o servindo modelo?​

Requisitos​

Habilite o modelo servindo para o seu workspace​

Limitações e disponibilidade regional​

Proteção de dados no modelo servindo​

Retenção de dados​

Retenção de dados do provedor de modelo parceiro​

Retenção de dados OpenAI​

Retenção de dados da Anthropic​

Recurso adicional​