modelos implantados usando modelo específico
Este artigo descreve o modelo de atividade, as soluções Databricks para modelos implantados AI e ML para atendimento em tempo real e inferência de lotes.
O que é servir modelo?
O modelo corporativo fornece uma interface unificada para implantar, governar e consultar modelos AI para inferência de tempo real e lotes. Cada modelo que você oferece está disponível como uma API REST que você pode integrar ao seu aplicativo web ou cliente.
O servindo modelo fornece um serviço altamente disponível e de baixa latência para modelos implantados. O serviço aumenta ou diminui automaticamente para atender às mudanças na demanda, economizando custos de infraestrutura e otimizando o desempenho da latência. Essa funcionalidade usa serverless compute. Consulte a página servindo modelo preços para obter mais detalhes.
O servindo modelo oferece um REST API e MLflow Deployment API unificados para CRUD e tarefa de consulta. Além disso, ele oferece uma única interface de usuário para gerenciar todos os seus modelos e seus respectivos endpoints de atendimento. O senhor também pode acessar modelos diretamente do site SQL usando o AI Functions para facilitar a integração com a analítica fluxo de trabalho.
AI Functions e servindo modelo estão fortemente integrados para vários cenários de inferência. O senhor pode usar qualquer um dos sites AI Functions ou ai-query específicos da tarefa em seu pipeline de inferência de lotes. Se o senhor optar por usar um modelo de pré-provisionamento que seja hospedado e gerenciado por Databricks, não precisará configurar um modelo de serviço endpoint por conta própria.
Veja o guia a seguir para começar:
- Para realizar inferência de lotes, consulte enriquecer dados usando AI Functions.
- Para obter uma introdução em tutorial sobre como servir modelos personalizados em Databricks para inferência de tempo real, consulte o tutorial: implantado e consultar um modelo personalizado.
- Para começar tutorial sobre como consultar um modelo de fundação em Databricks para inferência de tempo real, consulte Começar a consultar LLMs em Databricks.
Modelos que o senhor pode implantar
O servindo modelo suporta inferência de tempo real e lotes para os seguintes tipos de modelos:
-
Modelos personalizados. Esses são os modelos Python pacote no formato MLflow. Eles devem ser registrados no Unity Catalog. Os exemplos incluem os modelos de transformadores scikit-learn, XGBoost, PyTorch e Hugging Face.
- O serviço de agentes é suportado como um modelo personalizado. Veja um agente implantado para aplicações generativas AI (servindo modelo)
-
- Modelos de base hospedados pelo Databricks , como o Meta Llama. Esses modelos estão disponíveis usando as APIs do Foundation Model. Esses modelos são arquiteturas de modelos básicos selecionadas que oferecem suporte à inferência otimizada. Modelos básicos, como Meta-Llama-3.3-70B-Instruct e GTE-Large estão disponíveis para uso imediato com preços pay-per-tokens , e as cargas de trabalho que exigem garantias de desempenho e variantes de modelos ajustados podem ser implantadas com o provisionamento Taxa de transferência .
- Modelos básicos hospedados fora do Databricks , como o GPT-4 da OpenAI. Esses modelos são acessíveis usando modelos externos. O endpoint que atende a esses modelos pode ser controlado de forma centralizada em Databricks, para que o senhor possa simplificar o uso e o gerenciamento de vários provedores de LLM, como OpenAI e Anthropic, em sua organização.
O senhor pode interagir com grandes modelos de linguagem suportados usando o AI Playground. O AI Playground é um ambiente semelhante a um bate-papo em que o senhor pode testar, solicitar e comparar LLMs. Essa funcionalidade está disponível em seu site Databricks workspace.
Por que usar o servindo modelo?
-
Implante e consulte qualquer modelo : o servindo modelo oferece uma interface unificada para que o senhor possa gerenciar todos os modelos em um único local e consultá-los com um único API, independentemente de estarem hospedados em Databricks ou externamente. Essa abordagem simplifica o processo de experimentação, personalização e implantação de modelos em produção em várias nuvens e provedores.
-
Personalize modelos com segurança usando seus dados privados : Construído sobre uma Plataforma de Inteligência de Dados, o Servindo Modelo simplifica a integração de recursos e embeddings em modelos por meio da integração nativa com o Databricks Feature Store e a Busca Vetorial. Para uma precisão ainda maior e uma melhor compreensão contextual, os modelos podem ser ajustados com dados proprietários e implantados sem esforço no modelo de serviço.
-
Administre e monitore modelos : O Serving UI permite que o senhor gerencie centralmente todos os pontos de extremidade do modelo em um único local, inclusive aqueles que são hospedados externamente. O senhor pode gerenciar permissões, rastrear e definir limites de uso e monitorar a qualidade de todos os tipos de modelos usando o AI Gateway. Isso permite que o senhor democratize o acesso ao SaaS e aos LLMs abertos dentro da sua organização, ao mesmo tempo em que garante que as proteções adequadas estejam em vigor.
-
Reduza o custo com inferência otimizada e dimensionamento rápido : o site Databricks implementou uma série de otimizações para garantir que o senhor obtenha a melhor taxa de transferência e latência para modelos grandes. O endpoint aumenta ou diminui automaticamente para atender às mudanças na demanda, economizando custos de infraestrutura e otimizando o desempenho da latência. Monitorar os custos do modelo de serviço.
- Para cargas de trabalho sensíveis à latência ou que envolvam um grande número de consultas por segundo, consulte Otimizar o endpoint do modelo de serviço para produção para obter estratégias de otimização abrangentes. Entre em contato com a equipe da sua account Databricks para garantir que seu workspace esteja habilitado para alta escalabilidade.
-
Traga confiabilidade e segurança para a servindo modelo : a servindo modelo foi projetada para uso em produção com alta disponibilidade e baixa latência e pode suportar mais de 25 mil consultas por segundo com uma latência de sobrecarga inferior a 50 ms. As cargas de trabalho de serviço são protegidas por várias camadas de segurança, garantindo um ambiente seguro e confiável até mesmo para as tarefas mais confidenciais.
A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.
Requisitos
- Modelo registrado no Unity Catalog.
- Permissões nos modelos registrados, conforme descrito em Serving endpoint ACLs.
- MLflow 1.29 ou superior
- direitos de espaço de trabalho configurados. Veja direitos de gerenciar.
Habilite o modelo servindo para o seu workspace
Nenhuma passo adicional é necessária para habilitar Model Serving em seu workspace.
Limitações e disponibilidade regional
O modelo privado impõe limites default para garantir um desempenho confiável. Consulte os limites e regiões do modelo disponível. Se você tiver comentários sobre esses limites ou sobre um endpoint em uma região não suportada, entre em contato com a equipe da sua account Databricks .
Proteção de dados no modelo servindo
A Databricks leva a segurança de dados a sério. Databricks entende a importância dos dados que você analisa usando o Servindo Modelo e implementa os seguintes controles de segurança para proteger seus dados.
- Cada solicitação de cliente à Servindo Modelo é logicamente isolada, autenticada e autorizada.
- Servindo modelo criptografa todos os dados em repouso (AES-256) e em trânsito (TLS 1.2+).
Para todas as contas pagas, o Servindo Modelo não utiliza as entradas do usuário enviadas ao serviço nem as saídas do serviço para ensinar quaisquer modelos ou aprimorar qualquer serviço Databricks .
Para todas as cargas de trabalho do modelo de serviço, Databricks retém logs de construção do contêiner por até trinta (30) dias e os dados de métricas por até quatorze (14) dias.
Para as APIs do Databricks Foundation Model, como parte do fornecimento do serviço, a Databricks pode processar e armazenar temporariamente entradas e saídas para fins de prevenção, detecção e mitigação de abuso ou usos prejudiciais. Suas entradas e saídas são isoladas das de outros clientes, armazenadas na mesma região que seu workspace por até 30 (trinta) dias e acessíveis apenas para detectar e responder a questões de segurança ou abuso.
O Foundation Model APIs é um serviço designado pela Databricks, o que significa que ele adere aos limites de residência de dados, conforme implementado pelo Databricks Geos.