Modelos de linguagem grande (LLMs) em Databricks
O Databricks simplifica o acesso e a construção de grandes modelos de linguagem disponíveis publicamente.
Databricks Runtime for Machine Learning inclui bibliotecas como Hugging Face Transformers e LangChain que permitem integrar modelos pré-treinados existentes ou outra biblioteca de código aberto em seu fluxo de trabalho. A partir daqui, você pode aproveitar os recursos da plataforma Databricks para ajustar LLMs usando seus próprios dados para melhorar o desempenho do domínio.
Além disso, o Databricks oferece funcionalidade integrada para usuários SQL acessarem e experimentarem LLMs como Azure OpenAI e OpenAI usando funções de IA.
Ajuste fino do modelo básico
Importante
Esse recurso está em Public Preview. Entre em contato com a equipe do Databricks account para se inscrever no Public Preview.
O Foundation Model Fine-tuning (agora parte do Mosaic AI Model treinamento) é uma interface simples para a pilha de treinamento Databricks para realizar o ajuste fino completo do modelo.
Você pode fazer o seguinte usando o Foundation Model Fine-tuning:
Faça o ajuste fino de um modelo com seus dados personalizados, com os pontos de verificação salvos no MLflow. O senhor mantém controle total sobre o modelo ajustado.
Registre automaticamente o modelo em Unity Catalog, permitindo fácil implementação com o servindo modelo.
Faça o ajuste fino de um modelo proprietário completo carregando os pesos de um modelo previamente ajustado.
Consulte Ajuste fino do modelo básico.
Hugging Face
Com o Hugging Face Transformers no Databricks, você pode escalar seus lotes de aplicativos de processamento de linguagem natural (PNL) e ajustar modelos para aplicativos de modelo de linguagem grande.
A biblioteca Hugging Face transformers
vem pré-instalada no Databricks Runtime 10.4 LTS ML e acima. Muitos dos modelos populares de PNL funcionam melhor em hardware de GPU, portanto, você pode obter o melhor desempenho usando hardware de GPU recente, a menos que use um modelo especificamente otimizado para uso em CPUs.
Espião
O DSpy automatiza o ajuste imediato ao traduzir assinaturas de linguagem natural definidas pelo usuário em instruções completas e alguns exemplos.
Consulte Criar aplicativos genAI usando DSPy na Databricks para obter exemplos de como usar o DSPy.
LangChain
LangChain está disponível como um tipo experimental de MLflow que permite aos clientes LangChain aproveitar as ferramentas robustas e experimentar os recursos de acompanhamento do MLflow diretamente do ambiente Databricks.
LangChain é uma estrutura de software projetada para ajudar a criar aplicativos que utilizam grandes modelos de linguagem (LLMs) e combiná-los com dados externos para trazer mais contexto de treinamento para seus LLMs.
O Databricks Runtime ML inclui langchain
no Databricks Runtime 13.1 ML e acima.
Saiba mais sobre integrações LangChain específicas do Databricks.
Funções de IA
Visualização
Esse recurso está na Visualização pública.
As funções AI são funções SQL integradas que permitem aos usuários SQL:
Use as APIs do Databricks Foundation Model para realizar várias tarefas nos dados de sua empresa.
Acesse modelos externos como o GPT-4 da OpenAI e faça experiências com eles.
Modelos de consulta hospedados pelo ponto de extremidade Mosaic AI Model Serving a partir de consultas SQL.