Modelos de linguagem grande (LLMs) em Databricks

O Databricks simplifica o acesso e a construção de grandes modelos de linguagem disponíveis publicamente.

Databricks Runtime for Machine Learning inclui bibliotecas como Hugging Face Transformers e LangChain que permitem integrar modelos pré-treinados existentes ou outra biblioteca de código aberto em seu fluxo de trabalho. A partir daqui, você pode aproveitar os recursos da plataforma Databricks para ajustar LLMs usando seus próprios dados para melhorar o desempenho do domínio.

Além disso, o Databricks oferece funcionalidade integrada para usuários SQL acessarem e experimentarem LLMs como Azure OpenAI e OpenAI usando funções de IA.

Ajuste fino do modelo básico

Importante

Esse recurso está em Public Preview. Entre em contato com a equipe do Databricks account para se inscrever no Public Preview.

O Foundation Model Fine-tuning (agora parte do Mosaic AI Model treinamento) é uma interface simples para a pilha de treinamento Databricks para realizar o ajuste fino completo do modelo.

Você pode fazer o seguinte usando o Foundation Model Fine-tuning:

  • Faça o ajuste fino de um modelo com seus dados personalizados, com os pontos de verificação salvos no MLflow. O senhor mantém controle total sobre o modelo ajustado.

  • Registre automaticamente o modelo em Unity Catalog, permitindo fácil implementação com o servindo modelo.

  • Faça o ajuste fino de um modelo proprietário completo carregando os pesos de um modelo previamente ajustado.

Consulte Ajuste fino do modelo básico.

Hugging Face

Com o Hugging Face Transformers no Databricks, você pode escalar seus lotes de aplicativos de processamento de linguagem natural (PNL) e ajustar modelos para aplicativos de modelo de linguagem grande.

A biblioteca Hugging Face transformers vem pré-instalada no Databricks Runtime 10.4 LTS ML e acima. Muitos dos modelos populares de PNL funcionam melhor em hardware de GPU, portanto, você pode obter o melhor desempenho usando hardware de GPU recente, a menos que use um modelo especificamente otimizado para uso em CPUs.

Espião

O DSpy automatiza o ajuste imediato ao traduzir assinaturas de linguagem natural definidas pelo usuário em instruções completas e alguns exemplos.

Consulte Criar aplicativos genAI usando DSPy na Databricks para obter exemplos de como usar o DSPy.

LangChain

LangChain está disponível como um tipo experimental de MLflow que permite aos clientes LangChain aproveitar as ferramentas robustas e experimentar os recursos de acompanhamento do MLflow diretamente do ambiente Databricks.

LangChain é uma estrutura de software projetada para ajudar a criar aplicativos que utilizam grandes modelos de linguagem (LLMs) e combiná-los com dados externos para trazer mais contexto de treinamento para seus LLMs.

O Databricks Runtime ML inclui langchain no Databricks Runtime 13.1 ML e acima.

Saiba mais sobre integrações LangChain específicas do Databricks.

Funções de IA

Visualização

Esse recurso está na Visualização pública.

As funções AI são funções SQL integradas que permitem aos usuários SQL:

  • Use as APIs do Databricks Foundation Model para realizar várias tarefas nos dados de sua empresa.

  • Acesse modelos externos como o GPT-4 da OpenAI e faça experiências com eles.

  • Modelos de consulta hospedados pelo ponto de extremidade Mosaic AI Model Serving a partir de consultas SQL.