O que são Hugging Face Transformers?
Este artigo apresenta uma introdução ao site Hugging Face Transformers em Databricks. Ele inclui orientações sobre por que usar o Hugging Face Transformers e como instalá-lo em seu clustering.
Plano de fundo para Hugging Face Transformers
O Hugging Face Transformers é uma estrutura de código aberto para aprendizagem profunda criada pela Hugging Face. Ele fornece APIs e ferramentas para download modelos pré-treinados de última geração e ajustá-los ainda mais para maximizar o desempenho. Esses modelos suportam tarefas comuns em diferentes modalidades, como processamento de linguagem natural, visão computacional, áudio e aplicativos multimodais.
Databricks Runtime para Machine Learning inclui Hugging Face transformers
em Databricks Runtime 10.4 LTS ML e acima, e inclui Hugging Face dataset, accelerate, and evaluate em Databricks Runtime 13.0 ML e acima.
Para verificar qual versão do Hugging Face está incluída na sua versão configurada do Databricks Runtime ML , consulte a Python seção biblioteca nas notas relevantes sobre a versão.
Por que usar o Hugging Face Transformers?
Para muitas aplicações, como análise de sentimentos e resumo de textos, os modelos pré-treinados funcionam bem sem nenhum treinamento adicional.
Hugging Face O pipeline de transformadores codifica as práticas recomendadas e tem default modelos selecionados para diferentes tarefas, facilitando a obtenção de resultados. O pipeline facilita o uso de GPUs quando disponíveis e permite o envio de lotes de itens para a GPU para um melhor desempenho.
Hugging Face fornece:
- Um hub de modelos contendo muitos modelos pré-treinados.
- A biblioteca🤗 Transformers que oferece suporte ao download e ao uso desses modelos para aplicativos de PNL e ajuste fino. É comum precisar tanto de um tokenizador quanto de um modelo para tarefas de processamento de linguagem natural.
- 🤗 Pipeline de transformadores que têm uma interface simples para a maioria das tarefas de processamento de linguagem natural.
Instalar transformers
Se a versão Databricks Runtime em seu clustering não incluir Hugging Face transformers
, o senhor poderá instalar a biblioteca Hugging Face transformers
mais recente como uma bibliotecaDatabricks PyPI.
%pip install transformers
Instalar dependências do modelo
Modelos diferentes podem ter dependências diferentes. Databricks recomenda que o senhor use o comando mágico %pip para instalar essas dependências conforme necessário.
A seguir estão as dependências comuns:
librosa
: suporta a decodificação de arquivos de áudio.soundfile
O senhor pode usar a função de "dados de áudio": necessária ao gerar um conjunto de dados de áudio.bitsandbytes
: obrigatório ao usarload_in_8bit=True
.SentencePiece
: usado como tokenizador para modelos de PNL.timm
DetrForSegmentation: exigido por DetrForSegmentation.
Treinamento de nó único
Para testar e migrar o fluxo de trabalho de uma única máquina, use um clustering de nó único.
Recurso adicional
Os artigos a seguir incluem exemplos de Notebook e orientações sobre como usar Hugging Face transformers
para o ajuste fino do modelo de linguagem grande (LLM) e a inferência do modelo em Databricks.