Pular para o conteúdo principal

O que são Hugging Face Transformers?

Este artigo apresenta uma introdução ao site Hugging Face Transformers em Databricks. Ele inclui orientações sobre por que usar o Hugging Face Transformers e como instalá-lo em seu clustering.

Plano de fundo para Hugging Face Transformers

O Hugging Face Transformers é uma estrutura de código aberto para aprendizagem profunda criada pela Hugging Face. Ele fornece APIs e ferramentas para download modelos pré-treinados de última geração e ajustá-los ainda mais para maximizar o desempenho. Esses modelos suportam tarefas comuns em diferentes modalidades, como processamento de linguagem natural, visão computacional, áudio e aplicativos multimodais.

Databricks Runtime para Machine Learning inclui Hugging Face transformers em Databricks Runtime 10.4 LTS ML e acima, e inclui Hugging Face dataset, accelerate, and evaluate em Databricks Runtime 13.0 ML e acima.

Para verificar qual versão do Hugging Face está incluída na sua versão configurada do Databricks Runtime ML , consulte a Python seção biblioteca nas notas relevantes sobre a versão.

Por que usar o Hugging Face Transformers?

Para muitas aplicações, como análise de sentimentos e resumo de textos, os modelos pré-treinados funcionam bem sem nenhum treinamento adicional.

Hugging Face O pipeline de transformadores codifica as práticas recomendadas e tem default modelos selecionados para diferentes tarefas, facilitando a obtenção de resultados. O pipeline facilita o uso de GPUs quando disponíveis e permite o envio de lotes de itens para a GPU para um melhor desempenho.

Hugging Face fornece:

  • Um hub de modelos contendo muitos modelos pré-treinados.
  • A biblioteca🤗 Transformers que oferece suporte ao download e ao uso desses modelos para aplicativos de PNL e ajuste fino. É comum precisar tanto de um tokenizador quanto de um modelo para tarefas de processamento de linguagem natural.
  • 🤗 Pipeline de transformadores que têm uma interface simples para a maioria das tarefas de processamento de linguagem natural.

Instalar transformers

Se a versão Databricks Runtime em seu clustering não incluir Hugging Face transformers, o senhor poderá instalar a biblioteca Hugging Face transformers mais recente como uma bibliotecaDatabricks PyPI.

Bash
  %pip install transformers

Instalar dependências do modelo

Modelos diferentes podem ter dependências diferentes. Databricks recomenda que o senhor use o comando mágico %pip para instalar essas dependências conforme necessário.

A seguir estão as dependências comuns:

  • librosa: suporta a decodificação de arquivos de áudio.
  • soundfileO senhor pode usar a função de "dados de áudio": necessária ao gerar um conjunto de dados de áudio.
  • bitsandbytes: obrigatório ao usar load_in_8bit=True.
  • SentencePiece: usado como tokenizador para modelos de PNL.
  • timmDetrForSegmentation: exigido por DetrForSegmentation.

Treinamento de nó único

Para testar e migrar o fluxo de trabalho de uma única máquina, use um clustering de nó único.

Recurso adicional

Os artigos a seguir incluem exemplos de Notebook e orientações sobre como usar Hugging Face transformers para o ajuste fino do modelo de linguagem grande (LLM) e a inferência do modelo em Databricks.