O que são transformadores Hugging Face ?
Este artigo fornece uma introdução ao Hugging Face Transformers no Databricks. Ele inclui orientação sobre por que usar o Hugging Face Transformers e como instalá-lo em seus clusters.
Plano de fundo para Hugging Face
Hugging Face Transformers é uma estrutura de código aberto para aprendizagem profunda criada por Hugging Face. Ele fornece APIs e ferramentas para downloads modelos pré-treinados de última geração e ajustá-los ainda mais para maximizar o desempenho. Esses modelos suportam tarefas comuns em diferentes modalidades, como processamento de linguagem natural, visão computacional, áudio e aplicativos multimodais.
Observação
O Databricks Runtime para Machine Learning inclui Hugging Face transformers
no Databricks Runtime 10.4 LTS ML e acima, e inclui dataset Hugging Face, acelerar e avaliar no Databricks Runtime 13.0 ML e acima.
Para verificar qual versão do Hugging Face está incluída em sua versão configurada do Databricks Runtime ML, consulte a seção da biblioteca Python nas notas relevantes sobre a versão.
Por que usar transformadores Hugging Face ?
Para muitos aplicativos, como análise de sentimento e resumo de texto, os modelos pré-treinados funcionam bem sem nenhum treinamento de modelo adicional.
Os pipelines do Hugging Face Transformers codificam as melhores práticas e têm modelos default selecionados para diferentes tarefas, tornando mais fácil começar. Os pipelines facilitam o uso de GPUs quando disponíveis e permitem que lotes de itens sejam enviados para a GPU para melhor desempenho do Taxa de download.
Hugging Face fornece:
Um hub de modelo contendo muitos modelos pré-treinados.
A biblioteca 🤗 Transformers que suporta downloads e uso desses modelos para aplicações NLP e ajuste fino. É comum precisar tanto de um tokenizador quanto de um modelo para tarefas de processamento de linguagem natural.
🤗 Pipelines Transformers que possuem uma interface simples para a maioria das tarefas de processamento de linguagem natural.
Instalar transformers
Se a versão do Databricks Runtime em seus clusters não incluir Hugging Face transformers
, você poderá instalar a biblioteca Hugging Face transformers
mais recente como uma biblioteca Databricks PyPI.
%pip install transformers
Instalar dependências de modelo
Modelos diferentes podem ter dependências diferentes. Databricks recomenda que você use comandos mágicos %pip para instalar essas dependências conforme necessário.
A seguir estão as dependências comuns:
librosa
: suporta a decodificação de arquivos de áudio.soundfile
: necessário ao gerar algum dataset de áudio.bitsandbytes
: necessário ao usarload_in_8bit=True
.SentencePiece
: usado como tokenizer para modelos NLP.timm
: exigido por DetrForSegmentation.
Treinamento de nó único
Para testar e migrar o fluxo de trabalho de uma única máquina, use um cluster de nó único.