Hugging Faceトランスフォーマーとは?
この記事では、DatabricksにおけるHugging Face Transformersの概要について説明します。 これには、 Hugging Face Transformers を使用する理由と、クラスターにインストールする方法に関するガイダンスが含まれています。
Hugging Faceトランスフォーマーの背景
Hugging Face Transformers は、Hugging Face によって作成されたディープラーニング用のオープンソース フレームワークです。 最先端の事前学習済みモデルをダウンロードし、パフォーマンスを最大化するためにさらに調整するための APIs とツールを提供します。 これらのモデルは、自然言語処理、コンピュータービジョン、オーディオ、マルチモーダルアプリケーションなど、さまざまなモダリティでの一般的なタスクをサポートします。
Databricks Runtime for Machine Learning には 、Databricks Runtime 10.4 LTS ML 以降の Hugging Face transformers
が含まれており、Databricks Runtime 13.0 ML 以降の Hugging Face データセット、 高速化、 評価 が含まれています。
設定した バージョンにどのバージョンのHugging Face が含まれているかを確認するには、関連するDatabricks RuntimeML Pythonリリースノート の ライブラリ セクションを参照してください。
なぜ Hugging Face トランスフォーマーを使用するのですか?
感情分析やテキスト要約などの多くのアプリケーションでは、事前トレーニング済みのモデルは、追加のモデル トレーニングなしで適切に機能します。
Hugging Face Transformers パイプラインは、ベスト プラクティスをエンコードし、さまざまなタスクに対してデフォルト モデルを選択できるため、簡単に開始できます。 パイプラインを使用すると、使用可能な場合は GPU を簡単に使用でき、GPU に送信される項目のバッチ処理によりスループット パフォーマンスが向上します。
Hugging Faceは以下を提供します。
- 多くの事前トレーニング済みモデルを含む モデル ハブ 。
- NLPアプリケーションとファインチューニングのために、これらのモデルのダウンロードと活用をサポートする 🤗 Transformersライブラリ。 自然言語処理タスクには、トークナイザーとモデルの両方が必要になるのが一般的です。
- ほとんどの自然言語処理タスク用のシンプルなインターフェイスを備えた 🤗 Transformers パイプライン。
取り付ける transformers
クラスターの Databricks Runtime バージョンに Hugging Face transformers
が含まれていない場合は、最新の Hugging Face transformers
ライブラリを Databricks PyPI ライブラリとしてインストールできます。
%pip install transformers
モデルの依存関係のインストール
モデルが異なれば、依存関係も異なる場合があります。 Databricks では、 必要に応じて %pip マジック コマンドを使用して これらの依存関係をインストールすることをお勧めします。
一般的な依存関係は次のとおりです。
librosa
:オーディオファイルのデコードをサポートします。soundfile
: 一部のオーディオデータセットを生成する際に必要です。bitsandbytes
:load_in_8bit=True
を使用する場合は必須です。SentencePiece
:NLPモデルのトークナイザーとして使用されます。timm
: DetrForSegmentationで必要です。
シングルノードトレーニング
単一マシンのワークフローをテストおよび移行するには、 Single Node クラスターを使用します。
追加のリソース
次の記事には、ノートブックの例と、 Hugging Face transformers
for 大規模言語モデル (LLM) ファインチューニング と model inference on Databricksのガイダンスが含まれています。