メインコンテンツまでスキップ

Hugging Faceトランスフォーマーとは?

この記事では、DatabricksにおけるHugging Face Transformersの概要について説明します。 これには、 Hugging Face Transformers を使用する理由と、クラスターにインストールする方法に関するガイダンスが含まれています。

Hugging Faceトランスフォーマーの背景

Hugging Face Transformers は、Hugging Face によって作成されたディープラーニング用のオープンソース フレームワークです。 最先端の事前学習済みモデルをダウンロードし、パフォーマンスを最大化するためにさらに調整するための APIs とツールを提供します。 これらのモデルは、自然言語処理、コンピュータービジョン、オーディオ、マルチモーダルアプリケーションなど、さまざまなモダリティでの一般的なタスクをサポートします。

Databricks Runtime for Machine Learning には 、Databricks Runtime 10.4 LTS ML 以降の Hugging Face transformers が含まれており、Databricks Runtime 13.0 ML 以降の Hugging Face データセット高速化評価 が含まれています。

設定した バージョンにどのバージョンのHugging Face が含まれているかを確認するには、関連するDatabricks RuntimeML Pythonリリースノート の ライブラリ セクションを参照してください。

なぜ Hugging Face トランスフォーマーを使用するのですか?

感情分析やテキスト要約などの多くのアプリケーションでは、事前トレーニング済みのモデルは、追加のモデル トレーニングなしで適切に機能します。

Hugging Face Transformers パイプラインは、ベスト プラクティスをエンコードし、さまざまなタスクに対してデフォルト モデルを選択できるため、簡単に開始できます。 パイプラインを使用すると、使用可能な場合は GPU を簡単に使用でき、GPU に送信される項目のバッチ処理によりスループット パフォーマンスが向上します。

Hugging Faceは以下を提供します。

  • 多くの事前トレーニング済みモデルを含む モデル ハブ
  • NLPアプリケーションとファインチューニングのために、これらのモデルのダウンロードと活用をサポートする 🤗 Transformersライブラリ。 自然言語処理タスクには、トークナイザーとモデルの両方が必要になるのが一般的です。
  • ほとんどの自然言語処理タスク用のシンプルなインターフェイスを備えた 🤗 Transformers パイプライン

取り付ける transformers

クラスターの Databricks Runtime バージョンに Hugging Face transformersが含まれていない場合は、最新の Hugging Face transformersライブラリを Databricks PyPI ライブラリとしてインストールできます。

Bash
  %pip install transformers

モデルの依存関係のインストール

モデルが異なれば、依存関係も異なる場合があります。 Databricks では、 必要に応じて %pip マジック コマンドを使用して これらの依存関係をインストールすることをお勧めします。

一般的な依存関係は次のとおりです。

  • librosa:オーディオファイルのデコードをサポートします。
  • soundfile: 一部のオーディオデータセットを生成する際に必要です。
  • bitsandbytes: load_in_8bit=Trueを使用する場合は必須です。
  • SentencePiece:NLPモデルのトークナイザーとして使用されます。
  • timm: DetrForSegmentationで必要です。

シングルノードトレーニング

単一マシンのワークフローをテストおよび移行するには、 Single Node クラスターを使用します。

追加のリソース

次の記事には、ノートブックの例と、 Hugging Face transformers for 大規模言語モデル (LLM) ファインチューニング と model inference on Databricksのガイダンスが含まれています。