Hugging Face Transformersとは何ですか?

この記事では、DatabricksにおけるHugging Face Transformersの概要について説明します。 これには、 Hugging Face Transformers を使用する理由と、クラスターにインストールする方法に関するガイダンスが含まれています。

Hugging Face Transformersの背景

Hugging Face Transformers は、 Hugging Faceによって作成されたディープラーニングのオープンソースフレームワークです。最先端の事前トレーニング済みモデルをダウンロードし、パフォーマンスを最大化するためにさらに調整するための APIs とツールを提供します。 これらのモデルは、自然言語処理、コンピューター ビジョン、オーディオ、マルチモーダル アプリケーションなど、さまざまなモダリティの一般的なタスクをサポートします。

Databricks Runtime for Machine Learning Hugging Facetransformersには 、Databricks Runtime 10.4 LTS 機械学習 以降のHugging Face が含まれており、Databricks Runtime 13.0 機械学習以降では、 データセット 高速化 、 評価 が含まれています。

設定済みの Databricks Runtime 機械学習バージョンに含まれている Hugging Face のバージョンを確認するには、関連する リリースノートの「Python ライブラリ」セクションを参照してください。

Hugging Face Transformersを使用する理由

感情分析やテキスト要約などの多くのアプリケーションでは、事前トレーニング済みのモデルは、追加のモデル トレーニングなしで適切に機能します。

Hugging Face Transformers パイプラインはベスト プラクティスをエンコードし、さまざまなタスク用に既定のモデルを選択できるため、簡単に開始できます。 パイプラインを使用すると、使用可能な場合は GPU を簡単に使用でき、GPU に送信される項目のバッチ処理が可能になり、スループットのパフォーマンスが向上します。

Hugging Face は以下を提供します。

  • 多くの事前トレーニング済みモデルを含む モデル ハブ

  • NLPアプリケーションとファインチューニングのために、これらのモデルのダウンロードと活用をサポートする 🤗 Transformersライブラリ。 自然言語処理タスクには、トークナイザーとモデルの両方が必要になるのが一般的です。

  • ほとんどの自然言語処理タスク用のシンプルなインターフェイスを備えた 🤗 Transformers パイプライン

transformersをインストールする

クラスターの Databricks Runtime バージョンに Hugging Face transformersが含まれていない場合は、最新の Hugging Face transformers ライブラリを Databricks PyPI ライブラリとしてインストールできます。

  %pip install transformers

モデルの依存関係をインストールする

モデルが異なれば、依存関係も異なる場合があります。 Databricks では、 %pip マジック コマンド を使用して、必要に応じてこれらの依存関係をインストールすることをお勧めします。

一般的な依存関係を次に示します。

  • librosa:オーディオファイルのデコードをサポートします。

  • soundfile: 一部のオーディオデータセットの生成中に必要です。

  • bitsandbytes: load_in_8bit=Trueを使用する場合は必須です。

  • SentencePiece:NLPモデルのトークナイザーとして使用されます。

  • timm: DetrForSegmentationで必要です。

単一ノードのトレーニング

単一マシンのワークフローをテストおよび移行するには、 シングルノード クラスターを使用します。

関連リソース

次の記事には、Databricks で大規模な言語モデル (LLM) の微調整とモデル推論のために Hugging Face transformers を使用する方法に関するノートブックとガイダンスの例が含まれています。