Hugging Face Transformersとは何ですか?
この記事では、DatabricksにおけるHugging Face Transformersの概要について説明します。 これには、 Hugging Face Transformers を使用する理由と、クラスターにインストールする方法に関するガイダンスが含まれています。
Hugging Face Transformersの背景
Hugging Face Transformers は、 Hugging Faceによって作成されたディープラーニングのオープンソースフレームワークです。最先端の事前トレーニング済みモデルをダウンロードし、パフォーマンスを最大化するためにさらに調整するための APIs とツールを提供します。 これらのモデルは、自然言語処理、コンピューター ビジョン、オーディオ、マルチモーダル アプリケーションなど、さまざまなモダリティの一般的なタスクをサポートします。
Databricks Runtime for Machine Learning Hugging Facetransformers
には 、Databricks Runtime 10.4 LTS 機械学習 以降のHugging Face が含まれており、Databricks Runtime 13.0 機械学習以降では、 データセット 、 高速化 、 評価 が含まれています。
設定済みの Databricks Runtime 機械学習バージョンに含まれている Hugging Face のバージョンを確認するには、関連する リリースノートの「Python ライブラリ」セクションを参照してください。
Hugging Face Transformersを使用する理由
感情分析やテキスト要約などの多くのアプリケーションでは、事前トレーニング済みのモデルは、追加のモデル トレーニングなしで適切に機能します。
Hugging Face Transformers パイプラインはベスト プラクティスをエンコードし、さまざまなタスク用に既定のモデルを選択できるため、簡単に開始できます。 パイプラインを使用すると、使用可能な場合は GPU を簡単に使用でき、GPU に送信される項目のバッチ処理が可能になり、スループットのパフォーマンスが向上します。
Hugging Face は以下を提供します。
多くの事前トレーニング済みモデルを含む モデル ハブ 。
NLPアプリケーションとファインチューニングのために、これらのモデルのダウンロードと活用をサポートする 🤗 Transformersライブラリ。 自然言語処理タスクには、トークナイザーとモデルの両方が必要になるのが一般的です。
ほとんどの自然言語処理タスク用のシンプルなインターフェイスを備えた 🤗 Transformers パイプライン。
transformers
をインストールする
クラスターの Databricks Runtime バージョンに Hugging Face transformers
が含まれていない場合は、最新の Hugging Face transformers
ライブラリを Databricks PyPI ライブラリとしてインストールできます。
%pip install transformers
モデルの依存関係をインストールする
モデルが異なれば、依存関係も異なる場合があります。 Databricks では、 %pip マジック コマンド を使用して、必要に応じてこれらの依存関係をインストールすることをお勧めします。
一般的な依存関係を次に示します。
librosa
:オーディオファイルのデコードをサポートします。soundfile
: 一部のオーディオデータセットの生成中に必要です。bitsandbytes
:load_in_8bit=True
を使用する場合は必須です。SentencePiece
:NLPモデルのトークナイザーとして使用されます。timm
: DetrForSegmentationで必要です。
単一ノードのトレーニング
単一マシンのワークフローをテストおよび移行するには、 シングルノード クラスターを使用します。