転移学習の特徴化

この記事では、 Pandas UDF を使用して転移学習の特徴量化を行う例を示します。

DLモデルにおける転移学習のための特徴量化

Databricks は、ディープラーニングモデルによる特徴量化をサポートしています。事前学習済みのディープラーニングモデルは、他のダウンストリームモデルで使用するために特徴をコンピュートに使用できます。 Databricks は、大規模な特徴付けをサポートし、計算をクラスター全体に分散します。 Databricks Runtime ML に含まれるディープラーニングライブラリ (TensorFlow や PyTorch など) を使用して特徴付けを実行できます。

Databricks は、特徴量化に密接に関連する手法である転移学習もサポートしています。転移学習では、1 つの問題領域の知識を関連ドメインで再利用できます。特徴量化は、それ自体が転移学習のためのシンプルで強力な方法であり、事前に学習されたディープラーニングモデルを使用して特徴を計算すると、元のドメインから優れた特徴に関する知識が転送されます。

転移学習のためのコンピュート機能へのステップ

この記事では、次のワークフローを使用して、事前トレーニング済みの TensorFlow モデルを使用して転移学習の特徴をコンピュートする方法を示します。

事前学習済みのディープラーニングモデル (この場合は tensorflow.keras.applicationsの画像分類モデル) から開始します。
モデルの最後のレイヤーを切り捨てます。修正されたモデルは、予測ではなく、特徴のテンソルを出力として生成します。
そのモデルを別の問題領域からの新しい画像データセットに適用し、画像の特徴を計算します。
これらの機能を使用して、新しいモデルをトレーニングします。次のノートブックでは、この最後の手順を省略しています。ロジスティック回帰などの単純なモデルのトレーニングの例については、「 AI モデルと ML モデルのトレーニング」を参照してください。

例: 特徴量化のための Pandas UDF の使用

次のノートブックでは、Pandas UDF を使用して特徴付け手順を実行します。Pandas UDF とその新しいバリアントである Scalar Iterator Pandas UDF は、柔軟な APIを提供し、任意のディープラーニングライブラリをサポートし、高いパフォーマンスを提供します。

TensorFlow による特徴量化と転移学習

ノートブックを新しいタブで開く Open in Databricks

DLモデルにおける転移学習のための特徴量化​

転移学習のためのコンピュート機能へのステップ​

例: 特徴量化のための Pandas UDF の使用​

TensorFlow による特徴量化と転移学習

DLモデルにおける転移学習のための特徴量化

転移学習のためのコンピュート機能へのステップ

例: 特徴量化のための Pandas UDF の使用