転移学習の特徴化
この記事では、 Pandas UDF を使用して転移学習の特徴量化を行う例を示します。
DLモデルにおける転移学習のための特徴量化
Databricks は、ディープラーニングモデルによる特徴量化をサポートしています。 事前学習済みのディープラーニング モデルは、他のダウンストリーム モデルで使用するために特徴をコンピュートに使用できます。 Databricks は、大規模な特徴付けをサポートし、計算をクラスター全体に分散します。 Databricks Runtime ML に含まれるディープラーニング ライブラリ (TensorFlow や PyTorch など) を使用して特徴付けを実行できます。
Databricks は、特徴量化に密接に関連する手法である 転移学習もサポートしています。 転移学習では、1 つの問題領域の知識を関連ドメインで再利用できます。 特徴量化は、それ自体が転移学習のためのシンプルで強力な方法であり、事前に学習されたディープラーニングモデルを使用して特徴を計算すると、元のドメインから優れた特徴に関する知識が転送されます。
転移学習のためのコンピュート機能へのステップ
この記事では、次のワークフローを使用して、事前トレーニング済みの TensorFlow モデルを使用して転移学習の特徴をコンピュートする方法を示します。
- 事前学習済みのディープラーニング モデル (この場合は
tensorflow.keras.applications
の画像分類モデル) から開始します。 - モデルの最後のレイヤーを切り捨てます。 修正されたモデルは、予測ではなく、特徴のテンソルを出力として生成します。
- そのモデルを別の問題領域からの新しい画像データセットに適用し、画像の特徴を計算します。
- これらの機能を使用して、新しいモデルをトレーニングします。 次のノートブックでは、この最後の手順を省略しています。 ロジスティック回帰などの単純なモデルのトレーニングの例については、「 AI モデルと ML モデルのトレーニング」を参照してください。
例: 特徴量化のための Pandas UDF の使用
次のノートブックでは、Pandas UDF を使用して特徴付け手順を実行します。Pandas UDFs とその新しいバリアントである Scalar Iterator Pandas UDFs は、柔軟な APIsを提供し、任意のディープラーニング ライブラリをサポートし、高いパフォーマンスを提供します。