画像アプリケーション向けのリファレンスソリューション
多くの実世界のイメージ アプリケーションで共有される共通の構成で、 Pandas UDF、 PyTorch、および TensorFlow を使用して、リファレンス ソリューション ノートブックから分散イメージ モデルの推論を行う方法について説明します。 この設定では、オブジェクトストアに多数のイメージを保存し、オプションで新しいイメージが継続的に到着することを前提としています。
画像モデル推論のワークフロー
画像分類とオブジェクト検出のために、複数のトレーニング済みディープラーニング (DL) モデルがあるとします (たとえば、MobileNetV2 は ユーザーがアップロードした写真に写っている人物を検出し、プライバシーを保護し、これらのDLモデルを保存された画像に適用したいとします。
モデルを再トレーニングし、以前のコンピュート予測を更新することができます。しかし、多くの画像を読み込んでDLモデルを適用するのは、I/O負荷とコンピュート負荷の両方になります。幸いなことに、推論ワークロードは恥ずかしいほど並列であり、理論的には簡単に分散できます。このガイドでは、次の 2 つの主要なステージを含む実用的なソリューションについて説明します。
- Auto Loader を使用した画像からDeltaテーブルへのETL処理
- pandas UDF を使用した分散推論の実行
ETLを使用して画像をDelta テーブルにAuto Loader
トレーニング タスクや推論タスクなどのイメージ アプリケーションの場合、 では、イメージを を使用して テーブルに することをお勧めします。DatabricksETLDeltaAuto Loaderこの Auto Loader は、データマネジメントを支援し、継続的に到着する新しい画像を自動的に処理します。
ETL 画像データセットを Delta テーブル ノートブックに
Pandas UDF を使用した分散推論の実行
次のノートブックでは、PyTorch と TensorFlow tf を使用しています。参照ソリューションを示す Keras。
PyTorch と Pandas UDF ノートブックによる分散推論
Keras と Pandas UDF ノートブックによる分散推論
制限事項: 画像ファイルのサイズ
大きな画像ファイル (平均画像サイズが 100 MB を超える) の場合、Databricks では、メタデータ (ファイル名の一覧) を管理するためだけに Delta テーブルを使用し、必要に応じてパスを使用してオブジェクト ストアから画像を読み込むことをお勧めします。