メインコンテンツまでスキップ

画像アプリケーション向けのリファレンスソリューション

多くの実世界のイメージ アプリケーションで共有される共通の構成で、 Pandas UDF、 PyTorch、および TensorFlow を使用して、リファレンス ソリューション ノートブックから分散イメージ モデルの推論を行う方法について説明します。 この設定では、オブジェクトストアに多数のイメージを保存し、オプションで新しいイメージが継続的に到着することを前提としています。

画像モデル推論のワークフロー

画像分類とオブジェクト検出のために、複数のトレーニング済みディープラーニング (DL) モデルがあるとします (たとえば、MobileNetV2 は ユーザーがアップロードした写真に写っている人物を検出し、プライバシーを保護し、これらのDLモデルを保存された画像に適用したいとします。

モデルを再トレーニングし、以前のコンピュート予測を更新することができます。しかし、多くの画像を読み込んでDLモデルを適用するのは、I/O負荷とコンピュート負荷の両方になります。幸いなことに、推論ワークロードは恥ずかしいほど並列であり、理論的には簡単に分散できます。このガイドでは、次の 2 つの主要なステージを含む実用的なソリューションについて説明します。

  1. Auto Loader を使用した画像からDeltaテーブルへのETL処理
  2. pandas UDF を使用した分散推論の実行

ETLを使用して画像をDelta テーブルにAuto Loader

トレーニング タスクや推論タスクなどのイメージ アプリケーションの場合、 では、イメージを を使用して テーブルに することをお勧めします。DatabricksETLDeltaAuto Loaderこの Auto Loader は、データマネジメントを支援し、継続的に到着する新しい画像を自動的に処理します。

ETL 画像データセットを Delta テーブル ノートブックに

Open notebook in new tab

Pandas UDF を使用した分散推論の実行

次のノートブックでは、PyTorch と TensorFlow tf を使用しています。参照ソリューションを示す Keras。

PyTorch と Pandas UDF ノートブックによる分散推論

Open notebook in new tab

Keras と Pandas UDF ノートブックによる分散推論

Open notebook in new tab

制限事項: 画像ファイルのサイズ

大きな画像ファイル (平均画像サイズが 100 MB を超える) の場合、Databricks では、メタデータ (ファイル名の一覧) を管理するためだけに Delta テーブルを使用し、必要に応じてパスを使用してオブジェクト ストアから画像を読み込むことをお勧めします。