機械学習とディープラーニング用のデータの読み込み

このセクションでは、 ML アプリケーションと DL アプリケーション専用のデータの読み込みに関する情報について説明します。データの読み込みに関する一般的な情報については、Lakeflowコネクトの標準コネクタを参照してください。

データの読み込みとモデルのチェックポイント処理のためのファイルの保存

機械学習アプリケーションでは、データの読み込みとモデルのチェックポイント処理に共有ストレージを使用する必要がある場合があります。これは、分散ディープラーニングでは特に重要です。

Databricks は、データと AI アセットの統合ガバナンスソリューションである Unity Catalog を提供します。 Unity Catalog を使用すると、Spark とローカルファイルファイルの両方を使用してクラスター上のデータにアクセスできますAPI。

表形式データの読み込み

表形式の機械学習データをテーブルまたはファイルから読み込むことができます（たとえば、「CSV ファイルの読み取りと書き込み」を参照してください）。Apache Spark データフレームをPySparkメソッドtoPandas() を使用してPandas データフレームに変換し、オプションで PySparkメソッドto_numpy() を使用してNumPy形式に変換できます。

大規模言語モデルをファインチューンするためのデータの準備

Hugging Face Transformers と Hugging Face データセットを使用して、オープンソースの大規模な言語モデルを微調整するためのデータを準備できます。

Hugging Faceモデルをファインチューンするためのデータの準備

分散ディープラーニングトレーニング用のデータの準備

このセクションでは、分散ディープラーニングトレーニング用のデータを準備する方法について説明します。

メモリに収まらない非常に大規模なデータセットについては、ストリーミングのアプローチを使用してください：

カスタムストリーミングロジック用のPyTorch IterableDataset。
Hub またはボリュームにホストされているデータセット向けのストリーミングに対応したHugging Face データセット
分散バッチデータ処理のためのRay Data。

データの読み込みとモデルのチェックポイント処理のためのファイルの保存​

表形式データの読み込み​

大規模言語モデルをファインチューンするためのデータの準備​

分散ディープラーニング トレーニング用のデータの準備​

データの読み込みとモデルのチェックポイント処理のためのファイルの保存

表形式データの読み込み

大規模言語モデルをファインチューンするためのデータの準備

分散ディープラーニングトレーニング用のデータの準備