メインコンテンツまでスキップ

機械学習とディープラーニング用のデータの読み込み

このセクションでは、 ML アプリケーションと DL アプリケーション専用のデータの読み込みに関する情報について説明します。 データの読み込みに関する一般的な情報については、「 Databricks レイクハウスにデータを取り込む」を参照してください。

データの読み込みとモデルのチェックポイント処理のためのファイルの保存

機械学習アプリケーションでは、データの読み込みとモデルのチェックポイント処理に共有ストレージを使用する必要がある場合があります。 これは、分散ディープラーニングでは特に重要です。

Databricks は、データと AI アセットの統合ガバナンスソリューションである Unity Catalog を提供します。 Unity Catalog を使用すると、Spark とローカル ファイル ファイルの両方を使用してクラスター上のデータにアクセスできますAPIs。

表形式データの読み込み

表形式の機械学習データを テーブル またはファイルから読み込むことができます (たとえば、「 CSV ファイルの読み取り」を参照してください)。 Apache SparkDataFramesPandasDataFramesPySparkメソッドtoPandas() を使用してNumPy を に変換し、オプションで メソッドPySpark を使用してto_numpy() 形式に変換できます。

大規模言語モデルを微調整するためのデータの準備

Hugging Face TransformersHugging Face データセットを使用して、オープンソースの大規模な言語モデルを微調整するためのデータを準備できます。

Hugging Faceモデルをファインチューンするためのデータの準備

分散ディープラーニング トレーニング用のデータの準備

このセクションでは、Mosaic ストリーミングと TFRecords を使用した 分散ディープラーニング トレーニング のデータの準備について説明します。