機械学習とディープラーニングのためのデータの読み込み
このセクションでは、特に機械学習および DL アプリケーション向けのデータのロードに関する情報を説明します。 データの読み込みに関する一般的な情報については、 「Databricks レイクハウスへのデータの取り込み」を参照してください。
データの読み込みとモデルのチェックポイント処理のためのファイルの保存
機械学習アプリケーションでは、データの読み込みとモデルのチェックポイント処理に共有ストレージを使用する必要がある場合があります。 これは、分散ディープラーニングにとって特に重要です。
Databricks には、Spark とローカル ファイル APIs の両方を使用してクラスター上のデータにアクセスするための データブリック ファイル システム (DBFS) が用意されています。
表形式データを読み込む
表形式の機械学習データをテーブルまたはファイルから読み込むことができます (例: CSV ファイルの読み取りを参照)。 Apache SparkDataFramesPandasDataFramesPySparkメソッドtoPandas()
を使用してNumPy を に変換し、必要に応じて メソッドPySpark を使用してto_numpy()
形式に変換できます。
大規模言語モデルをファインチューニングするためのデータの準備
Hugging Face Transformers と Hugging Face データセットを使用して、オープンソースの大規模な言語モデルを微調整するためのデータを準備できます。
分散ディープラーニング トレーニング用のデータの準備
このセクションでは、Mosaic ストリーミングと TFRecords を使用した 分散ディープラーニング トレーニング のデータの準備について説明します。