予測のためのデータ準備
この記事では、AutoML が予測トレーニング用のデータを準備する方法と、構成可能なデータ設定について説明します。 これらのオプションは、エクスペリメントのセットアップ中に AutoML UIで調整できます。
AutoML API を使用してこれらの設定を構成するには、AutoML Python API リファレンスを参照してください。
サポートされているデータ特徴量タイプ
以下に示す機能タイプのみがサポートされています。 たとえば、画像 はサポートされていません 。
以下の特徴量タイプがサポートされています。
数値(
ByteType
、ShortType
、IntegerType
、LongType
、FloatType
、DoubleType
)ブール値
文字列(カテゴリまたは英語のテキスト)
タイムスタンプ(
TimestampType
、DateType
)ArrayType[Numeric](Databricks ランタイム 10.4 LTS ML以降)
DecimalType(Databricks ランタイム 11.3 LTS ML以降)
欠損値の代入
Databricks Runtime 10.4 LTS ML 以降では、null 値の代入方法を指定できます。 UI で、テーブル スキーマの [Impute with ] 列のドロップダウンから方法を選択します。 API では、 imputers
パラメーターを使用します。 詳細については、「 AutoML Python API リファレンス」を参照してください。
デフォルトによって、 AutoML は列のタイプと内容に基づいて代入方法を選択します。
注:
デフォルト以外の代入方法を指定した場合、 AutoML はセマンティック型検出を実行しません。
予測データをトレーニングするセット、検証セット、およびテストセットに分割する
AutoML では、トレーニング、検証、テストのためにデータが 3 つの分割に分割されます。
予測タスクの場合、AutoML では時系列のクロス検証が使用されます。 この方法では、トレーニングデータセットを時系列で段階的に拡張し、後続の時点で検証を実行します。 交差検証は、さまざまな時間セグメントにわたるモデルのパフォーマンスをしっかりと評価します。 これにより、予測モデルが目に見えない未来データに対して厳密にテストされ、予測の関連性と精度が維持されます。
交差検証フォールドの数は、時系列の数、共変量の存在、時系列の長さなどの入力テーブルの特性によって異なります。
時系列集計
予測の問題では、時系列のタイムスタンプに複数の値がある場合、AutoMLはその平均値を使用します。
代わりに合計を使用するには、 試用版の実行によって生成されたソース コード ノートブックを編集します。 [データを集計] セルで、次に示すように [.agg(y=(target_col, "avg"))
] を [.agg(y=(target_col, "sum"))
] に変更します。
group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
.groupby(group_cols) \
.agg(y=(target_col, "sum")) \
.reset_index() \
.rename(columns={ time_col : "ds" })