予測のためのデータ準備
この記事では、AutoML が予測トレーニング用のデータを準備する方法と、構成可能なデータ設定について説明します。 これらのオプションは、エクスペリメントのセットアップ中に AutoML UIで調整できます。
AutoML API を使用してこれらの設定を構成するには、AutoML Python API リファレンスを参照してください。
サポートされているデータ機能タイプ
以下に示す機能タイプのみがサポートされています。 たとえば、画像は サポートされていません 。
以下の特徴量タイプがサポートされています。
- 数値(
ByteType
、ShortType
、IntegerType
、LongType
、FloatType
、DoubleType
) - ブール値
- 文字列(カテゴリまたは英語のテキスト)
- タイムスタンプ(
TimestampType
、DateType
) - ArrayType[Numeric](Databricks ランタイム 10.4 LTS ML以降)
- DecimalType(Databricks ランタイム 11.3 LTS ML以降)
欠損値の代入
Databricks Runtime 10.4 LTS ML 以降では、null 値の代入方法を指定できます。 UI で、テーブル スキーマの 代入方法 列のドロップダウンから方法を選択します。 API では、 imputers
パラメーターを使用します。 詳細については、 AutoML Python API リファレンスを参照してください。
デフォルトによって、 AutoML は列のタイプと内容に基づいて代入方法を選択します。
デフォルト以外の代入方法を指定した場合、 AutoML はセマンティック型検出を実行しません。
予測データをトレーニングセット、検証セット、テストセットに分割
AutoML では、トレーニング、検証、テストのためにデータが 3 つの分割に分割されます。
予測タスクの場合、AutoML では時系列のクロス検証が使用されます。この方法では、トレーニングデータセットを時系列で段階的に拡張し、後続の時点で検証を実行します。交差検証は、さまざまな時間セグメントにわたるモデルのパフォーマンスをしっかりと評価します。これにより、予測モデルが目に見えない未来データに対して厳密にテストされ、予測の関連性と精度が維持されます。
交差検証フォールドの数は、時系列の数、共変量の存在、時系列の長さなどの入力テーブルの特性によって異なります。
時系列集計
予測の問題では、時系列のタイムスタンプに複数の値がある場合、AutoMLはその平均値を使用します。
代わりに合計を使用するには、 によって生成されたソース コード ノートブックを編集します。 [データを集計] セルで、次に示すように [.agg(y=(target_col, "avg"))
] を [.agg(y=(target_col, "sum"))
] に変更します。
group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
.groupby(group_cols) \
.agg(y=(target_col, "sum")) \
.reset_index() \
.rename(columns={ time_col : "ds" })