予測のためのデータ準備

この記事では、AutoML が予測トレーニング用のデータを準備する方法と、構成可能なデータ設定について説明します。 これらのオプションは、エクスペリメントのセットアップ中に AutoML UIで調整できます。

AutoML API を使用してこれらの設定を構成するには、AutoML Python API リファレンスを参照してください。

サポートされているデータ特徴量タイプ

以下に示す機能タイプのみがサポートされています。 たとえば、画像 はサポートされていません

以下の特徴量タイプがサポートされています。

  • 数値(ByteTypeShortTypeIntegerTypeLongTypeFloatTypeDoubleType

  • ブール値

  • 文字列(カテゴリまたは英語のテキスト)

  • タイムスタンプ(TimestampTypeDateType

  • ArrayType[Numeric](Databricks ランタイム 10.4 LTS ML以降)

  • DecimalType(Databricks ランタイム 11.3 LTS ML以降)

欠損値の代入

Databricks Runtime 10.4 LTS ML 以降では、null 値の代入方法を指定できます。 UI で、テーブル スキーマの [Impute with ] 列のドロップダウンから方法を選択します。 API では、 imputers パラメーターを使用します。 詳細については、「 AutoML Python API リファレンス」を参照してください。

デフォルトによって、 AutoML は列のタイプと内容に基づいて代入方法を選択します。

注:

デフォルト以外の代入方法を指定した場合、 AutoML はセマンティック型検出を実行しません。

予測データをトレーニングするセット、検証セット、およびテストセットに分割する

AutoML では、トレーニング、検証、テストのためにデータが 3 つの分割に分割されます。

予測タスクの場合、AutoML では時系列のクロス検証が使用されます。 この方法では、トレーニングデータセットを時系列で段階的に拡張し、後続の時点で検証を実行します。 交差検証は、さまざまな時間セグメントにわたるモデルのパフォーマンスをしっかりと評価します。 これにより、予測モデルが目に見えない未来データに対して厳密にテストされ、予測の関連性と精度が維持されます。

交差検証フォールドの数は、時系列の数、共変量の存在、時系列の長さなどの入力テーブルの特性によって異なります。

時系列集計

予測の問題では、時系列のタイムスタンプに複数の値がある場合、AutoMLはその平均値を使用します。

代わりに合計を使用するには、 試用版の実行によって生成されたソース コード ノートブックを編集します[データを集計] セルで、次に示すように [.agg(y=(target_col, "avg"))] を [.agg(y=(target_col, "sum"))] に変更します。

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })