MLlib を使用した特徴量エンジニアリング

Apache Spark MLlib には、機能のエンコードや変換のメソッドなど、大規模な特徴エンジニアリングを実行するための多くのユーティリティ関数が含まれています。 これらのメソッドは、他の機械学習ライブラリの特徴を処理するためにも使用できます。

Databricks では、次の Apache Spark MLlib ガイドをお勧めします。

この PySpark ベースのノートブックには、カテゴリ インデックスとワンホット エンコードを使用してカテゴリ データを数値変数に変換する前処理 ステップ が含まれています。

二項分類の例

ノートブックを新しいタブで開く