メインコンテンツまでスキップ

MLlib による特徴エンジニアリング

Apache Spark MLlib には、特徴のエンコードや変換の方法など、特徴エンジニアリングを大規模に実行するための多くのユーティリティ関数が含まれています。 これらの方法は、他の機械学習ライブラリの特徴を処理するためにも使用できます。

Databricks では、次の Apache Spark MLlib ガイドをお勧めします。

この PySpark ベースのノートブックには、カテゴリ インデックス作成とワンホット エンコードを使用してカテゴリ データを数値変数に変換する前処理手順が含まれています。

二項分類の例

Open notebook in new tab