トレーニングする と 登録する Unity Catalog を使用した機械学習モデル
Unity Catalog を使用すると、Databricks の他の機械学習コンポーネントとシームレスに対話しながら、テーブルとモデルにきめ細かなセキュリティを適用できます。 この記事では、Python を使用して、 Unity Catalog のデータを使用して機械学習モデルをトレーニングし、モデルを Unity Catalogに登録する方法について説明します。
要件
ワークスペースで Unity Catalogが有効になっている必要があります。
クラスターを作成できるか、シングルユーザーアクセスモードで実行されているクラスターにアクセスできる必要があります。
Databricks Machine Learning クラスター を作成する
次の手順に従って、 Unity Catalog のデータにアクセスできるシングルユーザー Databricks Runtime 機械学習クラスターを作成します。
[コンピュート]をクリックします。
[コンピュートを作成]をクリックします。
[ アクセス モード] で [ シングル ユーザー] を選択します。
Databricks Runtime 機械学習には、シングル ユーザー クラスターの使用を必要とするライブラリが含まれています。 シングル ユーザー クラスターは、1 人のユーザーが排他的に使用できます (既定では、1 人のユーザーがクラスターの所有者になります)。 他のユーザーはクラスターに接続できません。
各アクセス モードで使用できる機能の詳細については、「 アクセス モード」を参照してください。
Databricks ランタイム バージョン ドロップダウン メニューで、 機械学習 を選択し、 11.3 LTS ML 以降を選択します。
「 クラスターの作成」をクリックします。
カタログ を作成する
次の手順に従って、機械学習チームがデータ資産を格納できる新しいカタログを作成します。
メタストアが割り当てられているワークスペースで、メタストア管理者として、または
CREATE CATALOG
権限を持つユーザーとしてログインします。ノートブックを作成するか、Databricks SQL エディターを開きます。
次のコマンドを実行して、
ml
カタログを作成します。CREATE CATALOG ml;
カタログを作成すると、カタログ内に
default
という名前のスキーマが自動的に作成されます。ml
カタログとml.default
スキーマへのアクセス権、およびテーブルとビューを作成する機能をml_team
グループに付与します。すべてのアカウント レベルのユーザーを含めるには、グループaccount users
を使用できます。GRANT USE CATALOG ON CATALOG ml TO `ml team`; GRANT USE SCHEMA, CREATE TABLE ON SCHEMA ml.default TO `ml_team`;
これで、 ml_team
グループのすべてのユーザーが次のサンプル ノートブックを実行できるようになりました。
サンプル ノートブック をインポートする
開始するには、次のノートブックをインポートします。
ノートブックをインポートするには:
ノートブックの横にある [ インポート用のリンクをコピー] をクリックします。
ワークスペースで、[ ワークスペース] をクリックします 。
フォルダの横にある をクリックし、[ インポート] をクリックします。
[ URL] をクリックし、コピーしたリンクを貼り付けます。
インポートされたノートブックが、選択したフォルダーに表示されます。 ノートブック名をダブルクリックして開きます。
ノートブックの上部で、ノートブックをアタッチする Databricks Machine Learning クラスターを選択します。
ノートブックは、いくつかの高レベルのセクションに分かれています。
セットアップ。
CSV ファイルからデータを読み取り、 Unity Catalogに書き込みます。
データを Pandas データフレームに読み込み、クリーンアップします。
トレーニングする 基本的な分類モデル。
ハイパーパラメーターを調整し、モデルを最適化します。
Unity Catalogでモデルを登録する。
結果を新しいテーブルに書き込み、他のユーザーと共有します。
セルを実行するには、[ 実行] をクリックします 。ノートブック全体を実行するには、[ すべて実行] をクリックします。