トレーニングする と 登録する Unity Catalog を使用した機械学習モデル

Unity Catalog を使用すると、Databricks の他の機械学習コンポーネントとシームレスに対話しながら、テーブルとモデルにきめ細かなセキュリティを適用できます。 この記事では、Python を使用して、 Unity Catalog のデータを使用して機械学習モデルをトレーニングし、モデルを Unity Catalogに登録する方法について説明します。

要件

  • ワークスペースで Unity Catalogが有効になっている必要があります。

  • クラスターを作成できるか、シングルユーザーアクセスモードで実行されているクラスターにアクセスできる必要があります。

Databricks Machine Learning クラスター を作成する

次の手順に従って、 Unity Catalog のデータにアクセスできるシングルユーザー Databricks Runtime 機械学習クラスターを作成します。

  1. コンピュートアイコン [コンピュート]をクリックします。

  2. [コンピュートを作成]をクリックします。

  3. [ アクセス モード] で [ シングル ユーザー] を選択します。

    Databricks Runtime 機械学習には、シングル ユーザー クラスターの使用を必要とするライブラリが含まれています。 シングル ユーザー クラスターは、1 人のユーザーが排他的に使用できます (既定では、1 人のユーザーがクラスターの所有者になります)。 他のユーザーはクラスターに接続できません。

    各アクセス モードで使用できる機能の詳細については、「 アクセス モード」を参照してください。

  4. Databricks ランタイム バージョン ドロップダウン メニューで、 機械学習 を選択し、 11.3 LTS ML 以降を選択します。

  5. クラスターの作成」をクリックします。

カタログ を作成する

次の手順に従って、機械学習チームがデータ資産を格納できる新しいカタログを作成します。

  1. メタストアが割り当てられているワークスペースで、メタストア管理者として、または CREATE CATALOG 権限を持つユーザーとしてログインします。

  2. ノートブックを作成するか、Databricks SQL エディターを開きます。

  3. 次のコマンドを実行して、 ml カタログを作成します。

    CREATE CATALOG ml;
    

    カタログを作成すると、カタログ内に default という名前のスキーマが自動的に作成されます。

  4. ml カタログと ml.default スキーマへのアクセス権、およびテーブルとビューを作成する機能を ml_team グループに付与します。すべてのアカウント レベルのユーザーを含めるには、グループ account usersを使用できます。

    GRANT USE CATALOG ON CATALOG ml TO `ml team`;
    GRANT USE SCHEMA, CREATE TABLE ON SCHEMA ml.default TO `ml_team`;
    

これで、 ml_team グループのすべてのユーザーが次のサンプル ノートブックを実行できるようになりました。

サンプル ノートブック をインポートする

開始するには、次のノートブックをインポートします。

ノートブック を使用した機械学習 Unity Catalog

ノートブックを新しいタブで開く

ノートブックをインポートするには:

  1. ノートブックの横にある [ インポート用のリンクをコピー] をクリックします。

  2. ワークスペースアイコン ワークスペースで、[ ワークスペース] をクリックします 。

  3. フォルダの横にある をクリックし、[ダウンキャレット インポート] をクリックします。

  4. [ URL] をクリックし、コピーしたリンクを貼り付けます。

  5. インポートされたノートブックが、選択したフォルダーに表示されます。 ノートブック名をダブルクリックして開きます。

  6. ノートブックの上部で、ノートブックをアタッチする Databricks Machine Learning クラスターを選択します。

ノートブックは、いくつかの高レベルのセクションに分かれています。

  1. セットアップ。

  2. CSV ファイルからデータを読み取り、 Unity Catalogに書き込みます。

  3. データを Pandas データフレームに読み込み、クリーンアップします。

  4. トレーニングする 基本的な分類モデル。

  5. ハイパーパラメーターを調整し、モデルを最適化します。

  6. Unity Catalogでモデルを登録する。

  7. 結果を新しいテーブルに書き込み、他のユーザーと共有します。

セルを実行するには、[実行アイコン 実行] をクリックします 。ノートブック全体を実行するには、[ すべて実行] をクリックします。