バンドルを手動で作成する

このチュートリアルでは、Databricks アセットバンドルを最初から作成します。この単純なバンドルは、2 つのノートブックと、これらのノートブックを実行するための Databricks ジョブの定義で構成されています。その後、Databricks ワークスペースでジョブを検証、デプロイ、実行します。これらの手順により、「Lakeflow ジョブを使用して初めてのワークフローを作成する」というタイトルのクイックスタートが自動化されます。

必要条件

Databricks CLI バージョン 0.218.0 以降。インストールされている Databricks CLI のバージョンを確認するには、コマンド databricks -vを実行します。 Databricks CLI をインストールするには、「 Databricks CLI のインストールまたは更新」を参照してください。
Databricks CLI 用に構成された認証。U2M認証は、これらの手順をリアルタイムで試すのに適しています。「Databricks CLI の認証」を参照してください。
リモート Databricks ワークスペースでは、ワークスペースファイルが有効になっている必要があります。「ワークスペースファイルとは」を参照してください。

ステップ 1: バンドルを作成する

バンドルには、デプロイするアーティファクトと、実行するリソースの設定が含まれています。

開発マシンに空のディレクトリを作成するか、指定してください。
ターミナルの空のディレクトリに切り替えるか、IDEで開きます。

ヒント

Git プロバイダーからクローンされたリポジトリを含むディレクトリを使用することもできます。これにより、外部バージョン管理を使用してバンドルを管理し、プロジェクトで他の開発者や IT プロフェッショナルとより簡単に共同作業を行うことができます。

このデモのリポジトリを複製することを選択した場合、Databricks では、リポジトリを空にするか、 README や .gitignoreなどの基本的なファイルのみを含めることをお勧めします。そうしないと、リポジトリ内の既存のファイルが Databricks ワークスペースに不必要に同期される可能性があります。

ステップ 2: ノートブックをプロジェクトに追加する

この手順では、プロジェクトに 2 つのノートブックを追加します。最初のノートブックは、ニューヨーク州保健局の公開データソースから、2007年以降のトレンドの赤ちゃんの名前のリストを取得しています。部門のウェブサイトで赤ちゃんの名前:名前によるトレンド:2007年以降を参照してください。次に、最初のノートブックは、このデータを my-volume という名前の Databricks Unity Catalog ボリューム、mainという名前のカタログ内の default という名前のスキーマに保存します。2 番目のノートブックは、保存されたデータをクエリし、2014 年の赤ちゃんの名前の集計数をファーストネームと性別別に表示します。

ディレクトリのルートから、最初のノートブック ( retrieve-baby-names.pyという名前のファイル) を作成します。

retrieve-baby-names.py ファイルに次のコードを追加してください。

Python
# Databricks notebook source
import requests

response = requests.get('http://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
csvfile = response.content.decode('utf-8')
dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)

同じディレクトリに 2 つ目のノートブック ( filter-baby-names.pyという名前のファイル) を作成します。

filter-baby-names.py ファイルに次のコードを追加してください。

Python
# Databricks notebook source
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
babynames.createOrReplaceTempView("babynames_table")
years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
years.sort()
dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))

ステップ3：バンドル設定スキーマファイルをプロジェクトに追加する

YAML ファイルと JSON スキーマファイルをサポートする Visual Studio Code、PyCharm Professional、IntelliJ IDEA Ultimate などの IDE を使用している場合は、IDE を使用してバンドル構成スキーマファイルを作成するだけでなく、プロジェクトのバンドル構成ファイルの構文と書式設定を確認できます。

Visual Studio Code
PyCharm Professional
IntelliJ IDEA Ultimate

Visual Studio Code Marketplace から YAML 拡張機能をインストールするなどして、YAML 言語サーバーのサポートを Visual Studio Code に追加します。
Databricks CLI を使用して bundle schema コマンドを実行し、出力を JSON ファイルにリダイレクトすることで、Databricks Asset Bundle 構成 JSON スキーマファイルを生成します。たとえば、次のように、現在のディレクトリに bundle_config_schema.json という名前のファイルを生成します。
Bash
```
databricks bundle schema > bundle_config_schema.json
```
ステップ 4 では、バンドル設定ファイルの先頭に次のコメントを追加し、バンドル設定ファイルを指定した JSON スキーマファイルに関連付けます。
YAML
```
# yaml-language-server: $schema=bundle_config_schema.json
```

注記

前のコメントで、Databricks Asset Bundle 構成 JSON スキーマファイルが異なるパスにある場合は、 bundle_config_schema.json をスキーマファイルへの完全なパスに置き換えます。

Databricks CLI を使用して Databricks Asset Bundle 構成 JSON スキーマファイルを生成し、 bundle schema コマンドを実行し、出力を JSON ファイルにリダイレクトします。たとえば、次のように、現在のディレクトリに bundle_config_schema.json という名前のファイルを生成します。
Bash
```
databricks bundle schema > bundle_config_schema.json
```
バンドル設定 JSON スキーマファイルを認識するように PyCharm を設定し、「カスタム JSON スキーマの設定」の手順に従って JSON スキーママッピングを完了します。
ステップ4では、PyCharmを使用してバンドル設定ファイルを作成するか開きます。慣例により、このファイルの名前は databricks.ymlです。

Databricks CLI を使用して bundle schema コマンドを実行し、出力を JSON ファイルにリダイレクトすることで、Databricks Asset Bundle 構成 JSON スキーマファイルを生成します。たとえば、次のように、現在のディレクトリに bundle_config_schema.json という名前のファイルを生成します。
Bash
```
databricks bundle schema > bundle_config_schema.json
```
バンドル構成 JSON スキーマファイルを認識するように IntelliJ IDEA を構成し、「カスタム JSON スキーマの構成」の手順に従って JSON スキーママッピングを完了します。
ステップ 4 では、IntelliJ IDEA を使用してバンドル設定ファイルを作成するか、開きます。慣例により、このファイルの名前は databricks.ymlです。

ステップ 4: バンドル設定ファイルをプロジェクトに追加する

この手順では、2 つのノートブックをデプロイして実行する方法を定義します。このデモでは、Databricks ジョブを使用して最初のノートブックを実行し、次に 2 番目のノートブックを実行します。最初のノートブックがデータを保存し、2 番目のノートブックが保存されたデータをクエリするため、2 番目のノートブックが開始する前に最初のノートブックの実行を完了する必要があります。これらの目標は、プロジェクトのバンドル設定ファイルでモデル化します。

ディレクトリのルートから、バンドル設定ファイル ( databricks.ymlという名前のファイル) を作成します。
次のコードを databricks.yml ファイルに追加し、 <workspace-url> をワークスペースの URL に置き換えます (例: https://dbc-a1b2345c-d6e7.cloud.databricks.com)。この URL は、 .databrickscfg ファイル内の URL と一致する必要があります。

ヒント

最初の行は # yaml-language-serverで始まるもので、IDE がサポートしている場合にのみ必要です。詳細については、前のステップ 3 を参照してください。

YAML
# yaml-language-server: $schema=bundle_config_schema.json
bundle:
  name: baby-names

resources:
  jobs:
    retrieve-filter-baby-names-job:
      name: retrieve-filter-baby-names-job
      job_clusters:
        - job_cluster_key: common-cluster
          new_cluster:
            spark_version: 12.2.x-scala2.12
            node_type_id: i3.xlarge
            num_workers: 1
      tasks:
        - task_key: retrieve-baby-names-task
          job_cluster_key: common-cluster
          notebook_task:
            notebook_path: ./retrieve-baby-names.py
        - task_key: filter-baby-names-task
          depends_on:
            - task_key: retrieve-baby-names-task
          job_cluster_key: common-cluster
          notebook_task:
            notebook_path: ./filter-baby-names.py

targets:
  development:
    workspace:
      host: <workspace-url>

ジョブをカスタマイズする場合、ジョブ宣言のマッピングは、リファレンスのPOST /api/2.1/job/create に記載されているように、ジョブ作成操作のリクエストペイロード (YAML 形式で表される)RESTAPI に対応します。

ヒント

「ターゲット設定によるオーバーライド」で説明されている手法を使用して、バンドル内の新しいジョブクラスターの設定を定義、結合、オーバーライドできます。

ステップ 5: プロジェクトのバンドル設定ファイルを検証する

この手順では、バンドル構成が有効かどうかを確認します。

Databricks CLI を使用して、次のように bundle validate コマンドを実行します。
Bash
```
databricks bundle validate
```
バンドル構成のサマリーが返された場合、検証は成功しています。エラーが返された場合は、エラーを修正し、この手順を繰り返します。

この手順の後にバンドルに変更を加えた場合は、この手順を繰り返して、バンドル構成がまだ有効かどうかを確認する必要があります。

手順 6: ローカルプロジェクトをリモートワークスペースにデプロイする

この手順では、2 つのローカルノートブックをリモート Databricks ワークスペースにデプロイし、ワークスペースに Databricks ジョブを作成します。

Databricks CLI を使用して、次のように bundle deploy コマンドを実行します。
Bash
```
databricks bundle deploy -t development
```
2つのローカルノートブックがデプロイされたかどうかを確認する: Databricks ワークスペースのサイドバーで、[ ワークスペース ]をクリックします。
「Users 」> <your-username> > > baby-names > development > files フォルダをクリックします。2 つのノートブックは、このフォルダーにある必要があります。
ジョブが作成されたかどうかを確認する: Databricks ワークスペースのサイドバーで、 [ジョブとパイプライン] をクリックします。
必要に応じて、[ ジョブ ] と [自分が所有] フィルターを選択します。
「retrieve-filter-baby-names-job 」をクリックします。
「タスク」 タブをクリックします。 retrieve-baby-names-task と filter-baby-names-task の 2 つのタスクが必要です。

この手順の後にバンドルに変更を加えた場合は、手順 6 から 7 を繰り返して、バンドル構成がまだ有効かどうかを確認してから、プロジェクトを再デプロイする必要があります。

ステップ 7: デプロイされたプロジェクトを実行する

この手順では、ワークスペースで Databricks ジョブを実行します。

Databricks CLI を使用して、次のように bundle run コマンドを実行します。
Bash
```
databricks bundle run -t development retrieve-filter-baby-names-job
```
ターミナルに表示される Run URL の値をコピーし、この値を Web ブラウザーに貼り付けて Databricks ワークスペースを開きます。
Databricksワークスペースで、2 つのタスクが正常に完了し、緑色のタイトルバーが表示されたら、 filter-baby-names-task タスクをクリックしてクエリ結果を表示します。

この手順の後にバンドルに変更を加えた場合は、手順 6 から 8 を繰り返して、バンドル構成がまだ有効かどうかを確認し、プロジェクトを再デプロイして、再デプロイされたプロジェクトを実行する必要があります。

ステップ 8: クリーンアップ

この手順では、デプロイされた 2 つのノートブックとジョブをワークスペースから削除します。

Databricks CLI を使用して、次のように bundle destroy コマンドを実行します。
Bash
```
databricks bundle destroy
```
ジョブの削除要求を確認する: リソースを完全に破棄するように求められたら、「 y 」と入力して Enterキーを押します。
ノートブックの削除要求を確認する: 以前にデプロイしたフォルダーとそのすべてのファイルを完全に破棄するように求められたら、「 y 」と入力して Enterキーを押します。

bundle destroyコマンドを実行すると、デプロイされたジョブと、デプロイされた 2 つのノートブックを含むフォルダーのみが削除されます。このコマンドでは、最初のノートブックで作成した babynames.csv ファイルなどの副作用は削除されません。 babybnames.csvファイルを削除するには、次の操作を行います。

Databricks ワークスペースのサイドバーで、 [カタログ] をクリックします。
[DBFS の参照 ] をクリックします。
FileStoreフォルダをクリックします 。
babynames.csv の横にあるドロップダウン矢印をクリックします。をクリックし、[ 削除 ] をクリックします。
開発マシンからバンドルも削除する場合は、ステップ 1 からローカルディレクトリを削除できます。

必要条件​

ステップ 1: バンドルを作成する​

ステップ 2: ノートブックをプロジェクトに追加する​

ステップ3：バンドル設定スキーマファイルをプロジェクトに追加する​

ステップ 4: バンドル設定ファイルをプロジェクトに追加する​

ステップ 5: プロジェクトのバンドル設定ファイルを検証する​

手順 6: ローカル プロジェクトをリモート ワークスペースにデプロイする​

ステップ 7: デプロイされたプロジェクトを実行する​

ステップ 8: クリーンアップ​