メインコンテンツまでスキップ

チュートリアル: Python をクラスター上およびジョブとして実行 Databricks 拡張機能 for Visual Studio Code

このチュートリアルでは、Visual Studio Code の 拡張機能を設定し、DatabricksPython DatabricksクラスターでDatabricks を実行し、リモート ワークスペースで ジョブとして実行する方法について説明します。「Visual Studio Code の Databricks 拡張機能とは」を参照してください。

必要条件

このチュートリアルでは、次のことが必要です。

  • Visual Studio Code 用の Databricks 拡張機能をインストールしました。 「Visual Studio Code の Databricks 拡張機能のインストール」を参照してください。
  • 使用するリモート Databricks クラスターがあります。 クラスターの名前をメモします。 利用可能なクラスターを表示するには、 Databricks ワークスペースのサイドバーで[ コンピュート ]をクリックします。 コンピュートを参照してください。

手順 1: 新しい Databricks プロジェクトを作成する

この手順では、新しい Databricks プロジェクトを作成し、リモート Databricks ワークスペースとの接続を構成します。

  1. Visual Studio Code を起動し、[ファイル] > [フォルダーを開く ] をクリックして、ローカルの開発マシンで空のフォルダーを開きます。
  2. サイドバーで、 Databricks のロゴアイコンをクリックします。 これにより、Databricks 拡張機能が開きます。
  3. 「Configuration 」ビューで、「 Create configuration 」をクリックします。
  4. Databricks ワークスペースを構成するための コマンド パレット が開きます。 [Databricks Host ] で、ワークスペース インスタンスの URL (https://1234567890123456.7.gcp.databricks.comなど) を入力または選択します。
  5. プロジェクトの認証プロファイルを選択します。 「Visual Studio Code の Databricks 拡張機能の承認を設定する」を参照してください。

手順 2: クラスター情報を Databricks 拡張機能に追加し、クラスターを開始する

  1. [Configuration ] ビューがすでに開いている状態で、[ Select a clustering ] をクリックするか、歯車 ( [Configure clustering ]) アイコンをクリックします。

    クラスターの構成

  2. コマンド パレット で、前に作成したクラスターの名前を選択します。

  3. 再生アイコン( Start クラスター )がまだ開始されていない場合は、クリックします。

ステップ 3: Python コードを作成して実行する

  1. ローカルのPythonコードファイルを作成する:サイドバーで、フォルダ( エクスプローラー )アイコンをクリックします。

  2. メイン メニューで、[ ファイル] > [新しいファイル ] をクリックし、Python ファイルを選択します。 ファイルに demo.py という名前を付け、プロジェクトのルートに保存します。

  3. 以下のコードをファイルに追加し、保存します。このコードは、基本的なPySparkデータフレームを作成し、その内容を表示するコードです。

    Python
    from pyspark.sql import SparkSession
    from pyspark.sql.types import *

    spark = SparkSession.builder.getOrCreate()

    schema = StructType([
    StructField('CustomerID', IntegerType(), False),
    StructField('FirstName', StringType(), False),
    StructField('LastName', StringType(), False)
    ])

    data = [
    [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
    [ 1001, 'Joost', 'van Brunswijk' ],
    [ 1002, 'Stan', 'Bokenkamp' ]
    ]

    customers = spark.createDataFrame(data, schema)
    customers.show()
    Output
    # +----------+---------+-------------------+
    # |CustomerID|FirstName| LastName|
    # +----------+---------+-------------------+
    # | 1000| Mathijs|Oosterhout-Rijntjes|
    # | 1001| Joost| van Brunswijk|
    # | 1002| Stan| Bokenkamp|
    # +----------+---------+-------------------+
  4. エディター タブの一覧の横にある [Databricks で実行 ] アイコンをクリックし、[ ファイルのアップロードと実行 ] をクリックします。 出力が [Debug Console ] ビューに表示されます。

    アイコンからファイルをアップロードして実行する

    または、[ エクスプローラー ] ビューで demo.py ファイルを右クリックし、[ Databricks で実行 ] > [ファイルのアップロードと実行 ] をクリックします。

    コンテキストメニューからのファイルのアップロードと実行

ステップ 4: コードをジョブとして実行する

demo.py をジョブとして実行するには、エディタ タブのリストの横にある [実行] アイコン Databricks をクリックし、[ ワークフローとしてファイルを実行 ] をクリックします。出力は、 demo.py ファイルエディタの横にある別のエディタタブに表示されます。

アイコンからファイルをワークフローとして実行

または、[ エクスプローラー ] パネルで demo.py ファイルを右クリックし、[ Databricks で実行 ] > [ファイルをワークフローとして実行 ] を選択します。

コンテキストメニューからワークフローとしてファイルを実行する

次のステップ

Visual Studio Code の Databricks 拡張機能を正常に使用してローカルの Python ファイルをアップロードし、リモートで実行したので、次の操作も実行できます。