メインコンテンツまでスキップ

ジョブのPythonスクリプトタスク

Python スクリプト タスクを使用して、Python ファイルを実行します。

Python スクリプト タスクの構成

開始する前に、ジョブを構成するユーザーがアクセスできる場所に Python スクリプトをアップロードする必要があります。 Databricks では、Python スクリプトにワークスペース ファイルを使用することをお勧めします。 「ワークスペースファイルとは」を参照してください。

注記

ジョブ UI には、他の構成済み設定に基づいてオプションが動的に表示されます。

Databricks では、ルートやマウントを使用してコードやデータを格納しない DBFSことをお勧めします。 代わりに、Python スクリプトをワークスペース ファイルまたはボリュームに移行したり、URI を使用してクラウド オブジェクト ストレージにアクセスしたりできます。

フローを開始して Python script タスクを設定するには:

  1. ジョブUIの 「タスク 」タブに移動します。
  2. 「タイプ 」ドロップダウンメニューで、「Python script」を選択します。

ソースを構成する

[ ソース ] ドロップダウン メニューで、次のいずれかのオプションを使用して Python スクリプトの場所を選択します。

ワークスペース

ワークスペース ファイルを使用して格納された スクリプトを構成するには、 Pythonワークスペース を使用します。

  1. [パス ] フィールドをクリックします。 [Python ファイルの選択 ] ダイアログが表示されます。
  2. Python スクリプトを参照し、ファイルをクリックしてハイライト表示し、[ 確認] をクリックします。
注記

このオプションを使用して、Databricks Git フォルダーに格納されている Python スクリプトでタスクを構成できます。 Databricks では、 Git プロバイダー オプションとリモート Git リポジトリを使用して、ジョブでスケジュールされたアセットをバージョン管理することをお勧めします。

DBFS/S3の

DBFSS3 /Python を使用して、ボリューム、クラウド オブジェクト ストレージの場所、またはDBFS ルートに格納されている スクリプトを構成します。

Databricks では、Python スクリプトを Unity Catalog ボリュームまたはクラウド オブジェクト ストレージに格納することをお勧めします。

[パス ] フィールドに、Python スクリプトの URI を入力します。たとえば、 /Volumes/path/to/script.pys3://bucket-name/path/to/script.pyなどです。

Git プロバイダー

Git プロバイダー を使用して、リモート Git リポジトリに格納されている Python スクリプトを構成します。

UI に表示されるオプションは、他の場所で Git プロバイダーを既に構成しているかどうかによって異なります。 1 つのジョブ内のすべてのタスクに使用できるリモート Git リポジトリは 1 つだけです。 「ジョブでの Git の使用」を参照してください。

[パス ] フィールドは、git 参照を設定した後に表示されます。

Python スクリプトの相対パス ( etl/bronze/ingest.pyなど) を入力します。

important

相対パスを入力するときは、 /./で始めないでください。 たとえば、アクセスする Python コードの絶対パスが /etl/bronze/ingest.pyの場合、[ パス ] フィールドに「etl/bronze/ingest.py」と入力します。

コンピュートライブラリと依存ライブラリの構成

  1. コンピュート を使用して、スクリプト内のロジックをサポートするクラスターを選択または構成します。
  2. Serverlessコンピュートを使用する場合は、[ 環境とライブラリ ] フィールドを使用して、新しい環境を選択、編集、または追加します。サーバレス環境の設定を参照してください。
  3. 他のすべてのコンピュート設定については、[ Dependent Library] の下の [+ Add ] をクリックします。 「依存ライブラリの追加 」ダイアログが表示されます。
    • 既存のライブラリを選択するか、新しいライブラリをアップロードできます。
    • コンピュートの設定でサポートされている場所に保存されたライブラリのみを使用できます。 Python ライブラリのサポートを参照してください。
    • ライブラリ ソース には、ライブラリを選択またはアップロードするための異なるフローがあります。 「ライブラリ」を参照してください。

ジョブ構成の最終処理

  1. (オプション) パラメーター CLIPythonは、 スクリプトに 引数として渡される文字列のリストとして構成します。Configure タスク パラメーターを参照してください。
  2. [タスクの保存 ] をクリックします。