メインコンテンツまでスキップ

ジョブのノートブック タスク

ノートブック タスクを使用して、 Databricks ノートブックをデプロイします。

ノートブック タスクを構成する

開始する前に、ジョブを構成するユーザーがアクセスできる場所にノートブックを用意する必要があります。

注記

ジョブ UI には、他の構成済み設定に基づいてオプションが動的に表示されます。

フローを開始して Notebook タスクを設定するには:

  1. ジョブUIの タスク タブに移動します。
  2. タイプ ドロップダウンメニューで、「Notebook」を選択します。

ソースを構成する

[ ソース ] ドロップダウン メニューで、次のいずれかのオプションを使用して Python スクリプトの場所を選択します。

ワークスペース

ワークスペース を使用して、ワークスペースに格納されたノートブックを構成するには、次の手順を実行します。

  1. パス フィールドをクリックします。 「ノートブックの選択」 ダイアログが表示されます。
  2. ノートブックを参照し、ファイルをクリックして強調表示し、 確認 をクリックします。
注記

このオプションを使用して、Databricks Git フォルダーに格納されているノートブックのタスクを構成できます。 Databricks では、 Git プロバイダー オプションとリモート Git リポジトリを使用して、ジョブでスケジュールされたアセットのバージョン管理を行うことをお勧めします。

Git プロバイダー

Git プロバイダー を使用して、リモート Git リポジトリでノートブックを構成します。

UI に表示されるオプションは、他の場所で Git プロバイダーを既に構成しているかどうかによって異なります。 1 つのジョブ内のすべてのタスクに使用できるリモート Git リポジトリは 1 つだけです。 ジョブでの Git の使用を参照してください。

important

Databricks ジョブによって作成され、リモート Git リポジトリから実行されるノートブックは揮発性のものであり、MLflowラン、エクスペリメント、またはモデルトラッキングで利用することはできません。ジョブからノートブックを作成する場合は、(ノートブックMLflowエクスペリメントではなく)ワークスペースMLflowエクスペリメントを使用し、いかなるMLflowトラッキングコードを実行する前に、ワークスペースノートブックでmlflow.set_experiment("/path/to/experiment")を呼び出します。詳細については、「MLflow エクスペリメントでデータ損失を防ぐ」を参照してください。

パス フィールドは、git 参照を設定した後に表示されます。

ノートブックの相対パス ( etl/bronze/ingest.pyなど) を入力します。

important

相対パスを入力するときは、 /./で始めないでください。 たとえば、アクセスするノートブックの絶対パスが /etl/bronze/ingest.pyの場合は、[ パス ] フィールドに「etl/bronze/ingest.py」と入力します。

コンピュートライブラリと依存ライブラリの構成

  1. コンピュート を使用して、ノートブックのロジックをサポートするクラスターを選択または構成します。
  2. Serverlessコンピュートを使用する場合は、[ 環境とライブラリ ] フィールドを使用して、新しい環境を選択、編集、または追加します。サーバレス環境の設定を参照してください。
  3. 他のすべてのコンピュート設定については、 依存ライブラリ の下の + 追加 をクリックします。 依存ライブラリの追加 ダイアログが表示されます。
    • 既存のライブラリを選択するか、新しいライブラリをアップロードできます。
    • コンピュートの設定でサポートされている場所に保存されたライブラリのみを使用できます。 Python ライブラリのサポートを参照してください。
    • ライブラリ ソース には、ライブラリを選択またはアップロードするための異なるフローがあります。 ライブラリを参照してください。

ジョブ構成の最終処理

  1. (オプション) パラメーター は、ノートブックで dbutils.widgetsを使用してアクセスできるキーと値のペアとして構成します。 タスク パラメーターの設定を参照してください。
  2. タスクの保存 をクリックします。

制限

ノートブック・セルの合計出力(すべてのノートブック・セルの合計出力)には、20MBのサイズ制限が適用されます。さらに、個々のセル出力には8MBのサイズ制限が適用されます。セル出力の合計サイズが20MBを超える場合、または個々のセルの出力が8MBを超える場合、実行はキャンセルされ、失敗としてマークされます。

限界に近いセルや限界を超えているセルを見つけたい場合は、All Purposeクラスタでノートブックを実行し、このノートブック自動保存テクニックを使用してください。