メインコンテンツまでスキップ

ジョブのノートブック タスク

ノートブック タスクを使用して、 Databricks ノートブックをデプロイします。

ノートブック タスクを構成する

開始する前に、ジョブを構成するユーザーがアクセスできる場所にノートブックを用意する必要があります。

注記

ジョブ UI には、他の構成済み設定に基づいてオプションが動的に表示されます。

フローを開始して Notebook タスクを設定するには:

  1. ジョブUIの 「タスク 」タブに移動します。
  2. 「タイプ 」ドロップダウンメニューで、「Notebook」を選択します。

ソースを構成する

[ ソース ] ドロップダウン メニューで、次のいずれかのオプションを使用して Python スクリプトの場所を選択します。

ワークスペース

ワークスペース を使用して、ワークスペースに格納されたノートブックを構成するには、次の手順を実行します。

  1. [パス ] フィールドをクリックします。 「ノートブックの選択」 ダイアログが表示されます。
  2. ノートブックを参照し、ファイルをクリックして強調表示し、[ 確認] をクリックします。
注記

このオプションを使用して、Databricks Git フォルダーに格納されているノートブックのタスクを構成できます。 Databricks では、 Git プロバイダー オプションとリモート Git リポジトリを使用して、ジョブでスケジュールされたアセットのバージョン管理を行うことをお勧めします。

Git プロバイダー

Git プロバイダー を使用して、リモート Git リポジトリでノートブックを構成します。

UI に表示されるオプションは、他の場所で Git プロバイダーを既に構成しているかどうかによって異なります。 1 つのジョブ内のすべてのタスクに使用できるリモート Git リポジトリは 1 つだけです。 「ジョブでの Git の使用」を参照してください。

important

Databricks ジョブによって作成され、リモート Git リポジトリから実行されるノートブックはエフェメラルであり、MLflow実行、エクスペリメント、またはモデルの追跡に頼ることはできません。ジョブからノートブックを作成する場合は、トラッキング コードを実行する前に、ワークスペース エクスペリメントMLflow MLflow(エクスペリメントmlflow.set_experiment("/path/to/experiment") ノートブック (エクスペリメント)) を使用し、ワークスペース ノートブックでMLflow を呼び出します。詳細については、「MLflow エクスペリメントでデータ損失を防ぐ」を参照してください。

[パス ] フィールドは、git 参照を設定した後に表示されます。

ノートブックの相対パス ( etl/bronze/ingest.pyなど) を入力します。

important

相対パスを入力するときは、 /./で始めないでください。 たとえば、アクセスするノートブックの絶対パスが /etl/bronze/ingest.pyの場合は、[ パス ] フィールドに「etl/bronze/ingest.py」と入力します。

コンピュートライブラリと依存ライブラリの構成

  1. コンピュート を使用して、ノートブックのロジックをサポートするクラスターを選択または構成します。
  2. Serverlessコンピュートを使用する場合は、[ 環境とライブラリ ] フィールドを使用して、新しい環境を選択、編集、または追加します。「ノートブックの依存関係のインストール」を参照してください。
  3. 他のすべてのコンピュート設定については、[ Dependent Library] の下の [+ Add ] をクリックします。 「依存ライブラリの追加 」ダイアログが表示されます。
    • 既存のライブラリを選択するか、新しいライブラリをアップロードできます。
    • コンピュートの設定でサポートされている場所に保存されたライブラリのみを使用できます。 Python ライブラリのサポートを参照してください。
    • ライブラリ ソース には、ライブラリを選択またはアップロードするための異なるフローがあります。 「ライブラリ」を参照してください。

ジョブ構成の最終処理

  1. (オプション) パラメーター は、ノートブックで dbutils.widgetsを使用してアクセスできるキーと値のペアとして構成します。 Configure タスク パラメーターを参照してください。
  2. [タスクの保存 ] をクリックします。

制限

ノートブック・セルの合計出力(すべてのノートブック・セルの合計出力)には、20MBのサイズ制限が適用されます。さらに、個々のセル出力には8MBのサイズ制限が適用されます。セル出力の合計サイズが20MBを超える場合、または個々のセルの出力が8MBを超える場合、実行はキャンセルされ、失敗としてマークされます。

限界に近いセルや限界を超えているセルを見つけたい場合は、万能クラスタに対してノートブックを実行し、このノートブック自動保存テクニックを使用してください。