ジョブのノートブック タスク
ノートブック タスクを使用して、 Databricks ノートブックをデプロイします。
ノートブック タスクを構成する
開始する前に、ジョブを構成するユーザーがアクセスできる場所にノートブックを用意する必要があります。
ジョブ UI には、他の構成済み設定に基づいてオプションが動的に表示されます。
フローを開始して Notebook
タスクを設定するには:
- ジョブUIの タスク タブに移動します。
- タイプ ドロップダウンメニューで、「
Notebook
」を選択します。
ソースを構成する
[ ソース ] ドロップダウン メニューで、次のいずれかのオプションを使用して Python スクリプトの場所を選択します。
ワークスペース
ワークスペース を使用して、ワークスペースに格納されたノートブックを構成するには、次の手順を実行します。
- パス フィールドをクリックします。 「ノートブックの選択」 ダイアログが表示されます。
- ノートブックを参照し、ファイルをクリックして強調表示し、 確認 をクリックします。
このオプションを使用して、Databricks Git フォルダーに格納されているノートブックのタスクを構成できます。 Databricks では、 Git プロバイダー オプションとリモート Git リポジトリを使用して、ジョブでスケジュールされたアセットのバージョン管理を行うことをお勧めします。
Git プロバイダー
Git プロバイダー を使用して、リモート Git リポジトリでノートブックを構成します。
UI に表示されるオプションは、他の場所で Git プロバイダーを既に構成しているかどうかによって異なります。 1 つのジョブ内のすべてのタスクに使用できるリモート Git リポジトリは 1 つだけです。 ジョブでの Git の使用を参照してください。
Databricks ジョブによって作成され、リモート Git リポジトリから実行されるノートブックは揮発性のものであり、MLflowラン、エクスペリメント、またはモデルトラッキングで利用することはできません。ジョブからノートブックを作成する場合は、(ノートブックMLflowエクスペリメントではなく)ワークスペースMLflowエクスペリメントを使用し、いかなるMLflowトラッキングコードを実行する前に、ワークスペースノートブックでmlflow.set_experiment("/path/to/experiment")
を呼び出します。詳細については、「MLflow エクスペリメントでデータ損失を防ぐ」を参照してください。
パス フィールドは、git 参照を設定した後に表示されます。
ノートブックの相対パス ( etl/bronze/ingest.py
など) を入力します。
相対パスを入力するときは、 /
や ./
で始めないでください。 たとえば、アクセスするノートブックの絶対パスが /etl/bronze/ingest.py
の場合は、[ パス ] フィールドに「etl/bronze/ingest.py
」と入力します。
コンピュートライブラリと依存ライブラリの構成
- コンピュート を使用して、ノートブックのロジックをサポートするクラスターを選択または構成します。
Serverless
コンピュートを使用する場合は、[ 環境とライブラリ ] フィールドを使用して、新しい環境を選択、編集、または追加します。サーバレス環境の設定を参照してください。- 他のすべてのコンピュート設定については、 依存ライブラリ の下の + 追加 をクリックします。 依存ライブラリの追加 ダイアログが表示されます。
- 既存のライブラリを選択するか、新しいライブラリをアップロードできます。
- コンピュートの設定でサポートされている場所に保存されたライブラリのみを使用できます。 Python ライブラリのサポートを参照してください。
- 各 ライブラリ ソース には、ライブラリを選択またはアップロードするための異なるフローがあります。 ライブラリを参照してください。
ジョブ構成の最終処理
- (オプション) パラメーター は、ノートブックで
dbutils.widgets
を使用してアクセスできるキーと値のペアとして構成します。 タスク パラメーターの設定を参照してください。 - タスクの保存 をクリックします。
制限
ノートブック・セルの合計出力(すべてのノートブック・セルの合計出力)には、20MBのサイズ制限が適用されます。さらに、個々のセル出力には8MBのサイズ制限が適用されます。セル出力の合計サイズが20MBを超える場合、または個々のセルの出力が8MBを超える場合、実行はキャンセルされ、失敗としてマークされます。
限界に近いセルや限界を超えているセルを見つけたい場合は、All Purposeクラスタでノートブックを実行し、このノートブック自動保存テクニックを使用してください。