Databricks タスクの構成と編集
この記事では、 ワークフロー ワークスペース UI を使用してタスクを作成、構成、編集する手順に焦点を当てています。
Databricks は、タスクを Databricks ジョブのコンポーネントとして管理します。 ジョブには 1 つ以上のタスクがあります。 ワークスペース UI で新しいジョブを作成するには、最初のタスクを構成します。 新しいジョブを構成するには、「 Databricks ジョブの構成と編集」を参照してください。
各タスクには、タスク ロジックを実行するコンピュート リソースが関連付けられています。 サーバレスを使用している場合は、 Databricks がコンピュート リソースを設定します。 サーバレスを使用していない場合は、 ジョブのコンピュートの設定を参照してください。
Databricks には、次のようなタスク構成のための他のエントリ ポイントとツールがあります。
タスクを作成または構成する
ワークスペースUIを使用して既存のタスクを編集したり、新しいタスクを追加したりするには、次の手順を使用して既存のジョブを選択します。
サイドバーの[ワークフロー]をクリックします。
「名前」列で、ジョブ名をクリックします。
「タスク」タブをクリックします。タスクグラフが表示されます。
タスクを編集するには、タスク名をクリックします。 タスク設定は、タスクグラフの下に表示されます。
タスクを追加するには、 をクリックします 。
タスクをクローンする
クローンタスクは、アップストリームの依存関係を含む、既存のタスクのすべての設定をコピーします。
タスクをクローンするには、次の操作を行います。
タスクグラフでタスクを選択します。
をクリックします 。
クローンタスクの名前を指定し、[クローン]をクリックします。
タスクパスをコピーする
ノートブックタスクなどの特定のタスクタイプでは、タスクソースコードへのパスをコピーできます。
「タスク」タブをクリックします。
コピーするパスを含むタスクを選択します。
タスクパスの横にある をクリックして 、パスをクリップボードにコピーします。
タスクの詳細設定
次の詳細設定は、失敗したタスクの再試行と、応答しないタスクのタイムアウトポリシーを制御します。
注:
通知は、タスクレベルまたはジョブレベルで設定できます。 ジョブイベントのEメール通知とシステム通知の追加を参照してください。
再試行ポリシーを設定する
タスクの再試行のデフォルト設定は、ジョブの構成によって異なります。 ほとんどの構成では、デフォルト設定では、タスクの失敗時にタスクを再試行しません。
サーバレス ジョブ auto-optimize retries by デフォルト. 再試行を禁止するためのサーバレス コンピュート自動最適化の設定を参照してください。
連続ジョブでは、指数バックオフ再試行ポリシーが使用されます。 「連続ジョブの障害はどのように処理されますか?」を参照してください。
失敗したタスクの実行を再試行するタイミングと回数を決定するポリシーを設定するには、[再試行] の横にある [+ 追加] をクリックします。
再試行間隔は、失敗した実行の開始とその後の再試行実行との間のミリ秒単位で計算されます。
注:
タイムアウトと再試行の両方を設定すると、タイムアウトは各再試行に適用されます。
タスクの予想完了時間またはタイムアウトを構成する
タスクの任意の期間しきい値 (予想完了時間や最大完了時間など) を構成できます。 期間のしきい値を設定するには、[ 期間のしきい値] をクリックします。
「警告」フィールドに期間を入力して、タスクの予想完了時間を設定します。タスクがこのしきい値を超えると、イベントがトリガーされます。 このイベントを使用して、タスクの実行が遅いときに通知できます。 「 実行速度の遅いジョブまたは遅延したジョブの通知を構成する」を参照してください。
タスクの最大完了時間を設定するには、[ タイムアウト ] フィールドに最大時間を入力します。 この時間内にタスクが完了しない場合、Databricks はそのステータスを「タイムアウト」に設定します。