Spark の DAG におけるコストの高い読み取りの特定
DAGへのアクセス
高価なジョブを検討していると仮定すると、まず読み取りを実行しているステージの ID が必要です。 ここでは、ステージ ID が 194 であることがわかります。
![ステージ ID](../../_images/stage-id.png)
ここで、SQL DAG にアクセスする必要があります。 ジョブのページの上部までスクロールし、関連付けられた SQL クエリをクリックします。
![SQL](../../_images/stage-to-sql.png)
これで DAG が表示されます。 そうでない場合は、少しスクロールすると表示されます。
![SQLの](../../_images/sql-dag.png)
場合によっては、DAG をたどって、データがどこから来ているかを確認できます。 それ以外の場合は、メモしたステージ ID を探します。
![DAG の SQL ステージ](../../_images/stage-in-dag.png)
次に、「スキャン」ノードを探す必要があります。 この場合、 transactions
という名前のテーブルを読み取っていることを伝えるのは非常に簡単です。
![DAGでスキャン](../../_images/scan-node.png)
場合によっては、ノードをクリックまたはロールオーバーして、読み取っているデータの場所を取得する必要があります。