メインコンテンツまでスキップ

コンピュート作成チートシート

この記事は、コンピュートの作成に関する明確で主張のあるガイダンスを提供することを目的としています。 ワークフローに適したコンピュートタイプを使用することで、パフォーマンスを向上させ、コストを節約できます。

ベストプラクティス

インパクト

ドキュメント

ほとんどのワークロードにはサーバレス コンピュートを使用する

Databricksは、サイジング、スケーリング、インフラストラクチャを自動的に管理します。クラスター構成は必要ありません。

-サーバレスコンピュート

クラシック コンピュートの場合: 必要な機能がサポートされていない場合を除き、標準アクセス モードを使用します。

標準アクセスモードのコンピュートは、ユーザー間でデータを分離した状態で複数のユーザーが使用できます。

クラシック コンピュートの場合: Databricksを初めて使用する場合は、まず一般的な汎用インスタンス タイプを使用します。

ワークロードに適したインスタンスタイプを選択すると、効率が向上します。

クラシック コンピュートの場合: 十分な可用性がある場合は、最新世代のインスタンス タイプを使用します。

最新世代のインスタンスタイプは、最高のパフォーマンスと最新の機能を提供します。

クラシック コンピュートの場合: ワークロードをどれだけ早く実行する必要があるかに基づいて、オンデマンドとスポット インスタンスのバランスを設定します。

スポットインスタンスはコストを節約しますが、スポットインスタンスが再利用されると、オペレーションの全体的な実行時間に影響を与える可能性があります。

クラシック コンピュートの場合: ワークロードが実行する操作の種類に基づいてノードのサイズとワーカーの数を選択します。

たとえば、シャッフルが多く発生することが予想される場合は、複数の小さなノードではなく、大きな 1 つのノードを使用する方が効率的です。

クラシック コンピュートの場合: 1 ~ 4 ワーカーに自動スケーリングが設定されたクラスター上でvacuumを実行します。各ワーカーには 8 コアがあります。 8 から 32 コアのドライバーを選択します。 メモリ不足 (OOM) エラーが発生した場合は、ドライバーのサイズを増やします。

vacuum ステートメントは 2 つのフェーズで発生し、そのうちの 2 番目のフェーズはドライバーの負荷が高いフェーズです。 適切なサイズのクラスターを使用しないと、操作によって速度が低下し、成功しない可能性があります。

クラシックなコンピュートの場合: バッチ ワークフローがPhotonから恩恵を受けるかどうかを評価します

Photonは、より高速なクエリを提供し、ワークロードあたりの総コストを削減します。