サーバレスコンピュートのベストプラクティス

この記事では、ノートブックとジョブでサーバレスコンピュートを使用するためのベストプラクティスの推奨事項を示します。

これらの推奨事項に従うことで、Databricks 上のワークロードの生産性、コスト効率、信頼性を向上させることができます。

サーバレスコンピュートへのワークロードの移行

共有サーバレスコンピュート環境でユーザーコードを確実に分離するために、 Databricks Lakeguardを利用してユーザーコードをSparkエンジンおよび他のユーザーから分離します。

このため、一部のワークロードでは、サーバレスコンピュートの作業を継続するためにコードの変更が必要になります。制限事項のリストについては、「サーバレスコンピュートの制限事項」を参照してください。

特定のワークロードは、他のワークロードよりも移行が容易です。次の要件を満たすワークロードは、最も簡単に移行できます。

アクセスするデータは、Unity Catalog に保存する必要があります。
ワークロードは標準のコンピュートと互換性がある必要があります。
ワークロードは、Databricks Runtime 14.3 以降と互換性がある必要があります。

ワークロードがサーバーレスコンピュートで動作するかどうかをテストするには、標準アクセスモードとDatabricks Runtime 14.3 以降を使用して、クラシックコンピュートリソースでワークロードを実行します。実行が成功した場合、ワークロードは移行の準備が整います。

多くの古いワークロードはシームレスに移行しません。Databricks 、すべてを再コーディングするのではなく、新しいワークロードを作成するときに、サーバーレスコンピュートの互換性を優先することをお勧めします。

Python パッケージのバージョンを指定する

サーバレスコンピュートに移行する場合は、 Pythonパッケージを特定のバージョンにピン留めして、再現可能な環境を確保します。バージョンを指定しないと、パッケージはサーバーレス環境のバージョンに基づいて異なるバージョンに解決される可能性があり、新しいパッケージのインストールが必要になるため、待ち時間が長くなる可能性があります。

たとえば、 requirements.txtファイルには次のように特定のパッケージバージョンを含める必要があります。

Text
numpy==2.2.2
pandas==2.2.3

サーバレス環境のバージョン

サーバーレスコンピュートは、従来のDatabricks Runtimeバージョンの代わりに環境バージョンを使用します。これは、ワークロードの互換性を管理する方法の変化を表しています。

Databricks Runtime アプローチ : ワークロードに特定の Databricks Runtime バージョンを選択し、互換性を維持するためにアップグレードを手動で管理します。
サーバーレスアプローチ : 環境バージョンに対してコードを記述し、 Databricks基盤となるサーバーを個別にアップグレードします。

環境バージョンでは、ワークロードの互換性が維持される安定したクライアント API が提供され、ワークロードのコード変更を必要とせずに、Databricks がパフォーマンスの向上、セキュリティの強化、バグ修正を独自に提供します。

各環境バージョンには、ワークロードの下位互換性を維持しながら、更新されたシステムライブラリ、機能、バグ修正が含まれています。Databricks は、各環境バージョンのリリース日から 3 年間サポートし、アップグレードを計画するための予測可能なライフサイクルを提供します。

サーバーレスワークロードの環境バージョンを選択するには、「基本環境の選択」を参照してください。使用可能な環境バージョンとその機能の詳細については、「サーバレス環境バージョン」を参照してください。

外部システムからのデータの取り込み

サーバレスコンピュートは JAR ファイルのインストールをサポートしていないため、 JDBC ドライバや ODBC ドライバを使用して外部データソースからデータを取り込むことはできません。

データ取り込みに使用できる別の戦略には、次のものがあります。

COPY INTOやストリーミングテーブルなどのSQLベースのビルディングブロック。
Auto Loader 、新しいデータファイルがクラウドストレージに到着したときに、段階的かつ効率的に処理できます。「Auto Loaderとは」を参照してください。
データ取り込みパートナーソリューション。Partner Connect を使用してインジェストパートナーに接続するを参照してください。
ファイルを直接アップロードするためのデータ追加 UI。「Databricks へのファイルのアップロード」を参照してください。

インジェストの代替手段

サーバレスコンピュートを使用する場合、次の機能を使ってデータを移動せずにクエリを実行することもできます。

データの重複を制限したい場合、または可能な限り最新のデータをクエリしていることを保証する場合、Databricks では Delta Sharing を使用することをお勧めします。「Delta Sharing とは」を参照してください。
アドホックなレポート作成や概念実証の作業を行いたい場合は、 Databricks は正しい選択、つまりレイクハウスフェデレーションを試すことをお勧めします。レイクハウスフェデレーションは、データベース全体を外部システムから Databricks に同期することを可能にし、 Unity Catalogによって管理されます。「レイクハウスフェデレーションとは」を参照してください。

これらの機能の 1 つまたは両方を試して、クエリのパフォーマンス要件を満たしているかどうかを確認してください。

サポートされている Spark 構成

サーバレスコンピュートでの Spark の設定を自動化するために、 Databricks ではほとんどの Spark 設定を手動で設定するためのサポートを削除しました。サポートされている Spark 設定パラメータのリストを表示するには、サーバレスノートブックおよびジョブの Spark プロパティの設定を参照してください。

サーバレスコンピュートでのジョブ実行は、サポートされていない Spark 設定を設定すると失敗します。

サーバレスコンピュートのコストを監視する

サーバレスコンピュートのコストを監視するために使用できる機能は複数あります。

サーバレスコンピュートの使用状況を特定するには、サーバレス予算ポリシーを使用します。
システムテーブルを使用して、ダッシュボードの作成、アラートの設定、アドホッククエリの実行を行います。サーバレスコンピュートのコストの監視を参照してください。
アカウントで予算アラートを設定します。「予算の作成と監視」を参照してください。
事前設定された使用状況ダッシュボードをインポートします。使用状況ダッシュボードのインポートを参照してください。

サーバレス コンピュートへのワークロードの移行​

Python パッケージのバージョンを指定する​

サーバレス環境のバージョン​

外部システムからのデータの取り込み​

インジェストの代替手段​

サポートされている Spark 構成​

サーバレス コンピュートのコストを監視する​