TPC-DS サンプルデータセットを使用してシステムパフォーマンスを評価する
Databricks は、データウェアハウジングとアナリティクス用に構築されたシステムのパフォーマンスをテストするために広く使用されているベンチマークである TPC-DS ベンチマークデータセットへのアクセスを提供します。 データセットは、すべての Unity Catalog 対応ワークスペースで デフォルト によって 2 つのサイズで使用できます。 これらのデータセットは、現実的な小売および電子商取引のビジネス シナリオをシミュレートする標準化されたベンチマークで Databricks のパフォーマンスをテストするのに最適です。このデータセットの詳細については、 TPC-DS ベンチマーク のドキュメントを参照してください。
含まれるもの
TPC-DS データセットは、次のスキーマを使用して samples
カタログで使用できます。
tpcds_sf1
— 小規模データセット (約 1 GB)tpcds_sf1000
— 大規模なデータセット (約 1 TB)
どちらのデータセットも、次の性質を共有しています。
- 読み取り専用であり、ワークスペース内のすべてのユーザーがクエリ可能
- SQLウェアハウス、オールパーパスクラスターに対応
- 標準化されたベンチマークのためのTPC-DS仕様に従ってください
前提 条件
SQLウェアハウスまたは万能クラスターにアクセスできる必要があります。
データのプレビュー
カタログエクスプローラー UI でデータを調べるには:
- サイドバー
[ カタログ ] をクリックします。
- 検索バーに 「tpcds 」と入力します。どちらのスキーマも
samples
カタログにあります。表示するスキーマの名前をクリックします。 - [ 概要 ] タブには、スキーマ内のすべてのテーブルが一覧表示されます。テーブル名をクリックすると、そのテーブル内の列とデータ型の概要が表示されます。
- 上部のナビゲーションを使用して、テーブルの サンプルデータ または 詳細 を表示します。
データのクエリ
次のクエリでは、より小規模なデータセット tpcds_sf1
を使用します。より大きなスケールのデータセットを使用するには、スキーマ名を tpcds_sf1000
に置き換えます。サイドバー [SQL エディター ] をクリックして、SQL エディターを開きます。次に、次のクエリを使用してデータの探索を開始します。
表のプレビュー
SQL
SHOW TABLES IN samples.tpcds_sf1;
テーブルを探索する
SQL
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
サンプル結合と集計
SQL
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
ベストプラクティス
- クエリ履歴とクエリ プロファイルを使用して、パフォーマンス特性を理解し、最適化の機会を特定します。
- 初期テストのために小規模な
tpcds_sf1
データセットから始めて、包括的なパフォーマンス評価のためにtpcds_sf1000
までスケールアップします。 - さまざまな SQLウェアハウス サイズ間でクエリのパフォーマンスを比較して、ワークロードに最適な構成を決定します。
- これらの標準化されたデータセットを使用して、パフォーマンスのベースラインを確立し、時間の経過に伴う改善を追跡します。