大数据集群性能基准测试（Benchmark）方法：TPC-DS/TPC-H

Question

在大数据平台上线或升级后，如何进行性能基准测试？请解释TPC-DS和TPC-H两种标准测试集的区别、测试数据集生成方法（dsdgen/dbgen）、关键性能指标（查询响应时间/吞吐量/资源利用率）、以及如何解读测试结果进行性能对比。给出一个在Spark/Hive上运行TPC-DS测试的完整流程示例。。大数据 面试题。...

我是大山 · Accepted Answer

大数据基准测试（TPC-DS/TPC-H）： 1. TPC-DS vs TPC-H： | 特性 | TPC-DS | TPC-H | |------|--------|-------| | 场景 | 决策支持系统 | Oracle/DB2时代标准 | | 表数 | 24张表（7事实+17维度）| 8张表 | | 查询数 | 99个复杂的SQL | 22个SQL | | 数据倾斜 | ✅ 模拟真实业务倾斜 | ❌ 均匀分布 | | SQL复杂度 | 高（多层子查询/Windowing/ROLLUP）| 中等 | | 适用 | 现代OLAP引擎（Spark/Flink/ClickHouse）| 传统数据库 | 2. 数据生成： # TPC-DS数据生成 # 下载tpcds-kit wget https://github.com/databricks/tpcds-kit/archive/refs/tags/v1.8.0.tar.gz cd tpcds-kit/tools # 生成100GB数据（Scale Factor=100） ./dsdgen -SCALE 100 -DIR /data...

大数据集群性能基准测试（Benchmark）方法：TPC-DS/TPC-H

回答

我是大山