应用程序性能的基准和基准之间的差异答案

【问题标题】：difference between baseline and benchmark in performance of an application应用程序性能的基准和基准之间的差异
【发布时间】：2008-12-06 21:21:45
【问题描述】：

什么是基线，什么是基准？这些的最佳定义是什么？您如何对一组数字进行基准测试并以另一组为基准？

【问题讨论】：

标签： performance definition

【解决方案1】：

来自SPR（软件生产力研究）的有趣定义

基线和基准是相似但不同的活动。

形象地说，基线是组织的“沙中线”，用于衡量重要的绩效特征以供将来参考。

这不一定是“好”状态，只是一个参考。

最好通过单词本身的原始派生来理解基准：

从事重复性工作（例如将木材锯成一致长度）的商人经常在工作台上放置槽口，以指示在切割之前放置木板。从字面上看，基准成为比较的标准和过去成功的指标。

基本上：

基线是关于重要状态的识别，这意味着您的一组数字达到了批准状态，公开认可。
基准测试是关于评估应用程序的相对性能。

【讨论】：

【解决方案2】：

嗨 Gagneet，我是 Windows 性能团队的一员：以下是我们使用这些术语的方式。

基线是对已知配置的测量，用作后续测量的参考。对于基线，我们描述了被测量的东西：让我们以冷启动时间为例。在这里，我们有一组具有良好特征的机器——这意味着我们知道它们是如何工作的，我们为它们提供了良好的驱动程序，并且硬件没有损坏或有缺陷。

在此硬件上，我们有几个“基线”测量，例如 XP-RTM、XP-SP2、Vista-RTM、Vista-SP1、Vista-SP2 等。

对于这些基线中的每一个，我们都有一组特征明确且易于理解的测量值，包括启动的所有阶段、CPU 数量、磁盘和内存利用率、DLL 加载次数等。

建立基线后，我们可以进行其他测量并将它们与基线进行比较。例如，我们目前正在处理Window-7。对于每个构建（每天），我们都会运行一组启动时间测试。我们将每个 Win-7 版本的所有特征与基线测量值进行比较。这包括所有以前的 Win-7 版本。这让我们可以看到差异所在，并帮助我们深入研究问题区域。 Here are some more details.

【讨论】：

不客气 - 我正试图从我们的 WIn-7 工作中解脱出来，以便我可以在博客上写更多的工具。我们即将发布新版本。

【解决方案3】：

在科学研究中，基准是一种测试，基线是一种结果。

让我们看一个基准测试示例：我们可能会收集 5,000 个英语句子，并使用实验室的四核戴尔机器使用各种算法将它们翻译成西班牙语。因为我们保持数据和机器不变，所以我们可以有意义地比较不同算法完成任务所花费的时间，以及它们的相对准确性（根据黄金标准的人工翻译来衡量）。

为了找到这个基准测试的基线，我们可能会编写一个非常简单的翻译算法，它只为每个单词找到最常见的翻译，而不考虑上下文。根据我们的人工翻译测量该算法的准确性，让我们了解其他人必须超过的最低分数（基线），并让我们了解什么水平的准确性才算“好”。

在基准线的另一端，上限也是一个有用的衡量标准。在翻译示例中，我们可以通过测量我们的人工翻译之一相对于其他翻译的准确性来找到上限。这让我们知道在你达到人类分歧的天花板之前，我们的“准确性”衡量标准有多高。我们希望我们的机器翻译算法的性能介于基线和上限之间。

【讨论】：

【解决方案4】：

如果我错了，请纠正我，但我认为“基线”是指已知的良好状态，而“基准”是指当前状态。您将进行基准测试并将其与基线进行比较。

【讨论】：