使用 Scala 的 REPL 进行比较性能基准测试是否合理？答案

【问题标题】：Is it reasonable to use Scala's REPL for comparative performance benchmarks?使用 Scala 的 REPL 进行比较性能基准测试是否合理？
【发布时间】：2013-10-14 14:37:45
【问题描述】：

Scala 的 REPL 是交互式测试某些代码片段的绝佳场所。最近，我一直在使用 REPL 进行一些性能比较，以重复执行操作并比较测量挂钟时间。

这是我最近创建的一个示例，用于帮助回答 SO 问题 [1][2]：

// Figure out the perfomance difference between direct method invocation and reflection-based method.invoke

def invoke1[T,U](obj:Any, method:Method)(param:T):U = method.invoke(obj,Seq(param.asInstanceOf[java.lang.Object]):_*) match { 
    case x: java.lang.Object if x==null => null.asInstanceOf[U]
    case x => x.asInstanceOf[U]
}

def time[T](b: => T):(T, Long) = {
    val t0 = System.nanoTime()
    val res = b
    val t = System.nanoTime() - t0
    (res,t )
}

class Test {
  def op(l:Long): Long = (2 until math.sqrt(l).toInt).filter(x=>l%x==0).sum
}

val t0 = new Test

val method = classOf[Test].getMethods.find(_.getName=="op").get

def timeDiff = {
  val (timeDirectCall,res) = time { (0 to 1000000).map(x=>t0.op(x)) }
  val (timeInvoke, res2) = time { (0 to 1000000).map(x=>{val res:Long=invoke1(t0,method)(x);res}) }
  (timeInvoke-timeDirectCall).toDouble/timeDirectCall.toDouble
}


//scala> timeDiff
//res60: Double = 2.1428745665357445
//scala> timeDiff
//res61: Double = 2.1604176409796683

在另一种情况下，我一直在生成随机数据点的 MM，以比较开源项目的并发模型。 REPL 非常适合在没有代码-编译-测试循环的情况下使用不同的配置。

我知道常见的基准测试缺陷，例如 JIT 优化和预热需求。

我的问题是：

在使用时是否需要考虑任何 REPL 特定元素它执行宏观基准的比较微观？
这些测量值在相互使用时是否可靠？即他们能回答这个问题吗：A 比 B 快吗？
预先执行相同的代码是 jit 的良好热身吗编译器？
还有其他需要注意的问题吗？

[1]Scala reflection: How to pass an object's method as parameter to another method

[2]https://gist.github.com/maasg/6808879

【问题讨论】：

REPL 将你的代码包装到它自己的内环中（这样你就可以重新定义 vals/vars/functions/classes/objects 并做其他讨厌的事情）所以基本上你要测量的是编译你的代码的时间，包装它的时间，最后是由于pile of reasons而充满不同波动的实际执行时间（但你说你知道最后一个组件不可靠）。 显然这样的测量是不可靠的。
@om-nom-nom wrap & compile 基本上是一次性的，这将占一些开销，但这对于任何正在测试的选项来说都是相同的开销，因此相对分数应该仍然具有代表性，或不？例如在上面的示例中，它显示慢了大约 2 倍，这已经足够了。

标签： scala performance-testing read-eval-print-loop

【解决方案1】：

这是一个很好的问题。我无法想象为什么有人反对它。

其中一个 cmets 完全错误的事实表明 REPL 需要在 scala-lang.org 的常见问题解答或教程中占有一席之地。快速搜索后找不到描述性文件。

答案是肯定的，REPL 符合您的预期。

Here is an old page 关于为什么这个问题很有趣：REPL 感觉是动态的，但实际上是静态编译的。正如链接页面上的临时评论所说，它“跨越两个世界”。

REPL 将每一行编译成它自己的包装对象。每个这样的对象都从交互式会话的历史中导入符号，这就是代码神奇地引用到前几行的方式。一切都是编译好的，所以当它运行时，它是在 JVM 上本地运行的，可以这么说；没有额外的解释器层。这是 REPL 的杀手级设计功能。

这就是为什么您的问题的答案是肯定的，您的代码以编译代码的速度运行。调用方法不需要重新编译所有历史记录。

Here's another old link 表明其他人对计时和微基准测试有同样的问题。

目前有an open issue 可以自定义REPL 包装代码行的方式。微基准测试是一个有趣的用例，其中代码可以包装在任意框架中进行基准测试。这很快就会到来。

基准框架应该负责热身。由于提交给 REPL 的每个表达式都是单独编译的（尽管由同一个编译器编译），所以您会注意到一个方法可以在第一次被冷调用而第二次被热调用（通过 scalac 进行模内联）。

警告：

使用-Yrepl-class-based 或注意不要将计算放在包装对象的静态初始化程序中。

Here is some sample confusion 和here is the same question，不那么隐蔽。

【讨论】：

感谢您的出色回答和指点。据您所知，代码:paste'd 和逐行输入之间有区别吗？我应该更喜欢另一种方法吗？
@maasg 粘贴的代码被包装在单个对象和编译单元中（这就是必须粘贴伴随对象的原因）。在 2.11 中 :load 文件是逐行的，但 :paste 文件是吹捧的。我只是将我的 -i init.script 更改为 :load imports.script，这比编译每一行要快得多。引用一个对象需要通常的 $MODULE deref，但几乎没有性能损失。所以有一些编译时边缘情况，但在该级别的运行时没有开销。
错字：s/:load imports.script/:paste imports.script，很明显。加快 repl 启动的一种方法是将 init 的运行次数减少到一次。