将参数传递给 Perl 子例程时，是否会影响数据复制性能？答案

【问题标题】：Do you incur a data-copying performance hit when passing arguments to Perl subroutines?将参数传递给 Perl 子例程时，是否会影响数据复制性能？
【发布时间】：2009-06-15 21:50:32
【问题描述】：

我一直在研究几个处理大型固定宽度数据文件的 Perl 脚本，从每个数据记录中提取小的子字符串。我曾想象将提取子字符串的任务委托给方法调用会很昂贵，因为将数据记录复制到 @_ 数组会产生开销。因此，我运行以下内容来比较 (a) 直接调用 substr()，(b) 将数据记录作为字符串传递的方法调用，以及 (c) 通过引用传递数据记录的方法调用。

use strict;
use warnings;
use Benchmark qw(timethese);

my $RECORD = '0' x 50000;

my $direct = sub { my $v = substr( $RECORD, $_, 1) for 0..999 };
my $byVal  = sub { my $v = ByVal ( $RECORD, $_)    for 0..999 };
my $byRef  = sub { my $v = ByRef (\$RECORD, $_)    for 0..999 };

sub ByVal { return substr(   $_[0], $_[1], 1) }
sub ByRef { return substr(${$_[0]}, $_[1], 1) }

timethese( 10000, {
    direct    => $direct,
    byVal     => $byVal,
    byRef     => $byRef,
} );

my $byVal2loc  = sub { my $v = ByVal2loc( $RECORD, $_) for 0..999 };
my $byRef2loc  = sub { my $v = ByRef2loc(\$RECORD, $_) for 0..999 };

sub ByVal2loc { my $arg = shift; return substr(  $arg, $_[0], 1) }
sub ByRef2loc { my $arg = shift; return substr( $$arg, $_[0], 1) }

timethese( $ARGV[0], {
    byVal2loc => $byVal2loc,
    byRef2loc => $byRef2loc,
} );

# Produces this output:
Benchmark: timing 10000 iterations of byRef, byVal, direct...
     byRef: 19 wallclock secs...
     byVal: 15 wallclock secs...
    direct:  4 wallclock secs...

Benchmark: timing 10000 iterations of byRef2loc, byVal2loc...
 byRef2loc: 21 wallclock secs...
 byVal2loc: 119 wallclock secs...

不出所料，直接方法是最快的。然而，我惊讶地发现没有与我想象中的“数据复制”相关的惩罚。即使我将记录的宽度增加到异常的比例（例如，十亿个字符），按值和按引用基准基本相同。

似乎在向方法传递参数时，Perl 不会复制数据。我想这在进一步思考@_ 的混叠能力后是有道理的。参数通过引用而不是值传递。

但是，它是一种有限的按引用传递形式，因为@_ 中的引用不能直接分配给子例程中的局部变量。如第二组基准所示，此类分配确实会导致数据复制。

我理解正确吗？

【问题讨论】：

标签： perl

【解决方案1】：

是的，作业副本；只是传递参数没有。但是，您可以使用 Lexical::Alias 为 @_ 中的元素起别名。这个修改后的基准表明，这样做的速度是使用参考的三分之一，但始终如此，无论 $RECORD 的长度如何：

use strict;
use warnings;
use Benchmark qw(timethese);
use Lexical::Alias;

my $RECORD = '0' x 5000000;

my $byVal2loc  = sub { my $v = ByVal2loc( $RECORD, $_) for 0..999 };
my $byRef2loc  = sub { my $v = ByRef2loc(\$RECORD, $_) for 0..999 };
my $byAlias2loc = sub { my $v = ByAlias2loc( $RECORD, $_ ) for 0..999 };

sub ByVal2loc { my $arg = shift; return substr(  $arg, $_[0], 1) }
sub ByRef2loc { my $arg = shift; return substr( $$arg, $_[0], 1) }
sub ByAlias2loc { my $arg; alias($_[0], $arg); return substr( $arg, $_[0], 1  ) }

timethese( $ARGV[0], {
    byVal2loc => $byVal2loc,
    byRef2loc => $byRef2loc,
    byAlias2loc => $byAlias2loc,
} );

# output:
Benchmark: running byAlias2loc, byRef2loc, byVal2loc for at least 3 CPU seconds...
byAlias2loc:  3 wallclock secs ( 3.16 usr +  0.00 sys =  3.16 CPU) @ 430.70/s (n=1361)
 byRef2loc:  4 wallclock secs ( 3.24 usr +  0.00 sys =  3.24 CPU) @ 1329.63/s (n=4308)
 byVal2loc:  5 wallclock secs ( 4.95 usr +  0.01 sys =  4.96 CPU) @  0.40/s (n=2)
            (warning: too few iterations for a reliable count)

（直接使用 alias_r 而不是 alias 辅助函数会稍微快一些。）

【讨论】：

【解决方案2】：

IIRC，在 Perl 的“子”中，@_ 数组已经是变量的一组别名（引用）。如果修改$_[0]，会影响调用函数中的变量。

#!/bin/perl -w
use strict;

sub x
{
    print "x = $_[0]\n";
    $_[0] = "pinkerton";
    print "x = $_[0]\n";
}

my $y = "abc";

print "y = $y\n";
x($y);
print "y = $y\n";

输出是：

y = abc
x = abc
x = pinkerton
y = pinkerton

【讨论】：

@Igor Krivokon：正确，是的，但已经在问题中说明了，至少是隐含的。我猜“是的，你理解正确。”缺少答案。

【解决方案3】：

如果你想给@_的元素起有意义的名字，你可以使用Data::Alias给它们起别名，所以

use Data::Alias;

sub foo {
    alias my ($a, $b, $c) = @_;
}

您可以对数组和散列执行类似的操作。

    alias my ($a, $b, @c) = @_;
    alias my ($a, $b, %c) = @_;

其实就是别名化成哈希

    alias my (%p) = @_;

特别强大，因为它提供了按引用传递的命名参数。不错。

（Data::Alias 提供了 Lexical::Alias 功能的超集；它更通用，更强大。）

【讨论】：