（看似）相同的字符串以不同的方式转换为大写答案

【问题标题】：(Seemingly) identical strings converted to uppercase differently（看似）相同的字符串以不同的方式转换为大写
【发布时间】：2017-03-20 16:34:21
【问题描述】：

我在将两个“相同”字符串转换为大写时遇到了一个非常奇怪的问题。该程序正在从网站读取行并将其与存储在文本文件中的行进行比较。如果未找到该行，则将其添加到文件末尾。除非该行包含特殊字符，否则这非常有效。由于某种原因，比较导致不匹配。我通过首先将它们转换为大写来比较这两个字符串，这就是它出错的地方。下面是一些代码。我省略了填充两个变量的部分。我只是展示了奇怪的部分。

print "$pageLine <-> $dbLine\n";
print uc( $pageLine ) . " <-> " . uc( $dbLine ) . "\n";

这会导致

Diëtisten <-> Diëtisten
DIëTISTEN <-> DIËTISTEN

请注意，第一个中的 ë 未转换为大写。

foreach my $kar (split( //, $pageLine) ) {
  print ord($kar) . ":";
}
print "\n";
foreach my $kar (split( //, $dbLine) ) {
  print ord($kar) . ":";
}
print "\n";

这会导致：

68:105:235:116:105:115:116:101:110:32:40:78:86:68:41:
68:105:235:116:105:115:116:101:110:32:40:78:86:68:41:

有人知道这里发生了什么吗？

提前致谢。

【问题讨论】：

perldoc.perl.org/functions/fc.html 也可能是一本好书。

标签： string perl uppercase

【解决方案1】：

最小的演示：

my $s = "\xEB";
utf8::downgrade( my $d = $s );
utf8::upgrade(   my $u = $s );
printf "%vX %vX %s\n", $d, $u, $d eq $u ? "same" : "different";
$_ = uc($_) for $d, $u;
printf "%vX %vX %s\n", $d, $u, $d eq $u ? "same" : "different";

输出：

EB EB same
EB CB different

默认情况下，为了向后兼容，如果输入标量的 UTF8 标志为关闭，uc 将仅大写 ASCII 字符。这是 Unicode 错误^[1] 的一个实例，已通过添加以下内容进行修复：

use feature qw( unicode_strings );

以上可以通过添加以下内容间接完成：

use 5.012;

参考：unicode_strings、feature、use

当代码的行为取决于字符串的存储格式时，该代码被称为存在 Unicode 错误。

【讨论】：

这确实解决了问题。 :) 是否可以替换“使用严格；”与“使用 5.012;”在我的所有模块中？
是的。 "同样，如果指定的 Perl 版本大于或等于 5.12.0，则在词法上启用严格，就像使用严格"