【问题标题】:Reading UTF8 files with File::Slurp使用 File::Slurp 读取 UTF8 文件
【发布时间】:2015-06-01 09:00:12
【问题描述】:

我尝试使用 Perl 模块 File::Slurp 读取 HTML 文件:

binmode STDOUT, ':utf8';
my $htmlcontent = read_file($file, {binmode => ':utf8'});

但是当我打印 $htmlcontent 变量时,由于法语口音或特殊字符,某些字符无法理解。

例如:"Plus d'actualit\u00e9s" 应该是"Plus d'actualités"

我也检查了文件的编码,没问题!

HTML document, UTF-8 Unicode text, with very long lines, with CRLF, LF line terminators

这个模块有问题吗?

谢谢

【问题讨论】:

    标签: perl encoding fileslurp


    【解决方案1】:

    \u00e9 不是 UTF-8 字符,是 Unicode 字符的 JavaScript 表示。例如,您需要使用Encode::JavaScript::UCS 解码文件的内容。

    【讨论】:

    • 我尝试了您的解决方案,但仍然是同样的问题。我在另一台机器上测试过,问题消失了。我认为这是操作系统环境的问题。
    猜你喜欢
    • 2012-11-20
    • 1970-01-01
    • 2010-10-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-02-02
    相关资源
    最近更新 更多