将 UTF-8 字符序列转换为真正的 UTF-8 字节答案

【问题标题】：Convert UTF-8 character sequence to real UTF-8 bytes将 UTF-8 字符序列转换为真正的 UTF-8 字节
【发布时间】：2012-09-22 00:43:45
【问题描述】：

我有一个纯文本文件 (.yml)，其中包含这样的 UTF-8 字符序列：

foo: "检测 \xC3\xB8 "

问题在于 \xC3\xB8 - 这些不是“真正的”UTF-8 字节，因为它们在文本文件中保存为 8 个实际字符：\ x C 3 \ x B 8

有没有办法将这些转换成真正的 2 字节 UTF-8 序列？

任何操作系统/语言/外壳工具都可以使用:-)

/卡斯滕

【问题讨论】：

【解决方案1】：

使用这个 perl 脚本来转换你的文件：

#!/usr/bin/perl
while (<STDIN>) {
  $_ =~ s/\\x([0-9A-F][0-9A-F])/chr(hex($1))/eg;
  print $_;
}

假设您将一个文件命名为bogusutf，然后使用以下命令进行转换：

$ perl bogusutf 输出文件

【讨论】：