【问题标题】:Invalid byte sequence in UTF-8 (ArgumentError)UTF-8 中的无效字节序列 (ArgumentError)
【发布时间】:2015-07-04 19:38:09
【问题描述】:

我正在尝试运行 Ruby 脚本,但总是在这一行出现错误:

file_content.gsub(/dr/i,'med')

我试图用“med”替换“dr”。

错误是:

program.rb:4:in `gsub': invalid byte sequence in UTF-8 (ArgumentError)

为什么会这样,我该如何解决这个问题?

我正在使用 Ruby 2.2.1p85 的 MAC OS X Yosemite 机器。

【问题讨论】:

  • 从变量名看来,您正在从文件中读取数据——对吗?文件来自哪里,你是如何阅读它的?你知道文件的实际编码吗?

标签: ruby utf-8 error-handling


【解决方案1】:

可能你的字符串不是 UTF-8 格式,所以使用

if ! file_content.valid_encoding?
  s = file_content.encode("UTF-16be", :invalid=>:replace, :replace=>"?").encode('UTF-8')
  s.gsub(/dr/i,'med')
end

参见“Ruby 2.0.0 String#Match ArgumentError: invalid byte sequence in UTF-8”。

【讨论】:

  • 感谢您的回复。如何使用您提供的代码 sn-p?因为当我在我的程序中立即使用它时,我得到:未定义的局部变量或方法's' for main:Object (NameError)。谢谢
  • 使用file_content 而不是s
  • 在我的问题中显示的行之前,我有以下代码行:“file_content = IO.read(filename)”。我已将您的代码放在此行之后,我的问题中的行之前,并且确实仍然遇到同样的问题
  • @Simplicity 你使用的是 Ruby 2.2,所以你可以使用 scrub 方法。对于没有scrub 的旧版本,这种技术确实是一种解决方法。 (但实际上你应该弄清楚编码实际上是什么并正确转换它,否则你会丢失数据)。
  • 对我来说,这救了我stackoverflow.com/a/19103433/7365329
猜你喜欢
  • 2016-07-05
  • 2013-08-20
  • 1970-01-01
  • 2012-06-19
  • 2017-03-31
  • 2012-12-11
  • 2023-04-03
  • 2022-10-05
  • 2014-01-09
相关资源
最近更新 更多