【问题标题】:Character Encoding issue in Rails v3/Ruby 1.9.2Rails v3/Ruby 1.9.2 中的字符编码问题
【发布时间】:2011-06-09 12:06:54
【问题描述】:

当我从文件中读取内容时,有时会收到此错误“UTF-8 中的字节序列无效”。注意 - 只有当字符串中有一些特殊字符时才会发生这种情况。我尝试打开没有“r:UTF-8”的文件,但仍然出现同样的错误。

open(file, "r:UTF-8").each_line { |line| puts line.strip(",") } # line.strip generates the error

文件内容:

# encoding: UTF-8
290919,"SE","26","Sk‰l","",59.4500,17.9500,, # this errors out
290956,"CZ","45","HornÌ Bradlo","",49.8000,15.7500,, # this errors out
290958,"NO","02","Svaland","",58.4000,8.0500,, # this works

这是我从外部获得的 CSV 文件,我正在尝试将其导入我的数据库,它的顶部没有“# encoding: UTF-8”,但我添加了这个,因为我在某个地方读到它会解决这个问题,但它没有。 :(

环境:

  • Rails v3.0.3
  • ruby 1.9.2p0(2010-08-18 修订版 29036)[x86_64-darwin10.5.0]

【问题讨论】:

  • # encoding: UTF-8 用于声明 ruby​​ 源文件的编码,不会对 IO 产生影响。

标签: ruby-on-rails ruby character-encoding


【解决方案1】:

Ruby 对每个文件都有一个外部编码和内部编码的概念。这允许您在源代码中使用 UTF-8 格式的文件,即使文件以更深奥的格式存储也是如此。如果您的默认外部编码是 UTF-8(如果您使用的是 Mac OS X),那么您的所有文件 I/O 也将采用 UTF-8。您可以使用File.open('file').external_encoding 进行检查。当您打开文件并传递 "r:UTF-8" 时,您正在做的事情是强制使用 Ruby 默认使用的相同外部编码。

很有可能,您的源文档不是 UTF-8 格式,并且那些非 ascii 字符没有完全映射到 UTF-8(如果是,您将得到正确的字符并且没​​有错误,如果它们映射不正确,你会得到不正确的字符并且没​​有错误)。您应该做的是尝试确定源文档的编码,然后让 Ruby 在读取时对文档进行转码,如下所示:

File.open(file, "r:windows-1251:utf-8").each_line { |line| puts line.strip(",") }

如果您需要帮助确定源的编码,请试一试this Python library。它基于 Seamonkey/Mozilla 中的自动字符集检测回退(并且可能仍在 Firefox 中)。

【讨论】:

  • 我使用 sublime 2 编辑器,保存文件时会在底部看到编码。
  • 对python库的引用不见了:-/
  • 看起来整个站点有点 fubar,但该库名为 Chardet,它似乎可以在 pypi.python.org/pypi/chardet 获得(尽管文档少得多)。
【解决方案2】:

如果你想改变你的文件编码,你可以使用 gem 'charlock holmes'

https://github.com/brianmario/charlock_holmes

$require 'charlock_holmes/string'
content = File.read('test2.txt')
if !content.is_utf8?
  detection = CharlockHolmes::EncodingDetector.detect(content)
  utf8_encoded_content = CharlockHolmes::Converter.convert content, detection[:encoding], 'UTF-8'
end

然后您可以将新内容保存在临时文件中并覆盖原始文件。
希望对您有所帮助。

【讨论】:

  • 很酷的图书馆。任何有类似问题的人都会很好地让这个 gem 帮助解决他们的问题。 +1
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-07-04
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多