【发布时间】:2012-06-19 10:13:34
【问题描述】:
我正在尝试填充电影对象,但在解析 u.item 文件时出现此错误:
`split':UTF-8 中的无效字节序列(ArgumentError)
File.open("Data/u.item", "r") do |infile|
while line = infile.gets
line = line.split("|")
end
end
该错误仅在尝试使用花哨的国际标点符号分割行时发生。
这是一个示例
543|悲惨世界 (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Mis%E9rables%2C%20Les%20%281995%29|0 |0|0|0|0|0|0|0|1|0|0|0|1|0|0|0|0|0|0
有解决办法吗??
【问题讨论】:
-
od -c对有问题的行有什么看法? -
它适用于我发布的语料库。 @IgnacioVazquez-Abrams 可能是对的:您需要使用十六进制编辑器来查看数据文件中是否有隐藏字符。
标签: ruby character-encoding argument-error