【发布时间】:2014-12-19 22:34:05
【问题描述】:
我有大量的文件和解析器。我要做的是剥离所有非 utf-8 符号并将数据放入 mongodb。 目前我有这样的代码。
with open(fname, "r") as fp:
for line in fp:
line = line.strip()
line = line.decode('utf-8', 'ignore')
line = line.encode('utf-8', 'ignore')
不知何故我仍然得到一个错误
bson.errors.InvalidStringData: strings in documents must be valid UTF-8:
1/b62010montecassianomcir\xe2\x86\x90ta0\xe2\x86\x90008923304320733/290066010401040101506055soccorin
我不明白。有什么简单的方法吗?
UPD:似乎 Python 和 Mongo 不同意 Utf-8 有效字符串的定义。
【问题讨论】:
-
在我的头脑中,解析算法不是很重要,终点在前几行。也许我错了