【发布时间】:2012-04-13 15:49:33
【问题描述】:
我有一堆 csv 文件,我正在读入 R 并包含在 .rdata 格式的包/数据文件夹中。不幸的是,数据中的非 ASCII 字符无法通过检查。 tools 包有两个函数来检查非 ASCII 字符(showNonASCII 和 showNonASCIIfile),但我似乎找不到一个来删除/清理它们。
在我探索其他 UNIX 工具之前,最好在 R 中完成这一切,这样我就可以维护从原始数据到最终产品的完整工作流程。是否有任何现有的包/功能可以帮助我摆脱非 ASCII 字符?
【问题讨论】:
-
尝试使用正则表达式,例如函数 gsub。检查 ?regexp
-
您知道
read.csv()接受encoding参数,因此您可以处理这些,至少在R 中?非 ASCII 字符失败的具体检查是在 R 中(如果在此处发布)还是在外部?
标签: r unicode ascii non-ascii-characters