【发布时间】:2018-02-02 03:44:36
【问题描述】:
是否有用于在 R 中将西里尔文文本音译为拉丁文的软件包?我需要将数据帧转换为拉丁语才能使用因子。在 R 中使用西里尔因子有点混乱。
【问题讨论】:
标签: r transliteration
是否有用于在 R 中将西里尔文文本音译为拉丁文的软件包?我需要将数据帧转换为拉丁语才能使用因子。在 R 中使用西里尔因子有点混乱。
【问题讨论】:
标签: r transliteration
我终于找到了包裹。
> library(stringi)
> stri_trans_general("женщина", "cyrillic-latin")
[1] "ženŝina"
> stri_trans_general("женщина", "russian-latin/bgn")
[1] "真中国"
在那之后,唯一剩下的就是“ё”字母了。
> stri_trans_general("Ёж", "russian-latin/bgn")
[1] “叶日”
我必须删除所有的“ё”字母
> iconv(stri_trans_general("ёж", "russian-latin/bgn"),from="UTF8",to="ASCII",sub="")
[1] "yzh"
或者可以删除前面的“Ё”和“ё”字母
> gsub('ё','e',gsub('Ё','E','Ёжики на ёлке'))
[1] "Eжики на eлке"
或在音译之后。
【讨论】:
可以像上面那样使用 stringi 包,但使用不同的转换标识符,用于塞尔维亚拉丁语:
`stri_trans_general("жшчћђ", "Serbian-Latin/BGN")`
所有字符都应正确转换为塞尔维亚拉丁语。
【讨论】:
如果之后使用 Base R 过滤 Cyrillic 中的数据,则得到所有 NA's,但如果使用 dplyr 则一切正常美好的。
【讨论】: