R 中的西里尔字母音译答案

【问题标题】：Cyrillic transliteration in RR 中的西里尔字母音译
【发布时间】：2018-02-02 03:44:36
【问题描述】：

是否有用于在 R 中将西里尔文文本音译为拉丁文的软件包？我需要将数据帧转换为拉丁语才能使用因子。在 R 中使用西里尔因子有点混乱。

【问题讨论】：

【解决方案1】：

我终于找到了包裹。

> library(stringi)
> stri_trans_general("женщина", "cyrillic-latin")

[1] "ženŝina"

> stri_trans_general("женщина", "russian-latin/bgn")

[1] "真中国"

在那之后，唯一剩下的就是“ё”字母了。

> stri_trans_general("Ёж", "russian-latin/bgn")

[1] “叶日”

我必须删除所有的“ё”字母

> iconv(stri_trans_general("ёж", "russian-latin/bgn"),from="UTF8",to="ASCII",sub="")

[1] "yzh"

或者可以删除前面的“Ё”和“ё”字母

> gsub('ё','e',gsub('Ё','E','Ёжики на ёлке'))

[1] "Eжики на eлке"

或在音译之后。

【讨论】：

【解决方案2】：

可以像上面那样使用 stringi 包，但使用不同的转换标识符，用于塞尔维亚拉丁语：

`stri_trans_general("жшчћђ", "Serbian-Latin/BGN")`

所有字符都应正确转换为塞尔维亚拉丁语。

【讨论】：

【解决方案3】：

如果之后使用 Base R 过滤 Cyrillic 中的数据，则得到所有 NA's，但如果使用 dplyr 则一切正常美好的。

【讨论】：