【问题标题】:Cyrillic transliteration in RR 中的西里尔字母音译
【发布时间】:2018-02-02 03:44:36
【问题描述】:

是否有用于在 R 中将西里尔文文本音译为拉丁文的软件包?我需要将数据帧转换为拉丁语才能使用因子。在 R 中使用西里尔因子有点混乱。

【问题讨论】:

    标签: r transliteration


    【解决方案1】:

    我终于找到了包裹。

    > library(stringi)
    > stri_trans_general("женщина", "cyrillic-latin")
    

    [1] "ženŝina"

    > stri_trans_general("женщина", "russian-latin/bgn")
    

    [1] "真中国"

    在那之后,唯一剩下的就是“ё”字母了。

    > stri_trans_general("Ёж", "russian-latin/bgn")
    

    [1] “叶日”

    我必须删除所有的“ё”字母

    > iconv(stri_trans_general("ёж", "russian-latin/bgn"),from="UTF8",to="ASCII",sub="")
    

    [1] "yzh"

    或者可以删除前面的“Ё”和“ё”字母

    > gsub('ё','e',gsub('Ё','E','Ёжики на ёлке'))
    

    [1] "Eжики на eлке"

    或在音译之后。

    【讨论】:

      【解决方案2】:

      可以像上面那样使用 stringi 包,但使用不同的转换标识符,用于塞尔维亚拉丁语:

      `stri_trans_general("жшчћђ", "Serbian-Latin/BGN")`
      

      所有字符都应正确转换为塞尔维亚拉丁语。

      【讨论】:

        【解决方案3】:

        如果之后使用 Base R 过滤 Cyrillic 中的数据,则得到所有 NA's,但如果使用 dplyr 则一切正常美好的。

        【讨论】:

          猜你喜欢
          • 2011-11-19
          • 2014-09-07
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多