【问题标题】:Convert unicode to readable characters in R将unicode转换为R中的可读字符
【发布时间】:2018-09-19 06:09:48
【问题描述】:

我有一个 .csv,其中使用 Encoding(data) 时编码返回“未知”和“UTF-8”。文本如下所示:

<U+1042><U+1040><U+1042><U+1040> <U+1019><U+103D><U+102C>\n\n<U+1010><U+102D><U+102F><U+1004><U+1039><U+1038><U+103B><U+1015><U+100A><U+1039><U+1000><U+102D><U+102F><U+101C><U+1032> <U+1000><U+102C><U+1000><U+103C>

我想把它变成一种可读的格式,在这种情况下是缅甸语,所以看起来有点像这样:

၂၀၂၀မွာတိုင္းျ

奇怪的是,这个数据中的文本过去在 RStudio 中是可读的,但在某些时候——我不知道是什么时候——这发生了变化,我现在只能看到 Unicode 字符。我试过这些solutions 没有成功。

【问题讨论】:

    标签: r unicode utf-8


    【解决方案1】:

    你可以这样做:

    library(stringi)
    
    string <- "<U+1042><U+1040><U+1042><U+1040> <U+1019><U+103D><U+102C>\n\n<U+1010><U+102D><U+102F><U+1004><U+1039><U+1038><U+103B><U+1015><U+100A><U+1039><U+1000><U+102D><U+102F><U+101C><U+1032> <U+1000><U+102C><U+1000><U+103C>" 
    
    cat(stri_unescape_unicode(gsub("<U\\+(....)>", "\\\\u\\1", string)))
    

    结果:

    ၂၀၂၀မှာ

    တိုင်းပြည်ကိုလဲ ကာကွ

    【讨论】:

      猜你喜欢
      • 2019-05-12
      • 1970-01-01
      • 2016-12-20
      • 1970-01-01
      • 1970-01-01
      • 2014-10-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多