【发布时间】:2019-07-12 14:02:40
【问题描述】:
stopwords_tr <- data.frame(word = stopwords::stopwords("tr",source="stopwords-iso"), stringsAsFactors = FALSE)
stopwords_tr
stopwords_tr 中的某些字符不是土耳其语。例如;
1 acaba
2 acep
3 adamakıllı
4 adeta
5 ait
6 altmýþ <-Here must be: altmış
7 altmış
8 altý <-Here must be: altı
我正在寻找修复它们的方法。
stopwords_tr$word<-gsub("ý","ı",stopwords_tr$word)
结果没有改变。 我试过这些,但没有。
Encoding (stopwords_tr $ word) <- "WINDOWS-1254"
Encoding (stopwords_tr $ word) <- "LATIN-5"
Encoding (stopwords_tr $ word) <- "UTF-8"
另一个有趣的事情。
当您在 R Studio 中双击 stopwords_tr 以显示它时,字符会出现 "ý"。在控制台中,它看起来像"y"。
有设置编码的参数吗? 谢谢大家。
【问题讨论】:
标签: r replace gsub stop-words