【发布时间】:2020-04-30 13:43:44
【问题描述】:
我的数据集包含很多文本。完全用外语编写的文本将被删除。现在,所有的文本都是用英文写的,但有些有翻译,例如一个双语的人,除了英文文本之外,还把英文文本下面的英文文本翻译成非英文文本。我想过滤掉文本的那些部分。
文本都在一个变量中。我试图取消嵌套这些文本(使用 tidytext 的 unnest_tokens 函数)并使用 textcat 包来检测未嵌套单词的语言,但这给了我最不一致的语言,从法语到斯洛文尼亚语,尽管相应的单词是英语。
我用于解除嵌套和检测的代码如下(为了性能,我创建了一个示例):
text_unnesting_tokens <- MyDF %>% tidytext::unnest_tokens(word, text)
sample <- text_unnesting_tokens[sample(nrow(text_unnesting_tokens), 5000), ]
sample$language <- textcat(sample$word, p = textcat::TC_char_profiles)
【问题讨论】: