【发布时间】:2020-12-21 22:00:19
【问题描述】:
假设我有一个包含 2 列的数据框:“question_no”和“question_text”
"question_no" 只是从 1 到 length(data$question_no) 并且 "question_text" 有问题。
我想对包含“按顺序”和“总结”字样的问题进行分类。
到目前为止,我已经想出了这几行代码:
questions<-Corpus(VectorSouce(data$question_text))
questions<-tm_map(questions,tolower)
questions<-tm_map(questions,stripWhiteSpace)
spesificQuestion<- ifelse(Corpus=="in order"|Corpus=="summarize",pquestions, others=
我知道这是一组非常糟糕的代码,我只是想表明我的意图。
我应该怎么做才能从语料库中选择某些单词?
【问题讨论】:
-
也许看看
grep? -
question_text条目是否可以包含除“summarize”和“in order”之外的词,即您只查找完整匹配还是部分匹配?是否要创建一个新列来指定是否满足您的条件? -
例如:“‘总结’第一段的第二段。”假设我有这类问题(或说明),我想定义它们是否有“总结”或“按顺序”。