【问题标题】:Substring in Corpus in tm packagetm 包中语料库中的子字符串
【发布时间】:2016-11-10 10:58:25
【问题描述】:

我使用以下命令创建了一个语料库:

corpus_map <-VCorpus(VectorSource(classified_narr_sel$NARRATION))
corpus_map <- tm_map(corpus_map, removeNumbers) 

上述命令从语料库中删除数字。是否有任何命令可以让我对语料库的所有单词进行子串化?例如:“Travelling”应该被转换为#to 3 个字母的子字符串作为“tra”。通常,我会使用

substr("travelling",1,3) 

但我想对 tm 中的语料库做同样的事情

【问题讨论】:

    标签: r substring tm


    【解决方案1】:

    您可以编写一个函数来进行您想要的转换并在语料库上运行它,例如:

    ConvertStrings <- function(textInput){
    textOutput <- gsub("travelling", "tra", textInput)
    textOutput <- gsub("furtherWords", "further", textOutput)
    #...
    return(textOutput)
    }
    corpus_transformed <- ConvertStrings(corpus_map)
    

    【讨论】:

    • 但是我怎样才能对每个文档中的每个单词执行此操作,最多 3 个字符?在这里,旅行被称为“tra”。它适用于所有单词吗?
    猜你喜欢
    • 2023-04-08
    • 1970-01-01
    • 2015-07-22
    • 1970-01-01
    • 2014-08-16
    • 2018-10-28
    • 2015-05-26
    • 2018-03-31
    • 2018-08-16
    相关资源
    最近更新 更多