【发布时间】:2021-12-30 09:15:24
【问题描述】:
我正在处理包含数千个句子的数据集。数据集由一列和 k 行构成。 我必须找到它们之间的一些相似之处,例如我正在进行聚类分析。我创建了一个语料库并将其转换为数字(TF-IDF),然后我开始进行聚类分析。当我做 kmeans 时,它给了我错误:“无法获取大于总体的样本”,我无法继续分析。 我认为问题出在语料库中。也许它应该由 totK 文件而不是带有 tot 行的文件组成。 我在互联网上找到了一些类似的问题,但我没有找到解决方案。 下面是代码,谢谢
####Stupid example of my dataset
column <- c("hi everyon, i'm Gio"," I'm Luisa, nice to meet you","How are you?", "Good morning. i'm Josh","Hello, Is Luca ok?")
df <- data.frame(column)
corpus = tm::Corpus(tm::VectorSource(ticket_data1), readerControl = list(readerControl=readPlain))
corpus.cleaned <- tm::tm_map(corpus, tm::removeWords, tm::stopwords('english')) #### stop-words
corpus.cleaned <- tm::tm_map(corpus, tm::stemDocument, language = "english")
corpus.cleaned <- tm::tm_map(corpus.cleaned, tm::stripWhitespace)
tdm <- tm::DocumentTermMatrix(corpus)
tdm.tfidf <- tm::weightTfIdf(tdm)
tdm.tfidf <- tm::removeSparseTerms(tdm.tfidf, 0.999)
tfidf.matrix <- as.matrix(tdm.tfidf)
dist.matrix = proxy::dist(tfidf.matrix, method = "cosine")
k<- kmeans(tfidf.matrix, centers = 2, nstart = 25)
我强调我的数据集大约有 10k 行。这是一个简化的例子。 我希望我很清楚,你可以帮助我。 谢谢
【问题讨论】:
标签: r cluster-analysis tm corpus