【发布时间】:2020-05-20 07:51:12
【问题描述】:
我希望有人可以解释学术论文的特定部分并协助编写该部分的 R 代码:
论文名称
- 咨询对话的大规模分析: 自然语言处理在心理健康中的应用 (https://cs.stanford.edu/people/jure/pubs/counseling-tacl16.pdf)
在第 5 页,我们有以下 sn-p:
" ...构建单词出现的 TF-IDF 向量 在此范围内代表辅导员的语言 子集。我们使用全局逆文档(即, 对话)频率而不是来自的频率 每个子集使向量直接可比较 并通过加权对话来控制具有不同对话次数的不同辅导员,以便所有辅导员都有相同的贡献。 "
论文中的“全局逆文档频率”是什么意思? 我如何在 R 中使用不同的子集(例如正面和负面的辅导员)对此进行编码
这是我的示例代码:
corp_pos_1 <- Corpus(VectorSource(positive_chats$Text1))
#corp_pos_1 <- tm_map(corp_pos_1, removeWords, stopwords("english"))
tdm_pos_1 <- DocumentTermMatrix(corp_pos_1,control = list(weighting = function(x) weightTfIdf(x, normalize = FALSE)))
ui = unique(tdm_pos_1 $i)
tdm_pos_1 = tdm_pos_1 [ui,]
cosine_tdm_pos_1 <- crossprod_simple_triplet_matrix(tdm_pos_1)/(sqrt(col_sums(tdm_pos_1^2) %*% t(col_sums(tdm_pos_1^2))))
在代码中,'pos' 代表正面,'neg' 代表负面。 变量 end 末尾的数字表示正在计算的块的部分。
现在我将它们分成 5 个不同的部分,试图遵循本文。但是我怎么能计算“全局逆文档频率”呢?
我想我之前已经找到了这个 stackoverflow 问题,但我仍然不理解论文 + 我需要在 R 中做什么。 R: weighted inverse document frequency (tfidf) similarity between strings
【问题讨论】: