【发布时间】:2019-07-12 00:30:12
【问题描述】:
有没有办法确定客户评论是否专门针对特定主题? 我如何使用 NLP 或 NLTK 完成此任务?电子商务公司的客户评论可以谈论运输的快/慢,产品质量的好/坏......等等。 现在,如果我必须将评论分为两类,我该如何实现?
1)。运输缓慢 2)。质量不好
【问题讨论】:
有没有办法确定客户评论是否专门针对特定主题? 我如何使用 NLP 或 NLTK 完成此任务?电子商务公司的客户评论可以谈论运输的快/慢,产品质量的好/坏......等等。 现在,如果我必须将评论分为两类,我该如何实现?
1)。运输缓慢 2)。质量不好
【问题讨论】:
您将使用一种称为主题建模的技术从(可能很大)客户评论数据集中提取隐藏的主题。 LDA(潜在狄利克雷分配)是一种常用的算法,用于识别底层文本中的主题。
记住以下两个原则可能会有所帮助
示例代码(使用 Gensim,一个非常广泛用于主题建模的 Python 库)
import gensim
from pprint import pprint
# .. Data preparation code ..
model = gensim.models.ldamodel.LdaModel(corpus, id2word=dictionary, num_topics=10)
pprint(model.print_topics())
上面的print_topics() 打印每个主题的热门关键字(基于它们的重要性)。正如几个 SO 用户 here 所发布的,还有其他方法可以做到这一点。
您可能需要参考this 详细教程以获取完整的代码示例。
您可能想参考this关于酒店评论主题建模的问题。
希望对你有帮助。
【讨论】: