NLP - 亚马逊评论特征提取答案

【问题标题】：NLP - amazon reviews feature extractionNLP - 亚马逊评论特征提取
【发布时间】：2020-07-07 00:39:50
【问题描述】：

我正在处理亚马逊评论数据集。目标是提取每个产品的正面和负面特征。

例如：对于句子“this product has great battery life”，我想提取“battery”这个词作为正面特征。

数据集包含以下字段：

reviewerID - 评论者的 ID，例如A2SUAM1J3GNN3B

asin - 产品的 ID，例如0000013714

reviewerName - 审阅者姓名

有帮助 - 评论的有用程度，例如2/3

reviewText - 评论文本

总体 - 产品评分

summary - 评论摘要

unixReviewTime - 审核时间（unix 时间）

reviewTime - 审核时间（原始）

到目前为止，我将评论分为两个列表：positive_reviews 和negative_reviews。

positive_reviews = 评分 > 3 的所有评论 ,negative_reviews = 评分的所有评论

我清理了文本并对其进行了标记。之后，我提取了形容词之后出现的名词，希望这些特定名词成为我正在寻找的特征。之后，我尝试使用聚类算法（k-means，DBSCAN），希望它能创建一个代表我想要提取的特征的组。

结果一点都不好，我希望这里的人可能有一个想法来解决这个问题

【问题讨论】：

【解决方案1】：

您可能想探索主题建模，而不是聚类；这将让您从评论中提取一般主题。

【讨论】：

您好@Peritract，感谢您的评论，我实际上尝试使用 LDA 进行主题建模，但它真的很慢而且我的计算机无法处理它。我猜是因为我使用的数据集非常大。我会尝试按照指南进行操作，但以防万一，也许您有建议让我提高效率，使其运行得更快？
@As22 您可以尝试使用 LDA 多核 - rare-technologies.com/… - 但它总是会相对较慢，因为它对于大型数据集非常复杂。