【发布时间】:2020-07-07 00:39:50
【问题描述】:
我正在处理亚马逊评论数据集。 目标是提取每个产品的正面和负面特征。
例如:对于句子“this product has great battery life”,我想提取“battery”这个词作为正面特征。
数据集包含以下字段:
reviewerID - 评论者的 ID,例如A2SUAM1J3GNN3B
asin - 产品的 ID,例如0000013714
reviewerName - 审阅者姓名
有帮助 - 评论的有用程度,例如2/3
reviewText - 评论文本
总体 - 产品评分
summary - 评论摘要
unixReviewTime - 审核时间(unix 时间)
reviewTime - 审核时间(原始)
到目前为止,我将评论分为两个列表:positive_reviews 和negative_reviews。
positive_reviews = 评分 > 3 的所有评论 ,negative_reviews = 评分 的所有评论
我清理了文本并对其进行了标记。之后,我提取了形容词之后出现的名词,希望这些特定名词成为我正在寻找的特征。 之后,我尝试使用聚类算法(k-means,DBSCAN),希望它能创建一个代表我想要提取的特征的组。
结果一点都不好,我希望这里的人可能有一个想法来解决这个问题
【问题讨论】:
标签: python machine-learning nlp