【问题标题】:NLP - amazon reviews feature extractionNLP - 亚马逊评论特征提取
【发布时间】:2020-07-07 00:39:50
【问题描述】:

我正在处理亚马逊评论数据集。 目标是提取每个产品的正面和负面特征。

例如:对于句子“this product has great battery life”,我想提取“battery”这个词作为正面特征。

数据集包含以下字段:

reviewerID - 评论者的 ID,例如A2SUAM1J3GNN3B

asin - 产品的 ID,例如0000013714

reviewerName - 审阅者姓名

有帮助 - 评论的有用程度,例如2/3

reviewText - 评论文本

总体 - 产品评分

summary - 评论摘要

unixReviewTime - 审核时间(unix 时间)

reviewTime - 审核时间(原始)

到目前为止,我将评论分为两个列表:positive_reviews 和negative_reviews。

positive_reviews = 评分 > 3 的所有评论 ,negative_reviews = 评分 的所有评论

我清理了文本并对其进行了标记。之后,我提取了形容词之后出现的名词,希望这些特定名词成为我正在寻找的特征。 之后,我尝试使用聚类算法(k-means,DBSCAN),希望它能创建一个代表我想要提取的特征的组。

结果一点都不好,我希望这里的人可能有一个想法来解决这个问题

【问题讨论】:

    标签: python machine-learning nlp


    【解决方案1】:

    您可能想探索主题建模,而不是聚类;这将让您从评论中提取一般主题。

    Here's a guide.

    【讨论】:

    • 您好@Peritract,感谢您的评论,我实际上尝试使用 LDA 进行主题建模,但它真的很慢而且我的计算机无法处理它。我猜是因为我使用的数据集非常大。我会尝试按照指南进行操作,但以防万一,也许您有建议让我提高效率,使其运行得更快?
    • @As22 您可以尝试使用 LDA 多核 - rare-technologies.com/… - 但它总是会相对较慢,因为它对于大型数据集非常复杂。
    猜你喜欢
    • 1970-01-01
    • 2012-04-27
    • 1970-01-01
    • 2017-07-28
    • 1970-01-01
    • 1970-01-01
    • 2020-01-26
    • 1970-01-01
    • 2013-07-22
    相关资源
    最近更新 更多