【问题标题】:Keyword suggestion Algorithm关键词建议算法
【发布时间】:2016-07-20 02:22:04
【问题描述】:

我一直在从事一个项目,该项目要求我根据产品描述提供关键字/关键词建议。

我目前拥有的:产品描述、产品类别(可能存在也可能不存在)。

我想要什么:根据描述机器生成的关键字/关键词。

我做了什么研究:(基于 NLP 的方法)这个问题可以分解为两种不同的方法。

  • 不使用过去的数据:仅总结当前描述
  • 方法:- 分词、词干、停用词删除等(预处理)
  • 浅 NLP(选区解析)并仅保留 NP 和 JJ 短语。

这将是一种不使用数据库中存在的描述的方法。

我一直在寻找一种更好的方法,它使用 ML 算法并使用我过去的产品描述数据。

我正在考虑对整个数据集应用浅解析,然后给出在 N 多个产品中遇到的关键字。

什么算法或方法会派上用场? 如何使用我的数据?

【问题讨论】:

  • 您是否有大量带有关键字的产品可用于学习?
  • 是的,我确实有与“某些”产品描述相关的关键字。

标签: algorithm machine-learning nlp keyword


【解决方案1】:

尝试查看基本模型,例如:词频或 TF-IDF,这给了你一些重要的词:https://en.wikipedia.org/wiki/Tf%E2%80%93idf, 然后搜索文本聚类(将文本聚类成彼此相关的组)和主题检测方法(这可以帮助您找到与文档相关的突出单词和主题)

然后你可以为每个集群找到关键字(也可以考虑文档的类别),并尝试找到与另一个词最相关的词

我建议阅读本书的部分/或全部章节:http://nlp.stanford.edu/IR-book/https://en.wikipedia.org/wiki/Tf%E2%80%93idf

【讨论】:

  • 我可以做文档(描述)相似度(基本上是基于 TF-IDF)吗?然后从相似文档列表中推荐在大多数文档中找到的关键字?
猜你喜欢
  • 1970-01-01
  • 2015-03-20
  • 2021-12-05
  • 1970-01-01
  • 1970-01-01
  • 2015-06-30
  • 2010-10-11
  • 2012-03-20
  • 1970-01-01
相关资源
最近更新 更多