【发布时间】:2013-09-23 11:34:17
【问题描述】:
我的问题非常简单,我花了几个小时在网上搜索现有的为主题/单词生成关键字的方法。 例如,如果我的输入是:
面向对象编程
我希望我的输出符合:
类、对象、友元函数、静态变量等
我目前的解决方案想法是搜索我感兴趣的特定主题,为其生成关键字,获取前 x(许多) 个结果页面,从中删除所有标签和停用词,通过 Python nltk 传递每个单词lemmatizer 得到它的基本形式,所以我不会多次计算本质上相同的单词(“performance”和“performer”都将变为“perform”),然后计算每个单词的出现次数,并抓住顶部x% 作为与我的搜索主题最相关的词。
第一个问题是它不会生成任何短语,因为它单独处理每个单词,第二个问题是在这个领域必须已经做了一些事情,我在研究期间得出的结果是:上下文向量(看起来与我想要的非常相似,但实际上它们并不是真的......我认为...... :p)第二件事是波特词干分析器算法,但后来我意识到词形还原对我的事业来说要好得多......我还看到了很多用于网站增加流量的“关键字生成器”,但我非常怀疑我是否可以将其中任何一个用于我想做的事情。
如果有人能指出算法或现有研究的方向,或任何其他方面,我真的很感激 :)
【问题讨论】:
标签: nlp keyword-search