【问题标题】:Generating words relevant to a word生成与单词相关的单词
【发布时间】:2013-09-23 11:34:17
【问题描述】:

我的问题非常简单,我花了几个小时在网上搜索现有的为主题/单词生成关键字的方法。 例如,如果我的输入是:

面向对象编程

我希望我的输出符合:

类、对象、友元函数、静态变量等

我目前的解决方案想法是搜索我感兴趣的特定主题,为其生成关键字,获取前 x(许多) 个结果页面,从中删除所有标签和停用词,通过 Python nltk 传递每个单词lemmatizer 得到它的基本形式,所以我不会多次计算本质上相同的单词(“performance”和“performer”都将变为“perform”),然后计算每个单词的出现次数,并抓住顶部x% 作为与我的搜索主题最相关的词。

第一个问题是它不会生成任何短语,因为它单独处理每个单词,第二个问题是在这个领域必须已经做了一些事情,我在研究期间得出的结果是:上下文向量(看起来与我想要的非常相似,但实际上它们并不是真的......我认为...... :p)第二件事是波特词干分析器算法,但后来我意识到词形还原对我的事业来说要好得多......我还看到了很多用于网站增加流量的“关键字生成器”,但我非常怀疑我是否可以将其中任何一个用于我想做的事情。

如果有人能指出算法或现有研究的方向,或任何其他方面,我真的很感激 :)

【问题讨论】:

    标签: nlp keyword-search


    【解决方案1】:

    您正在寻找的是focused crawler。看看BootCat。 BootCat 将关键字提取为 n-gram,但您可以使用自己的算法从网页中提取关键字(而不是将空格分隔的字符串提取为单词)。您还可以使用一些库或 REST API 进行关键字提取,它们将为您提取多字关键字。 Here,在“外部链接”部分,您可以找到一些关键字提取器的列表。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-05-20
      • 1970-01-01
      • 1970-01-01
      • 2021-03-17
      • 2011-09-14
      • 2018-10-24
      相关资源
      最近更新 更多