【发布时间】:2014-04-27 22:06:15
【问题描述】:
亲爱的,我正在从事一个项目,我必须使用论文标题将研究论文分类到相应的领域。例如,如果在标题中某处出现短语“计算机网络”,则应将本文标记为与“计算机网络”概念相关。我有 300 万篇研究论文。所以我想知道我应该如何开始。我曾尝试使用 tf-idf 但无法获得实际结果。有人知道图书馆可以轻松完成这项任务吗?请推荐一个。我会很感激的。
【问题讨论】:
-
300 万篇研究论文和人们在堆栈溢出中询问。这就是我们所知道的学院的终结:-)
-
你可能会发现这个社区有比这个更聪明的人来回答这个问题 :-) stats.stackexchange.com
-
你提前准确知道分类的数量吗? (例如医学、力学、IT、航空航天......)还是要自动构建它?
-
是类别不相交的集合还是一篇论文被允许分为两个或多个类别?
-
不,我不提前知道分类,我知道的是所有论文都与IT有关
标签: machine-learning document-classification