【发布时间】:2014-07-10 20:20:28
【问题描述】:
我有以下项目,我需要用与这些新闻项目相关的公司名称来标记新闻项目(公司名称在新闻项目中提到,在许多情况下,在新闻项目的标题中)。
例如:我有大约 2000 条新闻项目(XML 格式),用公司名称及其与故事的相关性级别(高/低)标记[这是手动完成的]。对于每个新闻项目,我都有以下字段:
story_ID,标题;故事_文本;公司名;相关度(H/L)
最后两个字段是手动输入的。
我需要自动化这个标记过程,即我需要用公司名称及其与 High(H)/Low(L) 的相关性来标记传入的新闻项目。
注意:
有些新闻项目与任何公司都不相关,因此没有标记。
一些新闻项目与多家公司相关,因此这些新闻项目标有多个公司名称及其相应的相关级别。
我想知道我们可以使用哪些机器学习算法。我对自然语言处理非常陌生。所以我无法掌握如何解决问题。我知道我需要使用多标签/多类分类,但我从来没有使用过多标签分类。
任何帮助将不胜感激。
谢谢。
【问题讨论】:
标签: machine-learning nlp tagging