【发布时间】:2016-10-17 19:42:37
【问题描述】:
我正在启动一个项目来构建一个自动事实检查分类器,但我对要遵循的过程有些疑问。
我有一个包含约 1000 句句子的数据库,每句都是事实检查。为了建立一个有监督的机器学习模型,我需要有一大组带有真/假结果的标记句子,这取决于它是否是一个事实检查候选句子。这将需要大量的时间和精力,所以我想先得到结果(我猜准确性较低)。
我的想法是使用已经标记的肯定句并对其应用 PoS 标记器。这会给我一些有趣的信息来发现一些模式,比如最常见的词(例如:raised、increas、won)和帖子标签(例如过去/现在时的动词、时间和数字)。
有了这个结果,我正在考虑分配权重以分析新的未分类句子。问题是权重分配将由我以“启发式”方式完成。最好使用 PoS 标注器的结果来训练一些模型,以更复杂的方式分配概率。
如果有办法做到这一点,你能给我一些建议吗?
我阅读了有关最大熵分类器和统计解析器的信息,但我真的不知道它们是否是正确的选择。
编辑(我认为最好提供更多细节):
使用 PoS 标记器解析句子会给我一些关于每个句子的有用信息,让我可以使用一些自定义指标过滤它们并加权它们。
例如:
与五年前相比,贫困人口增加了 100 万 -> 事实核查候选句的指示:动词现在时、数字和日期、(比)比较。
我们将在下一年将 GDP 增加 3% -> 表示非事实检查候选句子:它是将来时(表示某种预测)
【问题讨论】:
标签: nlp pos-tagger