【问题标题】:Part of speech tagging with Viterbi algorithm使用 Viterbi 算法进行词性标注
【发布时间】:2014-02-27 03:46:22
【问题描述】:

我正在做一个项目,我需要使用 Viterbi 算法对句子列表进行词性标注。对于我的训练数据,我有一些已经用单词标记的句子,我认为我需要解析并存储在一些数据结构中。然后我有一个测试数据,其中还包含每个单词都被标记的句子。

我对如何解决这个问题有点困惑。我想部分问题源于我认为我没有完全理解维特比算法的要点。我是否应该使用 Viterbi 算法来标记我的测试数据并将结果与​​实际数据进行比较?什么数据结构最适合做这件事并表示一个句子?

任何帮助将不胜感激。

【问题讨论】:

标签: algorithm nlp


【解决方案1】:

维特比算法不会标记您的数据。您应该手动(或由最先进的解析器半自动)标记数据以进行训练。

Viterbi 用于计算到一个节点的最佳路径,并找到到每个节点的路径具有最低的负对数概率。

HMM (Viterbi) 词性标注器的 Python 实现:https://github.com/zachguo/HMM-Trigram-Tagger/blob/master/HMM.py

【讨论】:

    猜你喜欢
    • 2016-08-24
    • 1970-01-01
    • 2014-04-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-12-28
    • 1970-01-01
    • 2017-04-22
    相关资源
    最近更新 更多