【问题标题】:How to impliment a Part-of-Speech (POS) tagger如何实现词性 (POS) 标注器
【发布时间】:2011-06-12 16:10:38
【问题描述】:

我正在寻找基于 PHP 的最佳方式来扫描大量文本条目(分类广告)并提取关键字 - 有人知道词性标记吗?有没有类似 PHP 的方法来做到这一点?

我扫描了很多在线分类广告 - 但没有一个分类!为了加快分类过程,我希望安装一个词性标注器 (http://en.wikipedia.org/wiki/Part-of-speech_tagging)。基本上,这些都是很酷的文本解析算法软件包,可以告诉我哪些词是名词(如“Apartment”、“Car”、“Dog”等)以及哪些词是垃圾,例如 at、if、and、but 等.但是...

有一些在线标签服务——雅虎提供的一种服务,如今似乎越来越少了人们的喜爱——施乐提供了另一种服务。不过,我真的很想安装我自己的库/软件并将其插入我的网络应用程序。

有人知道安装与 PHP Web 应用程序一起使用的 POS 标记的好方法吗?我很想弄清楚这一点,因此非常感谢您提供的任何信息、建议或其他智慧!

这里列出了许多不同的 POS 软件: http://www-nlp.stanford.edu/links/statnlp.html#Taggers (查看“POS 标记”)

感谢您阅读本文!

【问题讨论】:

  • 哪一个是最好的词性标注器?有什么想法吗?

标签: php parsing tags full-text-search tagging


【解决方案1】:

是的,我目前正在使用 Brill 标记器。它在某种程度上有效,尽管我希望我能弄清楚如何为其规则集做出贡献。它犯了很多错误,但仍然提供了大约 85% 的准确数据。我唯一的问题是它很慢!

它在重要的地方,在具有双重含义的单词上,它是正确的 - 但是,有许多约定无法解释,例如对比连词从句,例如,我可能会对某人说一些负面的话,但在逗号之后,说一些将极性反转为正极,或不反转。电脑看不到成语。

【讨论】:

    【解决方案2】:

    Ian Barber 用 PHP 实现了一个 Brill Tagger,他在他的 PHP/ir 网站上展示了它,并描述了使用它来分析推文。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-02-26
      • 2014-11-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-01-21
      相关资源
      最近更新 更多