【发布时间】:2011-06-12 16:10:38
【问题描述】:
我正在寻找基于 PHP 的最佳方式来扫描大量文本条目(分类广告)并提取关键字 - 有人知道词性标记吗?有没有类似 PHP 的方法来做到这一点?
我扫描了很多在线分类广告 - 但没有一个分类!为了加快分类过程,我希望安装一个词性标注器 (http://en.wikipedia.org/wiki/Part-of-speech_tagging)。基本上,这些都是很酷的文本解析算法软件包,可以告诉我哪些词是名词(如“Apartment”、“Car”、“Dog”等)以及哪些词是垃圾,例如 at、if、and、but 等.但是...
有一些在线标签服务——雅虎提供的一种服务,如今似乎越来越少了人们的喜爱——施乐提供了另一种服务。不过,我真的很想安装我自己的库/软件并将其插入我的网络应用程序。
有人知道安装与 PHP Web 应用程序一起使用的 POS 标记的好方法吗?我很想弄清楚这一点,因此非常感谢您提供的任何信息、建议或其他智慧!
这里列出了许多不同的 POS 软件: http://www-nlp.stanford.edu/links/statnlp.html#Taggers (查看“POS 标记”)
感谢您阅读本文!
【问题讨论】:
-
哪一个是最好的词性标注器?有什么想法吗?
标签: php parsing tags full-text-search tagging