【发布时间】:2014-01-08 20:31:55
【问题描述】:
我是 NLP 领域的新手,但我目前的研究需要从 URL 地址中进行一些文本解析(或称为关键字提取),例如一个虚假的网址,
http://ads.goole.com/appid/heads
我的解析有两个约束,
-
第一个“ads”和最后一个“heads”应该不同,因为“heads”中的“ads”意味着更多的后缀而不是广告。
-
“appid”可以解析成两部分;也就是‘app’和‘id’,都是在互联网上的语义含义。
我已经尝试过Stanford NLP 工具包和谷歌搜索引擎。前者试图将每个单词按我预期的语法含义进行分类。谷歌引擎对“appid”表现出更多的聪明,它给了我关于“app id”的建议。
我无法在谷歌搜索中查看搜索历史的参考,因此它给了我“app id”,因为有很多人搜索过这些词。可以获取一些离线的方法来进行类似的解析吗??
更新:
请跳过正则表达式建议,因为即使是简单的 URL,也可能包含未知数量的单词组合,例如“appid”。
谢谢,
贾敏
【问题讨论】:
标签: web nlp text-segmentation