【发布时间】:2017-04-08 17:44:05
【问题描述】:
我有很多字符串,但包含感兴趣的单词或短语。例如: '我喜欢春天来了的樱花,我喜欢点击照片'
包含感兴趣的单词/短语“樱花”、“爱”和“点击”。
我的工作是找出带有感兴趣的单词/短语的句子。如果可能的话,对每个字符串进行评分,以便由两个或多个单词/短语组成的字符串比计数较少的字符串获得更好的分数。
这是递归下降解析的工作,还是有更快的方法来做到这一点?对于这项任务,我愿意牺牲一点速度来换取准确性。
我的字典将包含大约 250,000 个单词。我可以以任何我想要的方式将它们存储在磁盘上。是否有任何一种格式(可能是某种 db 文件格式)可以很好地适合我需要进行的那种查找?
是否有适合我的 CPAN 模块?或者有没有简单的解决方案。
谢谢
【问题讨论】:
-
对于每个句子,您可以使用组装的正则表达式搜索单词。参见例如Regexp::Assemble
-
听起来您可以将所有短语塞入正则表达式并计算匹配项。
标签: perl