通过匹配字典单词提取句子答案

【问题标题】：Extracting sentences by matching dictionary words通过匹配字典单词提取句子
【发布时间】：2017-04-08 17:44:05
【问题描述】：

我有很多字符串，但包含感兴趣的单词或短语。例如： '我喜欢春天来了的樱花，我喜欢点击照片'

包含感兴趣的单词/短语“樱花”、“爱”和“点击”。

我的工作是找出带有感兴趣的单词/短语的句子。如果可能的话，对每个字符串进行评分，以便由两个或多个单词/短语组成的字符串比计数较少的字符串获得更好的分数。

这是递归下降解析的工作，还是有更快的方法来做到这一点？对于这项任务，我愿意牺牲一点速度来换取准确性。

我的字典将包含大约 250,000 个单词。我可以以任何我想要的方式将它们存储在磁盘上。是否有任何一种格式（可能是某种 db 文件格式）可以很好地适合我需要进行的那种查找？

是否有适合我的 CPAN 模块？或者有没有简单的解决方案。

谢谢

【问题讨论】：

标签： perl

【解决方案1】：

在 cpan 上搜索自然语言处理 (NLP)；例如Lingua::EN::*

还可以搜索“词袋”在线/期刊以获取该领域的介绍。

【讨论】：