【发布时间】:2011-11-10 17:19:21
【问题描述】:
我正在用 C# 编写一个自然语言处理器,用于提取句子的情绪(正面/负面)。但是,在识别拼写错误的单词的情绪方面存在一些问题 - 如果它不在字典中,我既不能标记它也不能评价它!
我知道必须有办法处理这个问题。谷歌一直提供准确的建议,我只需要从类似算法中获取最高建议并用它访问数据库。问题是,我不确定从哪里开始使用算法名称等等。我需要帮助解决这个问题。
我在网站上查看了类似的问题,发现了一些似乎有用的概念,但处理拼写错误和真实单词之间距离的基本方法基本上依赖于点击数据集中的每个单词,这看起来很可怕效率低下。一些有助于使算法快速运行的想法也将不胜感激;这个分析引擎应该能够每天处理数千个项目。
提前致谢。
【问题讨论】:
-
您可以连接到 google 的 API 来为您执行此操作。它可能比大多数图书馆解决方案提供更好的结果。但是,您必须处理 200 毫秒的往返时间,这并不理想。
-
可以缓存结果并构建本地字典
-
@Oliver,介意链接一篇关于如何做到这一点的文章,最好是在它自己的答案中?我同意这不是真正的理想情况,但同样的道理,当某些东西已经像谷歌的机制一样有效时,我不考虑它有点愚蠢!
-
@YYY,对不起,看来我有点落伍了。谷歌大约一年前关闭了他们的拼写 API。
标签: c# algorithm nlp autocorrect