技术分词

【问题标题】：Technical Word Separation技术分词
【发布时间】：2014-08-15 15:12:36
【问题描述】：

对于一个项目，我需要一个技术计算机科学词汇数据库（更具体地说，属于学术性质的词汇，因此堆栈溢出标签通常可能不起作用）。我正在尝试使用 Coursera 讲座文本文件构建数据库，但它们的问题是因为“ASR”文本没有明确地相互分离，例如“几个转换”一起出现在一个文本文件中。无论如何，我可以将它们分开吗？如果有任何现有的类似数据库，我们也将不胜感激。

【问题讨论】：

标签： dataset nlp data-mining

【解决方案1】：

以下帖子与您的非常相似，可以为您提供一些见解。基本思想是创建一个 isword() 方法并在所有不是字典单词的字符串拆分上尝试它。 isword() 可以通过使用 trie 进行优化。这种方法非常简单，如果您只尝试拆分拼写检查失败的单词，应该足够快。

How to split a string into words. Ex: "stringintowords" -> "String Into Words"?

【讨论】：