【发布时间】:2014-08-15 15:12:36
【问题描述】:
对于一个项目,我需要一个技术计算机科学词汇数据库(更具体地说,属于学术性质的词汇,因此堆栈溢出标签通常可能不起作用)。我正在尝试使用 Coursera 讲座文本文件构建数据库,但它们的问题是因为“ASR”文本没有明确地相互分离,例如“几个转换”一起出现在一个文本文件中。无论如何,我可以将它们分开吗?如果有任何现有的类似数据库,我们也将不胜感激。
【问题讨论】:
标签: dataset nlp data-mining
对于一个项目,我需要一个技术计算机科学词汇数据库(更具体地说,属于学术性质的词汇,因此堆栈溢出标签通常可能不起作用)。我正在尝试使用 Coursera 讲座文本文件构建数据库,但它们的问题是因为“ASR”文本没有明确地相互分离,例如“几个转换”一起出现在一个文本文件中。无论如何,我可以将它们分开吗?如果有任何现有的类似数据库,我们也将不胜感激。
【问题讨论】:
标签: dataset nlp data-mining
以下帖子与您的非常相似,可以为您提供一些见解。基本思想是创建一个 isword() 方法并在所有不是字典单词的字符串拆分上尝试它。 isword() 可以通过使用 trie 进行优化。这种方法非常简单,如果您只尝试拆分拼写检查失败的单词,应该足够快。
How to split a string into words. Ex: "stringintowords" -> "String Into Words"?
【讨论】: