【问题标题】:Technical Word Separation技术分词
【发布时间】:2014-08-15 15:12:36
【问题描述】:

对于一个项目,我需要一个技术计算机科学词汇数据库(更具体地说,属于学术性质的词汇,因此堆栈溢出标签通常可能不起作用)。我正在尝试使用 Coursera 讲座文本文件构建数据库,但它们的问题是因为“ASR”文本没有明确地相互分离,例如“几个转换”一起出现在一个文本文件中。无论如何,我可以将它们分开吗?如果有任何现有的类似数据库,我们也将不胜感激。

【问题讨论】:

    标签: dataset nlp data-mining


    【解决方案1】:

    以下帖子与您的非常相似,可以为您提供一些见解。基本思想是创建一个 isword() 方法并在所有不是字典单词的字符串拆分上尝试它。 isword() 可以通过使用 trie 进行优化。这种方法非常简单,如果您只尝试拆分拼写检查失败的单词,应该足够快。

    How to split a string into words. Ex: "stringintowords" -> "String Into Words"?

    【讨论】: