【发布时间】:2018-02-01 22:55:24
【问题描述】:
我想建立一个语言建模模型,它应该根据前一个单词和/或前一个句子预测句子中的下一个单词。
用例:我想自动编写报告。所以模型应该自动完成我正在写的句子。因此,名词和句子开头的单词大写很重要。
数据:数据为德语,包含大量技术术语。
我的文本语料库是德语,我目前正在进行预处理。因为我的模型应该预测语法正确的句子,所以我决定使用/不使用以下预处理步骤:
- 不删除停用词
没有词形还原
用数字替换所有表达式
- 同义词和缩写的规范化
- 用 RARE 替换稀有词
但是,我不确定是否将语料库转换为小写。在网上搜索时,我发现了不同的意见。虽然小写很常见,但它会导致我的模型错误地预测名词、句子开头等的大小写。
我还发现了在下面的Stanford page 上仅将句首的单词转换为小写的想法。
此用例的最佳策略是什么?我应该将文本转换为小写并在预测后将单词更改为正确的大小写吗?我应该保持大写不变吗?我应该只在句首小写单词吗?
非常感谢您的任何建议和经验!
【问题讨论】:
-
我认为提供有关您的实际用例的更多信息会有所帮助。您打算如何使用这些预测?
-
另外,您可能会在data science 中获得更多有用的答案——这并不是一个真正与编程相关的问题(或者根本不是特定于 python)。
-
你是对的,我已经更改了问题的标题并添加了用例。
-
请投票(或接受)有帮助的答案。
-
也可以写一些关于你的数据的东西——比如 Uri 下面提到的复合词——这在德语中通常是一个大问题,因为你可以构建无限长的词——但也许你的报告没有'不这样做,只是重复使用一小部分词汇?您的数据集中的词汇量是多少(忽略大小写,但删除数字)?还有你的语料有多大?
标签: python machine-learning nlp nltk