【发布时间】:2022-12-16 21:21:18
【问题描述】:
我有 2 个语料库,如果一个的词汇量比另一个大,是否意味着它的语言更复杂?
除了语言的复杂性,还有什么会影响语料库中词汇量的大小?
【问题讨论】:
标签: nlp corpus linguistics
我有 2 个语料库,如果一个的词汇量比另一个大,是否意味着它的语言更复杂?
除了语言的复杂性,还有什么会影响语料库中词汇量的大小?
【问题讨论】:
标签: nlp corpus linguistics
不,语言不仅仅包含词汇。如果语法结构复杂,那么即使是较小的词汇量也可能导致非常复杂的句子。
为了正确回答第二部分,您需要首先定义“复杂性”的确切含义。这不是一个可以轻易量化的衡量标准(例如,句子长度)。
大多数阅读理解测量结合了单词和句子的长度,假设更长的单词和更长的句子更难理解;然而,较短的单词往往具有更多不同的含义,如果从上下文中不清楚它们的含义,则可能更难理解。
澄清后更新:词汇表的大小取决于多种因素,例如:
【讨论】:
除了 Oliver 提到的以外,根据我的专业经验,语料库中词汇量的大小通常取决于以下因素:
关于您的第一个语言复杂性问题,每种语言的复杂性都与手头的问题有关。如果我们正在开发一个英日翻译——日语非常复杂,如果一个中国人正在学习日语,它会适度复杂。如果我们比较屈折形态:俄语和德语比英语更复杂。基本上,根据参与者的观点,有很多看待语言复杂性问题的方法。
【讨论】: