【问题标题】:Relationship between vocab size and complexity词汇量和复杂度之间的关系
【发布时间】:2022-12-16 21:21:18
【问题描述】:

我有 2 个语料库,如果一个的词汇量比另一个大,是否意味着它的语言更复杂?

除了语言的复杂性,还有什么会影响语料库中词汇量的大小?

【问题讨论】:

    标签: nlp corpus linguistics


    【解决方案1】:

    不,语言不仅仅包含词汇。如果语法结构复杂,那么即使是较小的词汇量也可能导致非常复杂的句子。

    为了正确回答第二部分,您需要首先定义“复杂性”的确切含义。这不是一个可以轻易量化的衡量标准(例如,句子长度)。

    大多数阅读理解测量结合了单词和句子的长度,假设更长的单词和更长的句子更难理解;然而,较短的单词往往具有更多不同的含义,如果从上下文中不清楚它们的含义,则可能更难理解。

    澄清后更新:词汇表的大小取决于多种因素,例如:

    1. 作者的活跃词汇:如果我用我的母语(我的词汇量很大)写一篇文章,我在其中使用的不同单词的数量会更多。如果我用我不知道那么多单词的外语写,它当然会更小
    2. 语言本身:有点反常,但由于其历史,英语的词汇量比其他一些语言大得多。近义词很多,所以更容易使用更多不同的词。其他语言更受限制。
    3. 主题:这可能是最大的因素,因为非常有限的技术主题会导致词汇量更加有限。*一般使用的词范围很广,但如果只拿动物的文章,词汇会比较局限。
    4. 风格:类似于(1),我的写作方式对词汇量有影响。通过限制我的词汇量,我可以使文本更“简单”(并留给读者更多的想象力)。

    【讨论】:

    • 抱歉回复晚了。从第二个问题我的意思是:哪些因素会影响语料库的词汇量?
    • @daniel 我添加了一个更新。
    • 感谢这个非常有用的回复
    【解决方案2】:

    除了 Oliver 提到的以外,根据我的专业经验,语料库中词汇量的大小通常取决于以下因素:

    1. 您究竟如何对语料库中的词汇进行分词和计数? 例如,如果您将复合名词算作许多单独的标记,与将每个复合名词算作一个标记相比,您的数字会略有不同。
    2. (详细说明 Oliver 上面提到的“主题”问题):每个特定主题都有自己的一组术语(针织与空域工程),但总的术语密度将取决于作者的词汇量。
    3. 包含外来词

      关于您的第一个语言复杂性问题,每种语言的复杂性都与手头的问题有关。如果我们正在开发一个英日翻译——日语非常复杂,如果一个中国人正在学习日语,它会适度复杂。如果我们比较屈折形态:俄语和德语比英语更复杂。基本上,根据参与者的观点,有很多看待语言复杂性问题的方法。

    【讨论】:

    • 我认为所有语言都同样复杂,否则进化会确保使用最不复杂的语言。它们具有不同方面的复杂性:英语词汇量大,芬兰语复杂,等等。相关的语言对更容易(例如瑞典语和德语,或荷兰语),而不是更多不同的语言对(法语和韩语)。
    • @OliverMason,是的,绝对!然而,对复杂性的感知是相对的,这就是我上面的观点。