语言学研究中最酷的结果之一:
- 所有的语言在说话时都以相似的速度传递信息(39比特/秒)。
- 说得快的语言每个音节的信息密度更小!
不同语言之间存在巨大的差异,包括音素、音节数量和音高复杂性。尽管如此,所有自然语言都允许其使用者有效地编码和传输信息。
通过对17种语言的大型跨语言语料库进行定量研究,结果显示不同语言在每个音节的信息量(信息密度)和说话者语速之间的耦合,导致所有语言编码的信息率(简称IR)相似,大约为39比特/秒。
推论:
- 这意味着尽管每种语言在信息密度和语速上存在差异,但整体信息传输速率相近。
- 这种相似的信息传输速率可能与说话或理解语言的努力有关,或与脑电波频率有关。
详细要点:
每种人类语言都为其使用者提供了一种通信系统,以满足他们向同伴传递信息的需求。
- 均匀信息密度假设表明,说话者沿着语音信号以平滑分布而不是高振幅波动的方式分配信息。
- 这个假设与香农理论相一致,此优化过程保证以接近信道容量的速率进行稳健的信息传输。
本文在这里采用了一种完全不同的视角,在非常不同的语言中比较信息发射的平均速率(信息率IR):
- 这种方法使我们能够估计信道容量,并评估在编码方面观察到的语言间巨大差异是否导致信道容量的模拟差异,
- 或者相反,是否存在超出语音生成过程中局部适应的补偿策略。
信息率IR太低会阻碍交流效率吗?或
信息率IR太高是否增加认知负担?
我们研究了来自欧洲和亚洲 9 个语系的 17 种语言样本,这些语言在各个层面的语言和类型学特征方面都表现出显著的多样性,从语音和音系到形态和句法,再到语义和语用。
从语音和音系来看,这些语言有:
1、不同音素数量
- 从日语和西班牙语的 25 个到英语和泰语的 40 多个、
2、不同音节的数量
- 从日语的几百个到英语的近 7000 个
3、音调复杂性
- 从无到六个对比音调
4、各种其他音系现象
- 芬兰语、匈牙利语、韩语和土耳其语中存在元音和谐。
由于样本规模大、多样性强,该样本足以揭示出反映可能推广到人类语言的现象的稳健趋势。
测试方法:
我们收集了 17 种语言的 170 位成年母语人士的录音,每位人士都以正常速度阅读一组标准化的、包含 15 个语义相似的文本(共计约 240,000 个音节)。
说话者在录音前会阅读几遍以熟悉文本,这样他们就能理解所描述的情况并尽量减少阅读错误。
结果:
那么,对于某种语言:说话速度快的说话者是否可能会产生较少的信息量?
答案是否定的。
研究表明,尽管不同语言的说话者语速各异,但不同语言的信息传输速度是接近的,大约为每秒39比特。这意味着,即使说话速度快的说话者,他们产生信息量并不会因此减少。
具体来说,研究发现,口语信息密度高的语言使用者的语速较慢。例如,巴斯克语的音节信息密度为4比特,而越南语的音节信息密度为8比特,但巴斯克语的语速为每秒8个音节,而越南语的语速为每秒5个音节,使得两种语言传递信息的速度相似。
这表明,尽管单个音节的信息量不同,但通过调整语速,不同语言能够实现相似的信息传输速率。
不同语言单位时间内的音节数是不同的,但传输信息的速度是相似的,都是大约每秒39比特:
- 语速快的是因为单个音节包含的信息少
- 语速慢的是因为单个音节的信息多
这些研究结果为我们提供了对人类语言多样性和统一性的深刻见解,表明尽管语言在结构上存在巨大差异,但在信息传递效率上却表现出惊人的一致性。