福田新闻网

不同的语言,相同的信息:17种语言研究揭示如何以相似的速度交流

Big Data Digest 2019.9.13我要共享

大数据摘要

编译:李士林,刘俊义

如果您要去另一个国家,最严重的问题肯定是语言障碍的问题,甚至有时甚至抱怨语言的分类太详细。

但是,里昂大学研究人员的一项新研究表明,语言之间的差异可能比想象的要小。

“语言在音节中包含的信息和语音的速度方面有很大的不同。但是有趣的是,两种语言是平衡的,因此信息密集型语言的速度较慢,而信息量较少的语言则说研究的共同作者,里昂大学语言学实验室的研究员Dediu说。

搜索通用常量

Dediu的团队在尝试为语言找到一个“通用”常量时面临着巨大的挑战。世界上有7,000多种不同的语言,它们之间的联系很少。这甚至扩展到信息如何以单词编码的基本度量。

例如,不同语言的每个单词的音节数量变化很大,这意味着Shannon信息率也不同。但是,Dediu和他的团队有远见,不仅考虑单词,而且考虑单词的使用频率。

Dediu及其同事使用了来自欧洲和亚洲的17种不同语言的170名成年人的录音。每个说话者的任务是阅读一组15个大段文字,包括大约240,000个音节。

您每秒有几个音节?

研究人员根据其他两个选择将音节作为唯一的信息单元:

音素:由于Dedeo小组意识到语音中很容易忽略它们,因此它可以帮助我们区分单个单词的声音单位并予以排除

词汇:它被认为太具体了,无法进行比较。

科学家使用数据集和度量标准测试了他们的结果,揭示了世界语言之间的一些有趣差异:

英语有近7000个音节,而日语只有几百个。

语音速度从每秒4.3个音节到9.1个音节

元音和声(一种引人入胜的语言创新,要求后缀必须与所连接的单词“和声”)

简而言之,这些语言听起来完全不同。

然而,Dediu的团队注意到,鉴于书面文本的速度和密度,所有记录的语言信息率基本相同;信息丰富的文本阅读较慢,而信息较少的文本阅读较快。

语言就像姜饼人和驯鹿:这两个B/W版本使用不同的分辨率和灰度级别,但编码的信息相同,就像语言交换不同的策略,但同样有效。资料来源:丹德迪欧,里昂第二大学。

研究人员确定了一个数字 39.15位/秒,作为17种语言的平均信息率,这就又引出一些有趣的发现,例如,女性演讲者的演讲和信息率较低。

研究小组发现,书面文本的差异对信息率几乎没有影响,这表明研究结果可以推广到本文基于文本的研究之外。语音速率和音节数的变化明显大于信息速率,信息速率是有效的跨语言连接手段。

这对我们的大脑意味着什么?

研究人员认为,这一发现意味着信息率必须稳定在一个较紧的平均值附近,因为过高的信息率会阻碍大脑处理数据和清晰表达语言的能力;另一方面,低信息率要求大脑在提取意思之前记住太多的单词。

相关报道:

实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至

志愿者介绍后台回复“志愿者”加入我们 收藏举报投诉

大数据文摘出品

编译:李世林、刘俊寰

如果准备去另一个国家旅行,最令人头大的肯定是语言不通的问题,有时甚至还会抱怨语言的分类过于细化。

但是,里昂大学研究人员的一项新研究表明,语言之间的差异可能比想象的要小。

“语言在音节所包含的信息以及说话的速度方面差异很大。但有趣的是,这两种语言是相互平衡的,因此信息密集的语言说得慢,而信息较少的语言说得快。这意味着不同语言之间有一个非常相似的稳定的信息率。”该研究的共同作者,来自里昂大学的语言动力学实验室研究员Dediu说道。

通用常数的探寻

在试图为语言找到一个“通用”常数的过程中,Dediu的团队面临着相当大的挑战。世界上有超过7000种不同的语言,它们之间的联系非常少。这甚至扩展到信息如何用文字编码的基本度量。

例如,不同语言中每个单词的音节数量差别很大,这意味着香农信息率也不同。然而,Dediu和他的团队很有远见,不仅考虑了单词,也考虑了单词的使用频率。

Dediu和他的同事使用了来自欧洲和亚洲17种不同语言的170名成年人的录音。每位演讲者的任务是阅读一组15个大段的文本,大约由24万个音节组成。

一秒钟有几个音节?

研究人员选择音节作为他们唯一的信息单位,这是基于在另外两种选择上采用的:

音素:帮助我们区分单个单词的声音单位,被排除在外,因为德迪欧的团队意识到,它们在讲话中很容易被省略

词汇:被认为是过于语言特异性,不便于比较

有了数据集和度量标准之后,科学家们检验了他们的结果,由此揭示了世界语言之间的一些有趣的差异:

英语中有近7000个音节,而日语只有几百个

语速从4.3个音节到每秒9.1个音节不等

元音和谐(一种引人入胜的语言创新,要求后缀与所连接的单词保持“和谐”)出现在四种语言中

简而言之,这些语言听起来完全不同。

尽管如此,Dediu的团队注意到,考虑到书面文本的语速和信息密度,所有记录的语言信息率基本一致;信息丰富的文本阅读速度较慢,而信息较少的语言阅读速度更快。

语言就像姜饼人和驯鹿:这两个B/W版本使用不同的分辨率和灰度级别,但编码的信息相同,就像语言交换不同的策略,但同样有效。资料来源:丹德迪欧,里昂第二大学。

研究人员确定了一个数字 39.15位/秒,作为17种语言的平均信息率,这就又引出一些有趣的发现,例如,女性演讲者的演讲和信息率较低。

研究小组发现,书面文本的差异对信息率几乎没有影响,这表明研究结果可以推广到本文基于文本的研究之外。语音速率和音节数的变化明显大于信息速率,信息速率是有效的跨语言连接手段。

这对我们的大脑意味着什么?

研究人员认为,这一发现意味着信息率必须稳定在一个较紧的平均值附近,因为过高的信息率会阻碍大脑处理数据和清晰表达语言的能力;另一方面,低信息率要求大脑在提取意思之前记住太多的单词。

相关报道:

实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至

志愿者介绍后台回复“志愿者”加入我们