关于语言信息熵的讨论

今天在小黑盒和人在帖子下面争论关于中文的信息熵到底是高还是低,略有感受,浅浅记录一下,发个XHH期刊。因为比较忙就不过分整理了。


引言

中文确实可以用很短的文本表示很多的信息,所以一开始我觉得应该是熵低才对,因为熵是越低越好的,信息熵也是一样。因此与人争论许久,也有了这篇文章。

与喝油的争论

关于信息熵

信息熵低是信息纯净,信息含量多的意思;信息熵高指的是信息混乱,提供的信息少的意思。

下面给你提供一段我们课件上的介绍信息熵的文本:

·数据点单词(ENTROPY)完整的时候,容易理解表达的意思,确定程度较高,对应的信息熵也较小。

·数据点被完全打乱的时候,难以理解其意思,造成不确定性也就多了,对应的信息熵也变大了。

课件

语言的信息熵

脸滚键盘是高熵,含有信息量高的是低熵,猴子打字越不容易敲出来的是低熵。

下面我们规定一个语言的信息熵:

一段表达同样含义的语言文字,长度越长,字符集越多,那么我们称这段文字的信息熵越低,这个没错吧?长度越长字符集越多,猴子越难滚出来。

那么对比中英文,

从两个情况考虑,一种是字符对比:

考虑中文常用字符5000,英文字符26,同语义下中文文本字符长度/英文文本字符长度大概在0.6到0.2之间,那么中英文字符状态空间的比大概分别是5000/132~5000/450000

另一种是考虑词汇集对比,中文常用词汇量(这个我参考的是词袋维度)5w~20w,英文常用词汇量7000个,中文长度/英文长度(以词汇为单位计量)大概1/2~1/3,那中英文状态空间大小比例是1/490~3e-7

好吧,我自己说服我自己了,不管是以字符还是词汇为单位,中文比英文都更容易通过脸滚键盘滚出来。看来确实中文信息熵更高。


分析

语言是一个状态空间,正常来讲,一个状态空间是没法衡量熵的,熵是衡量某个状态在状态空间中的一个属性或特征。但在这里,我们衡量的是一个语言(状态空间)中具有语义的状态平均具有的信息熵,我们将其称为语言空间熵。考虑到各状态空间有语义的状态大致相同(有的语言可能同义转换的状态更多,但在此不考虑了),因此这个结果就很intuitive了,状态空间越小那么其语言空间熵越大。

另外我们注意到相较于维度(词汇或是字符),长度对于语言空间熵的影响是指数级的,显然更加重要。这也是中文能够显著比其他语言高熵的原因,中文更短。


思考

下面讲一下这个结论的一些思考,熵往往体现着一个过程的进行程度,高熵体意味着成熟、衰败、已经快要结束了。所以中文的熵高并不是一个好的现象,在使用当中我们可以用到更少的词汇来表达我们的意思,这在生活当中是好的,但对语言的发展并不好。

就拿现在学术界的一些现象来举例,我们经常吐槽中文的一些翻译很呆,根本不符合其原意(要么为了符合原意把名字搞得很长,要么就是很莫名其妙的一个词汇,比如“体素”“鲁棒”)。这是因为在维度有限(每个词汇的字符长度尽量少,一般不超过2)的情况下,很容易出现某一个状态它的邻域内的状态都已经被使用了(有了它自己的含义),所以就需要拿一个离这个状态更远的一个状态来表示一个新的事物(就会显得很莫名其妙,不搭边),要么就是把空间的维度增加(词汇长度增加,或者造字),要么扩展文本的长度也可以增加状态空间的数量(本质和扩展维度相似)。

这也是为什么中文从文言文发展到了白话文,并且你会发现进来互联网上的语言越来越啰嗦了,这是因为利用之前的理论我们知道文言文的语言空间熵高得离谱,随着新事物的不断出现这种语言已经无法支持表示所有事物了,所以需要进化或淘汰,互联网语言变得啰嗦也是语言进化的一种表现。

另外,关于语言扩维难的问题,中文中不断地造字是不现实的,或者不易于表示,但是英文就可以,除了变得臃肿仍然能够在近义的情况下进行扩维。英文感觉有点类似于一种类哈夫曼编码的语言空间,能够无限的扩维。


总结

本文定义了一种新的语言指标,即语言空间熵。并且通过量化分析得出了中文的熵高于其他语言,文本长度对语言空间熵起到了至关重要的作用。同时也分析了中文的高熵在生活中的一些契合的现象,也探讨了其可能出现的后果。


能认真看到这里的也是神人了,我能写到这里也是神人了,快快电我牛牛。

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com