關於語言信息熵的討論

今天在小黑盒和人在帖子下面爭論關於中文的信息熵到底是高還是低，略有感受，淺淺記錄一下，發個XHH期刊。因爲比較忙就不過分整理了。

引言

中文確實可以用很短的文本表示很多的信息，所以一開始我覺得應該是熵低纔對，因爲熵是越低越好的，信息熵也是一樣。因此與人爭論許久，也有了這篇文章。

與喝油的爭論

關於信息熵

信息熵低是信息純淨，信息含量多的意思；信息熵高指的是信息混亂，提供的信息少的意思。

下面給你提供一段我們課件上的介紹信息熵的文本：

·數據點單詞（ENTROPY）完整的時候，容易理解表達的意思，確定程度較高，對應的信息熵也較小。

·數據點被完全打亂的時候，難以理解其意思，造成不確定性也就多了，對應的信息熵也變大了。

課件

語言的信息熵

臉滾鍵盤是高熵，含有信息量高的是低熵，猴子打字越不容易敲出來的是低熵。

下面我們規定一個語言的信息熵：

一段表達同樣含義的語言文字，長度越長，字符集越多，那麼我們稱這段文字的信息熵越低，這個沒錯吧？長度越長字符集越多，猴子越難滾出來。

那麼對比中英文，

從兩個情況考慮，一種是字符對比：

考慮中文常用字符5000，英文字符26，同語義下中文文本字符長度/英文文本字符長度大概在0.6到0.2之間，那麼中英文字符狀態空間的比大概分別是5000/132～5000/450000

另一種是考慮詞彙集對比，中文常用詞彙量（這個我參考的是詞袋維度）5w～20w，英文常用詞彙量7000個，中文長度/英文長度（以詞彙爲單位計量）大概1/2～1/3，那中英文狀態空間大小比例是1/490～3e-7

好吧，我自己說服我自己了，不管是以字符還是詞彙爲單位，中文比英文都更容易通過臉滾鍵盤滾出來。看來確實中文信息熵更高。

分析

語言是一個狀態空間，正常來講，一個狀態空間是沒法衡量熵的，熵是衡量某個狀態在狀態空間中的一個屬性或特徵。但在這裏，我們衡量的是一個語言（狀態空間）中具有語義的狀態平均具有的信息熵，我們將其稱爲語言空間熵。考慮到各狀態空間有語義的狀態大致相同（有的語言可能同義轉換的狀態更多，但在此不考慮了），因此這個結果就很intuitive了，狀態空間越小那麼其語言空間熵越大。

另外我們注意到相較於維度（詞彙或是字符），長度對於語言空間熵的影響是指數級的，顯然更加重要。這也是中文能夠顯著比其他語言高熵的原因，中文更短。

思考

下面講一下這個結論的一些思考，熵往往體現着一個過程的進行程度，高熵體意味着成熟、衰敗、已經快要結束了。所以中文的熵高並不是一個好的現象，在使用當中我們可以用到更少的詞彙來表達我們的意思，這在生活當中是好的，但對語言的發展並不好。

就拿現在學術界的一些現象來舉例，我們經常吐槽中文的一些翻譯很呆，根本不符合其原意（要麼爲了符合原意把名字搞得很長，要麼就是很莫名其妙的一個詞彙，比如“體素”“魯棒”）。這是因爲在維度有限（每個詞彙的字符長度儘量少，一般不超過2）的情況下，很容易出現某一個狀態它的鄰域內的狀態都已經被使用了（有了它自己的含義），所以就需要拿一個離這個狀態更遠的一個狀態來表示一個新的事物（就會顯得很莫名其妙，不搭邊），要麼就是把空間的維度增加（詞彙長度增加，或者造字），要麼擴展文本的長度也可以增加狀態空間的數量（本質和擴展維度相似）。

這也是爲什麼中文從文言文發展到了白話文，並且你會發現進來互聯網上的語言越來越囉嗦了，這是因爲利用之前的理論我們知道文言文的語言空間熵高得離譜，隨着新事物的不斷出現這種語言已經無法支持表示所有事物了，所以需要進化或淘汰，互聯網語言變得囉嗦也是語言進化的一種表現。

另外，關於語言擴維難的問題，中文中不斷地造字是不現實的，或者不易於表示，但是英文就可以，除了變得臃腫仍然能夠在近義的情況下進行擴維。英文感覺有點類似於一種類哈夫曼編碼的語言空間，能夠無限的擴維。