“字節”“跳動”————“錕斤拷”“��”等奇怪亂碼的由來

最近在一次整理電腦文件的時候遇到了這樣一個問題，在C盤的用戶文件夾裏，有許多“��”“閻滃緙氶柧鐠ppData“等等這些令人摸不到頭的名字。

我的c盤

爲了理解這一問題，我們首先要明白，我們的計算機只能識別二進制語言，無法直接讀取”盒“”h“”3“這樣的漢字，字母或者數字。換句話說，我們的計算機只認0和1。

計算機顯示出文字，這一過程涉及三個概念，”字符“”字符集“”字符編碼“。”你“”好“這兩個就是字符，而組在一起”你好“，便成了字符集，可是我們的計算機無法理解”你好“，這時候便需要我們進行編碼轉換成計算機可以理解的“語言”。

這裏我們可以運用小學數學知識進行理解

可以理解爲座標？

我們首先把行和列的標號轉換爲二進制

編碼成二進制

”快來電電我的牛牛“這句話在計算機看來就成了”0000 0001 0101 0101 1000 1010 1111 1111“

計算機存儲的基本單位是”字節“，一個字節有8個二進制位（0或1）組成，這樣的話，一個字節便可以表示2^8個狀態，可對於26個英文字母可算是一個天文數字了。後來美國人制定了”美國信息交換標準代碼“，也就是ASCII，其中收錄了26個英文字母以及數字標點還有其他字符，總共所佔用的字符也就是128個。

此時此刻英語體系的世界完成了計算機文字編碼和使用。

可是世界上的語言有很多，其他國家也需要自己的編碼標準來適配自己的語言。上面說到了1個字節可以有256個狀態，ASCII只佔用了一半的空間，剩下的一半就被其他國家自己拓展使用，制定了許多版本的“擴展美國信息交換標準代碼”EASCII，如此紛雜的標準，導致同一段字符集在不同的標準體系下表示不同內容，這時便產生了亂碼。

這時我們將目光轉到漢語。漢語比於其他語言體系要大得多，單單日常生活中最常用的漢字已經有了上千個，外加一些生僻字簡直數不勝數。同時漢字不但有簡體和繁體之分，整個東亞文化圈的國家都或多或少有漢字的使用，這就爲信息交換代碼標準的制定造成了很大的困難。

中國自己制定了GB2312標準，日本朝鮮韓國也都有自己的編碼標準，彼此之間的兼容性很差，後來微軟制定了GBK，對GB2312進行一個拓展，但實際上也沒有改善兼容性問題。