電腦文字編碼發展史

重要里程碑

年份	事件	重要性
1946	ENIAC	第一台電子計算機
1951	UNIVAC I	第一台商用電腦
1971	Intel 4004	第一顆微處理器
1981	IBM PC	個人電腦標準
1984	Macintosh	圖形使用者介面普及
1991	World Wide Web	網際網路革命

ASCII 編碼 (1967)

ASCII = American Standard Code for Information Interchange

設計理念

英文字母只有 26 個，加上大小寫、符號、數字
在 1 byte (8 bits) 中，可以用的綽綽有餘
使用 7 bits 編碼：0000 0000 到 0111 1111
總共可表示 2^7 = 128 個字符

編碼範圍

0 ~ 127 (十進位)
0000 0000 ~ 0111 1111 (二進位)

特點

簡單高效
適合英文環境
向下相容性好

Big5 編碼 (1984)

背景

在 ASCII 無法表示中文的情況下，臺灣資訊產業需要一套能處理繁體中文的編碼方案。1984 年，宏碁（Acer）、神通（MiTAC）、佳佳（III）與零壹（Zero One）等單位共同提出 Big5，成為繁體中文電腦環境的重要標準。

設計重點

採用 雙位元組（2 bytes）為主 的編碼方式表示中文
與 ASCII 並存：英文與控制字元仍可用單位元組表示
主要收錄常用繁體中文字符，適合當時臺灣與香港的使用情境

影響與限制

在 Windows、DOS、早期網站與 BBS 時代被廣泛使用
促進繁體中文數位化與在地軟體發展
不同延伸版本（如 Big5-ETen、CP950）造成相容性問題
字符集覆蓋有限，跨語系與跨地區交換資料時常出現亂碼

UTF-8 編碼 (1992)

背景

1983 年左右，網路開始盛行，網頁上需要支援多國語言內容。兩位程式設計師「肯·湯普遜」和「羅布·派克」提出了 Unicode 標準。

問題與挑戰

Unicode 問題：從 1 byte 擴展到 4 bytes
記憶體浪費：英文系國家只用到前面 1 byte，後面 3 bytes 被浪費
向下相容性：需要與現有的 ASCII 系統相容
區域編碼割裂：Big5、Shift_JIS、GB 等編碼彼此不相容，跨國交換資料困難

UTF-8 解決方案

1992 年推出的 UTF-8 編碼完美解決了這些問題：

編碼規則

1 byte：ASCII 字符 (0-127)
2 bytes：歐洲語言字符
3 bytes：中文、日文、韓文等
4 bytes：特殊符號

優勢

✅ 向下相容 ASCII
✅ 節省記憶體空間
✅ 支援多國語言
✅ 編碼效率高

編碼範例

ASCII 字符 'A' (65):
01000001 (1 byte)

中文字符 '中':
11100100 10111000 10101101 (3 bytes)

參考資料

UTF-8 編碼表

來源：UTF-8 - 維基百科

總結

從 ASCII 到 UTF-8 的發展，反映了電腦技術從單一語言支援到多語言國際化的演進過程。UTF-8 的成功在於它既保持了與 ASCII 的相容性，又能夠高效地支援全球各種語言，成為現代網際網路的標準編碼方式。

重要里程碑​

ASCII 編碼 (1967)​

設計理念​

編碼範圍​

特點​

Big5 編碼 (1984)​

背景​

設計重點​

影響與限制​

UTF-8 編碼 (1992)​

背景​

問題與挑戰​

UTF-8 解決方案​

編碼規則​

優勢​

編碼範例​

參考資料​

總結​