電腦文字編碼發展史
重要里程碑
| 年份 | 事件 | 重要性 |
|---|---|---|
| 1946 | ENIAC | 第一台電子計算機 |
| 1951 | UNIVAC I | 第一台商用電腦 |
| 1971 | Intel 4004 | 第一顆微處理器 |
| 1981 | IBM PC | 個人電腦標準 |
| 1984 | Macintosh | 圖形使用者介面普及 |
| 1991 | World Wide Web | 網際網路革命 |
ASCII 編碼 (1967)
ASCII = American Standard Code for Information Interchange
設計理念
- 英文字母只有 26 個,加上大小寫、符號、數字
- 在 1 byte (8 bits) 中,可以用的綽綽有餘
- 使用 7 bits 編碼:
0000 0000到0111 1111 - 總共可表示 2^7 = 128 個字符
編碼範圍
0 ~ 127 (十進位)
0000 0000 ~ 0111 1111 (二進位)
特點
- 簡單高效
- 適合英文環境
- 向下相容性好
Big5 編碼 (1984)
背景
在 ASCII 無法表示中文的情況下,臺灣資訊產業需要一套能處理繁體中文的編碼方案。1984 年,宏碁(Acer)、神通(MiTAC)、佳佳(III)與零壹(Zero One)等單位共同提出 Big5,成為繁體中文電腦環境的重要標準。
設計重點
- 採用 雙位元組(2 bytes)為主 的編碼方式表示中文
- 與 ASCII 並存:英文與控制字元仍可用單位元組表示
- 主要收錄常用繁體中文字符,適合當時臺灣與香港的使用情境
影響與限制
- 在 Windows、DOS、早期網站與 BBS 時代被廣泛使用
- 促進繁體中文數位化與在地軟體發展
- 不同延伸版本(如 Big5-ETen、CP950)造成相容性問題
- 字符集覆蓋有限,跨語系與跨地區交換資料時常出現亂碼
UTF-8 編碼 (1992)
背景
1983 年左右,網路開始盛行,網頁上需要支援多國語言內容。兩位程式設計師「肯·湯普遜」和「羅布·派克」提出了 Unicode 標準。
問題與挑戰
- Unicode 問題:從 1 byte 擴展到 4 bytes
- 記憶體浪費:英文系國家只用到前面 1 byte,後面 3 bytes 被浪費
- 向下相容性:需要與現有的 ASCII 系統相容
- 區域編碼割裂:Big5、Shift_JIS、GB 等編碼彼此不相容,跨國交換資料困難
UTF-8 解決方案
1992 年推出的 UTF-8 編碼完美解決了這些問題:
編碼規則
- 1 byte:ASCII 字符 (0-127)
- 2 bytes:歐洲語言字符
- 3 bytes:中文、日文、韓文等
- 4 bytes:特殊符號
優勢
- ✅ 向下相容 ASCII
- ✅ 節省記憶體空間
- ✅ 支援多國語言
- ✅ 編碼效率高
編碼範例
ASCII 字符 'A' (65):
01000001 (1 byte)
中文字符 '中':
11100100 10111000 10101101 (3 bytes)
參考資料

來源:UTF-8 - 維基百科
總結
從 ASCII 到 UTF-8 的發展,反映了電腦技術從單一語言支援到多語言國際化的演進過程。UTF-8 的成功在於它既保持了與 ASCII 的相容性,又能夠高效地支援全球各種語言,成為現代網際網路的標準編碼方式。