Skip to main content

電腦文字編碼發展史

重要里程碑

年份事件重要性
1946ENIAC第一台電子計算機
1951UNIVAC I第一台商用電腦
1971Intel 4004第一顆微處理器
1981IBM PC個人電腦標準
1984Macintosh圖形使用者介面普及
1991World Wide Web網際網路革命

ASCII 編碼 (1967)

ASCII = American Standard Code for Information Interchange

設計理念

  • 英文字母只有 26 個,加上大小寫、符號、數字
  • 在 1 byte (8 bits) 中,可以用的綽綽有餘
  • 使用 7 bits 編碼:0000 00000111 1111
  • 總共可表示 2^7 = 128 個字符

編碼範圍

0 ~ 127 (十進位)
0000 0000 ~ 0111 1111 (二進位)

特點

  • 簡單高效
  • 適合英文環境
  • 向下相容性好

UTF-8 編碼 (1992)

背景

1983 年左右,網路開始盛行,網頁上需要支援多國語言內容。兩位程式設計師「肯·湯普遜」和「羅布·派克」提出了 Unicode 標準。

問題與挑戰

  • Unicode 問題:從 1 byte 擴展到 4 bytes
  • 記憶體浪費:英文系國家只用到前面 1 byte,後面 3 bytes 被浪費
  • 向下相容性:需要與現有的 ASCII 系統相容

UTF-8 解決方案

1992 年推出的 UTF-8 編碼完美解決了這些問題:

編碼規則

  • 1 byte:ASCII 字符 (0-127)
  • 2 bytes:歐洲語言字符
  • 3 bytes:中文、日文、韓文等
  • 4 bytes:特殊符號

優勢

  • 向下相容 ASCII
  • 節省記憶體空間
  • 支援多國語言
  • 編碼效率高

編碼範例

ASCII 字符 'A' (65):
01000001 (1 byte)

中文字符 '中':
11100100 10111000 10101101 (3 bytes)

參考資料

UTF-8 編碼表

來源:UTF-8 - 維基百科

總結

從 ASCII 到 UTF-8 的發展,反映了電腦技術從單一語言支援到多語言國際化的演進過程。UTF-8 的成功在於它既保持了與 ASCII 的相容性,又能夠高效地支援全球各種語言,成為現代網際網路的標準編碼方式。