一文了解Unicode UTF-8 UTF-16 UTF-32的關系

時間：2020-10-09 14:38:24

關鍵字：編碼嵌入式

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]Unicode，又稱統(tǒng)一碼、萬國碼、單一碼，是計算機科學領域里的一項業(yè)界標準，包括字符集、編碼方案等。

關注、星標公眾號，不錯過精彩內(nèi)容

素材來源：網(wǎng)絡

編輯整理：strongerHuang

Unicode，又稱統(tǒng)一碼、萬國碼、單一碼，是計算機科學領域里的一項業(yè)界標準，包括字符集、編碼方案等。

一、Unicode產(chǎn)生的背景

1.為何要有Unicode？

ASCII編碼使用 8bit （b0-b7）中的最高位b7位作為奇偶校驗位，用來保障傳輸?shù)目煽啃?，所以ASCII一共定義了2^7=128個字符集合。

所謂奇偶校驗，是指在代碼傳送過程中用來檢驗是否出現(xiàn)錯誤的一種方法，一般分奇校驗和偶校驗兩種。奇校驗規(guī)定：正確的代碼一個字節(jié)中1的個數(shù)必須是奇數(shù)，若非奇數(shù)，則在最高位b7添0；偶校驗規(guī)定：正確的代碼一個字節(jié)中1的個數(shù)必須是偶數(shù)，若非偶數(shù)，則在最高位b7添1）

2.ASCII編碼的問題

ASCII編碼是美國制定的編碼標準，它可以代表英文中的字符集合，但用來表示其他語言如漢語、法語等是不夠用的。中國為了讓計算機識別漢語，制定了GB2312編碼規(guī)范，使用兩個字節(jié)代表一個漢字，支持65536個漢字。

這樣發(fā)展的趨勢是每個國家或地區(qū)制定自己語言的計算機字符編碼，導致混亂不堪。

3.Unicode產(chǎn)生

Unicode 正是解決這個問題而誕生的，它對世界上絕大部分的文字的進行整理和統(tǒng)一編碼。

事實上，歷史上存在兩個獨立的嘗試創(chuàng)立單一字符集的組織，即國際標準化組織（ISO）和多語言軟件制造商組成的統(tǒng)一碼聯(lián)盟。前者開發(fā)的 ISO/IEC 10646 項目，后者開發(fā)的統(tǒng)一碼項目。因此最初制定了不同的標準。

1991年前后，兩個項目的參與者都認識到，世界不需要兩個不兼容的字符集。于是，它們開始合并雙方的工作成果，并為創(chuàng)立一個單一編碼表而協(xié)同工作。從Unicode 2.0開始，Unicode采用了與ISO 10646-1相同的字庫和字碼；ISO也承諾，ISO 10646將不會替超出U+10FFFF的UCS-4編碼賦值，以使得兩者保持一致。

兩個項目仍都存在，并獨立地公布各自的標準。但統(tǒng)一碼聯(lián)盟和ISO/IEC JTC1/SC2都同意保持兩者標準的碼表兼容，并緊密地共同調(diào)整任何未來的擴展。

在發(fā)布的時候，Unicode一般都會采用有關字碼最常見的字型，但ISO 10646一般都盡可能采用Century字型。

---來自百度百科

二、Unicode的編碼方式

Unicode的編碼空間可以劃分為17個平面（plane），每個平面包含2的16次方（65536）個碼位。

17個平面的碼位可表示為從U+0000到U+10FFFF，共計1114112個碼位，第一個平面稱為基本多語言平面（Basic Multilingual Plane, BMP），或稱第零平面（Plane 0）。其他平面稱為輔助平面（Supplementary Planes）。

基本多語言平面內(nèi)，從U+D800到U+DFFF之間的碼位區(qū)段是永久保留不映射到Unicode字符，所以有效碼位為1112064個。

為何要定義平面？為何劃分基平面和輔助平面？基平面為何會有保留區(qū)段？

三、計算機實現(xiàn)

Unicode是一種編碼方式，基于Unicode編碼的計算機實現(xiàn)是有多種的。不同的實現(xiàn)方式其實是對Unicode的存儲方式存在著差異，計算機實現(xiàn)Unicode可以認為是對Unicode的存儲編碼。

在這里我們已經(jīng)進行了兩次編碼轉換了，Unicode本身是字符對應數(shù)字的編碼方案，而Unicode的計算機實現(xiàn)是Unicode對應的計算機存儲編碼方案。

為什么對計算機實現(xiàn)還要對Unicode做一次編碼？

下面我們通過介紹不同的Unicode計算機實現(xiàn)方案來討論一下這個問題。

我們應當知道，生活中的字符出現(xiàn)的概率是不一樣的。例如，生活中我們常常使用 “你好” “早”等詞匯，但是“耄耋” “饕餮”等這些字符我們很少用到。

基于以上的事實，如果我們把 “你好” “早”等這些高概率出現(xiàn)的字符使用較短的存儲編碼，而那些很少用到的字符使用較長的存儲編碼，

定義：假設有n個字符c1.....cn，每個字符出現(xiàn)的概率為p(n)，每個字符的存儲空間為s1.....sn，那么，字符平均存儲空間計算公式：T = p(1)*s1+......p(n)*sn

下面我們分別計算一下不同編碼實現(xiàn)方案的字符平均存儲空間。

1.UTF-32

最容易想到的，也是最簡單的計算機實現(xiàn)就是用四個字節(jié)（32bit）對Unicode編碼字符進行存儲，這就是UTF-32。UTF-32是最簡單的程序?qū)崿F(xiàn)方案（無需轉換，與Unicode編碼一一對應）。

好處：無需轉換，速度快

壞處：浪費存儲空間

T = 32bit

2.UTF-8

UTF-8是一種變長編碼，對于一個Unicode的字符被編碼成1至4個字節(jié)。Unicode編碼與UTF-8的編碼的對應關系：

Unicode編碼	UTF-8編碼(二進制)
U+0000 – U+007F	0xxxxxxx
U+0080 – U+07FF	110xxxxx 10xxxxxx
U+0800 – U+FFFF	1110xxxx 10xxxxxx 10xxxxxx
U+10000 – U+10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

一個字節(jié)的uft8表示的unicode 碼范圍為(0 ~0x7F)

兩個字節(jié)長度的uft8 表示的unicode碼范圍為(0x80 ~ 0x07FF)

三個字節(jié)長度的uft8 表示的unicode碼范圍為(0x0800 ~ 0xFFFF)

四個字節(jié)長度的uft8 表示的unicode碼范圍為( 0x10000 ~ 0x10FFFF)

這樣編碼感覺復雜度變高了很多啊，但是，好處在于節(jié)省了存儲空間，另外，兼容了舊的ASCII編碼。

3.UTF-16

UTF-16也是一種變長編碼，對于一個Unicode字符被編碼成1至2個碼元，每個碼元為16位。

基本多語言平面（碼位范圍U+0000-U+FFFF）在基本多語言平面內(nèi)的碼位UTF-16編碼使用1個碼元且其值與Unicode是相等的（不需要轉換）。舉例如下：

Unicode 字符 UTF-16（碼元） UTF-16 LE（字節(jié)） UTF-16 BE（字節(jié)） U+0041 A 0x0041 0x41 0x00 0x00 0x41 U+7834 破 0x7834 0x34 0x78 0x78 0x34 U+6653 曉 0x6653 0x53 0x66 0x66 0x53

輔助平面（碼位范圍U+10000-U+10FFFF）在輔助平面內(nèi)的碼位在UTF-16中被編碼為一對16bit的碼元（即32bit,4字節(jié)），稱作代理對(surrogate pair)。組成代理對的兩個碼元前一個稱為前導代理(lead surrogates)范圍為0xD800-0xDBFF，后一個稱為后尾代理(trail surrogates)范圍為0xDC00-0xDFFF。

具體的轉換過程為：

首先將unicode碼表 - 0x10000 , 這樣得到的輔助平面的碼表范圍為(U+0000 - U+FFFFF) ,總共最多20bit
將20bit ，分為high 10bit 與 low 10bit。high 1bit | 0xD800 得到前導代理， low 10bit | 0xDC00 得到后尾代理

從這里也可以理解為什么在基本多語言平面中，（U+D800 ?~ U+DFFF ）要作為保留字符了

UTF-16既保留了解析速度，同時也比較節(jié)省存儲空間。這個是UTF-8和UTF-32兩者優(yōu)點的結合。

來源地址：

https://juejin.im/post/6844903890488410120

推薦閱讀：

操作系統(tǒng)產(chǎn)生死鎖的原因和處理策略

美女設計師的創(chuàng)意設計：舌頭控制器

可重入與不可重入函數(shù)的區(qū)別

關注微信公眾號『strongerHuang』，后臺回復“1024”查看更多內(nèi)容，回復“加群”按規(guī)則加入技術交流群。

長按前往圖中包含的公眾號關注

免責聲明：本文內(nèi)容由21ic獲得授權后發(fā)布，版權歸原作者所有，本平臺僅提供信息存儲服務。文章僅代表作者個人觀點，不代表本平臺立場，如有問題，請聯(lián)系我們，謝謝！

一文了解Unicode UTF-8 UTF-16 UTF-32的關系

Unicode，又稱統(tǒng)一碼、萬國碼、單一碼，是計算機科學領域里的一項業(yè)界標準，包括字符集、編碼方案等。