當前位置:首頁 > 公眾號精選 > strongerHuang
[導讀]Unicode,又稱統(tǒng)一碼、萬國碼、單一碼,是計算機科學領域里的一項業(yè)界標準,包括字符集、編碼方案等。

關注、星標公眾,不錯過精彩內(nèi)容

素材來源:網(wǎng)絡

編輯整理:strongerHuang


Unicode,又稱統(tǒng)一碼、萬國碼、單一碼,是計算機科學領域里的一項業(yè)界標準,包括字符集、編碼方案等。


一、Unicode產(chǎn)生的背景

1.為何要有Unicode?

ASCII編碼使用 8bit (b0-b7)中的最高位b7位作為奇偶校驗位,用來保障傳輸?shù)目煽啃?,所以ASCII一共定義了2^7=128個字符集合。

所謂奇偶校驗,是指在代碼傳送過程中用來檢驗是否出現(xiàn)錯誤的一種方法,一般分奇校驗和偶校驗兩種。奇校驗規(guī)定:正確的代碼一個字節(jié)中1的個數(shù)必須是奇數(shù),若非奇數(shù),則在最高位b7添0;偶校驗規(guī)定:正確的代碼一個字節(jié)中1的個數(shù)必須是偶數(shù),若非偶數(shù),則在最高位b7添1)


2.ASCII編碼的問題

ASCII編碼是美國制定的編碼標準,它可以代表英文中的字符集合,但用來表示其他語言 如漢語、法語等是不夠用的。中國為了讓計算機識別漢語,制定了GB2312編碼規(guī)范,使用兩個字節(jié)代表一個漢字,支持65536個漢字。


這樣發(fā)展的趨勢是每個國家或地區(qū)制定自己語言的計算機字符編碼,導致混亂不堪。


3.Unicode產(chǎn)生

Unicode 正是解決這個問題而誕生的,它對世界上絕大部分的文字的進行整理和統(tǒng)一編碼。


事實上,歷史上存在兩個獨立的嘗試創(chuàng)立單一字符集的組織,即國際標準化組織(ISO)和多語言軟件制造商組成的統(tǒng)一碼聯(lián)盟。前者開發(fā)的 ISO/IEC 10646 項目,后者開發(fā)的統(tǒng)一碼項目。因此最初制定了不同的標準。


1991年前后,兩個項目的參與者都認識到,世界不需要兩個不兼容的字符集。于是,它們開始合并雙方的工作成果,并為創(chuàng)立一個單一編碼表而協(xié)同工作。從Unicode 2.0開始,Unicode采用了與ISO 10646-1相同的字庫和字碼;ISO也承諾,ISO 10646將不會替超出U+10FFFF的UCS-4編碼賦值,以使得兩者保持一致。


兩個項目仍都存在,并獨立地公布各自的標準。但統(tǒng)一碼聯(lián)盟和ISO/IEC JTC1/SC2都同意保持兩者標準的碼表兼容,并緊密地共同調(diào)整任何未來的擴展。


在發(fā)布的時候,Unicode一般都會采用有關字碼最常見的字型,但ISO 10646一般都盡可能采用Century字型。

---來自百度百科


二、Unicode的編碼方式

Unicode的編碼空間可以劃分為17個平面(plane),每個平面包含2的16次方(65536)個碼位。


17個平面的碼位可表示為從U+0000到U+10FFFF,共計1114112個碼位,第一個平面稱為基本多語言平面(Basic Multilingual Plane, BMP),或稱第零平面(Plane 0)。其他平面稱為輔助平面(Supplementary Planes)。

基本多語言平面內(nèi),從U+D800到U+DFFF之間的碼位區(qū)段是永久保留不映射到Unicode字符,所以有效碼位為1112064個。


為何要定義平面?為何劃分基平面和輔助平面?基平面為何會有保留區(qū)段?


三、計算機實現(xiàn)

Unicode是一種編碼方式,基于Unicode編碼的計算機實現(xiàn)是有多種的。不同的實現(xiàn)方式其實是對Unicode的存儲方式存在著差異,計算機實現(xiàn)Unicode可以認為是對Unicode的存儲編碼。

在這里我們已經(jīng)進行了兩次編碼轉換了,Unicode本身是字符對應數(shù)字的編碼方案,而Unicode的計算機實現(xiàn)是Unicode對應的計算機存儲編碼方案。


為什么對計算機實現(xiàn)還要對Unicode做一次編碼?


下面我們通過介紹不同的Unicode計算機實現(xiàn)方案來討論一下這個問題。


我們應當知道,生活中的字符出現(xiàn)的概率是不一樣的。例如,生活中我們常常使用 “你好” “早”等詞匯,但是“耄耋” “饕餮”等這些字符我們很少用到。


基于以上的事實,如果我們把 “你好” “早”等這些高概率出現(xiàn)的字符使用較短的存儲編碼,而那些很少用到的字符使用較長的存儲編碼,

定義:假設有n個字符c1.....cn,每個字符出現(xiàn)的概率為p(n),每個字符的存儲空間為s1.....sn,那么, 字符平均存儲空間計算公式:T = p(1)*s1+......p(n)*sn


下面我們分別計算一下不同編碼實現(xiàn)方案的字符平均存儲空間。


1.UTF-32

最容易想到的,也是最簡單的計算機實現(xiàn)就是用四個字節(jié)(32bit)對Unicode編碼字符進行存儲,這就是UTF-32。UTF-32是最簡單的程序?qū)崿F(xiàn)方案(無需轉換,與Unicode編碼一一對應)。

好處:無需轉換,速度快

壞處:浪費存儲空間

T = 32bit


2.UTF-8

UTF-8是一種變長編碼,對于一個Unicode的字符被編碼成1至4個字節(jié)。Unicode編碼與UTF-8的編碼的對應關系:

Unicode編碼 UTF-8編碼(二進制)
U+0000 – U+007F 0xxxxxxx
U+0080 – U+07FF 110xxxxx 10xxxxxx
U+0800 – U+FFFF 1110xxxx 10xxxxxx 10xxxxxx
U+10000 – U+10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx


一個字節(jié)的uft8表示的unicode 碼范圍為(0 ~0x7F)


兩個字節(jié)長度的uft8 表示的unicode碼范圍為(0x80 ~ 0x07FF)


三個字節(jié)長度的uft8 表示的unicode碼范圍為(0x0800 ~ 0xFFFF)


四個字節(jié)長度的uft8 表示的unicode碼范圍為( 0x10000 ~ 0x10FFFF)


這樣編碼感覺復雜度變高了很多啊,但是, 好處在于節(jié)省了存儲空間,另外,兼容了舊的ASCII編碼。


3.UTF-16

UTF-16也是一種變長編碼,對于一個Unicode字符被編碼成1至2個碼元,每個碼元為16位。


基本多語言平面(碼位范圍U+0000-U+FFFF) 在基本多語言平面內(nèi)的碼位UTF-16編碼使用1個碼元且其值與Unicode是相等的(不需要轉換)。舉例如下:

Unicode 字符 UTF-16(碼元) UTF-16 LE(字節(jié)) UTF-16 BE(字節(jié)) U+0041 A 0x0041 0x41 0x00 0x00 0x41 U+7834 破 0x7834 0x34 0x78 0x78 0x34 U+6653 曉 0x6653 0x53 0x66 0x66 0x53


輔助平面(碼位范圍U+10000-U+10FFFF) 在輔助平面內(nèi)的碼位在UTF-16中被編碼為一對16bit的碼元(即32bit,4字節(jié)),稱作代理對(surrogate pair)。組成代理對的兩個碼元前一個稱為前導代理(lead surrogates)范圍為0xD800-0xDBFF,后一個稱為后尾代理(trail surrogates)范圍為0xDC00-0xDFFF。


具體的轉換過程為:

  1. 首先將unicode碼表 - 0x10000 , 這樣得到的輔助平面的碼表范圍為(U+0000 - U+FFFFF) ,總共最多20bit

  2. 將20bit ,分為high 10bit 與 low 10bit。high 1bit | 0xD800 得到前導代理, low 10bit | 0xDC00 得到后尾代理

從這里也可以理解為什么 在基本多語言平面中, (U+D800 ?~ U+DFFF ) 要作為保留字符了

UTF-16既保留了解析速度,同時也比較節(jié)省存儲空間。這個是UTF-8和UTF-32兩者優(yōu)點的結合。


來源地址:
https://juejin.im/post/6844903890488410120

推薦閱讀:

操作系統(tǒng)產(chǎn)生死鎖的原因和處理策略

美女設計師的創(chuàng)意設計:舌頭控制器

可重入與不可重入函數(shù)的區(qū)別


關注 微信公眾號『strongerHuang』,后臺回復“1024”查看更多內(nèi)容,回復“加群”按規(guī)則加入技術交流群。


長按前往圖中包含的公眾號關注

免責聲明:本文內(nèi)容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉