當前位置:首頁 > 公眾號精選 > 嵌入式大雜燴
[導讀]用Notepad++創(chuàng)建一個文本文件text.txt,其默認編碼格式為ANSI(乍看之下,還以為是ASCII呢),輸入漢字居然不是亂碼。

原文:http://www.cnblogs.com/malecrab/p/5300486.html


用Notepad++創(chuàng)建一個文本文件text.txt,其默認編碼格式為ANSI(乍看之下,還以為是ASCII呢),輸入漢字居然不是亂碼:

保存為test.txt,發(fā)送給你美國的同事Bob。他也用Notepad++,不幸的是,卻發(fā)現(xiàn)你的文件內(nèi)容是這樣的:

也許你會認為:你用的是中文系統(tǒng),能正常顯示中文;他用的是英文系統(tǒng),不能顯示中文!

這么想,好像很有道理呢!

但是再細想一下:一個系統(tǒng)顯示亂碼,說明它不支持這種編碼格式(或者解碼方式不對)。難道英文系統(tǒng)不支持ANSI?難道ANSI是一種中文編碼?

如果你身邊有一個韓文系統(tǒng),也裝一個Notepad++,默認還是ANSI編碼,你可以輸入“???”,發(fā)現(xiàn)也能正常顯示:

但是你要輸入“漢字”可能就會發(fā)現(xiàn)是亂碼了...

通過這個反例,就可以說明ANSI不是一種中文編碼。那么,ANSI到底是什么編碼?

用十六進制編輯器打開內(nèi)容為“漢字”的test.txt文件:?

你會發(fā)現(xiàn):其中baba和d7d6正好是“漢”和“字”兩個字的GBK編碼值。

同樣,用十六進制編輯器打開內(nèi)容為“???”的test.txt文件:
你會發(fā)現(xiàn):其中c7d1、b1b9和beee正好是“?”、“?”和“?”三個字符的EUC-KR編碼值。

此可以看出:其實ANSI并不是某一種特定的字符編碼,而是在不同的系統(tǒng)中,ANSI表示不同的編碼。你的美國同事Bob的系統(tǒng)中ANSI編碼其實是ASCII編碼(ASCII編碼不能表示漢字,所以漢字為亂碼),而你的系統(tǒng)中(“漢字”正常顯示)ANSI編碼其實是GBK編碼,而韓文系統(tǒng)中(“???”正常顯示)ANSI編碼其實是EUC-KR編碼。


話說計算機是由美國搞出來的嘛,他們覺得一個字節(jié)(可以表示256個編碼)表示英語世界里所有的字母、數(shù)字和常用特殊符號已經(jīng)綽綽有余了(其實ASCII只用了前127個編碼)。

后來歐洲人不干了,法國人說:我需要在小寫字母加上變音符號(如:é),德國人說:我也要加幾個字母(? ?、? ?、ü ü、?)。于是,歐洲人就將ASCII沒用完的編碼(128-255)為自己特有的符號編碼(后來稱之為“擴展字符集”)。

等到我們中國人開始使用計算機的時候,尼瑪,256個編碼哪夠?我泱泱大中華,漢字起碼也得N多萬吧,就連小學生都得要求掌握兩三千字。國標局最后拍板:一個字節(jié)不夠,那我們就用多個字節(jié)來為漢字編碼吧,但是,國情那么窮,字節(jié)那么貴,三個字節(jié)傷不起,那就用倆字節(jié)吧,先給常用的幾千漢字編個碼,等以后國家強盛了人民富裕了,咱再擴展唄---于是GB2312就產(chǎn)生了。

臺灣同胞一看,尼瑪,全是簡體字,還讓不讓我們寫繁體字的活了,于是臺灣同胞也自己弄了個繁體字編碼---大五碼(Big-5)。同時,其它國家也在為自己的文字編碼。最后,微軟苦逼了:顧客就是上帝啊,你們的編碼我都得滿足啊.

這樣吧,賣給美國國內(nèi)的系統(tǒng)默認就用ASCII編碼吧,賣給中國人的系統(tǒng)默認就用GBK編碼吧,賣給韓國人的系統(tǒng)默認就用EUC-KR編碼,但是為了避免你們誤會我賣給你們的系統(tǒng)功能有差異,我就統(tǒng)一把你們的默認編碼都顯示成ANSI吧。---本故事純屬虛構,但“ANSI編碼”確實只存在于Windows系統(tǒng)。

那么Windows系統(tǒng)是如何區(qū)分ANSI背后的真實編碼的呢?

微軟用一個叫“Windows code pages”(在命令行下執(zhí)行chcp命令可以查看當前code page的值)的值來判斷系統(tǒng)默認編碼,比如:簡體中文的code page值為936(它表示GBK編碼,win95之前表示GB2312,詳見:Microsoft Windows' Code Page 936),繁體中文的code page值為950(表示Big-5編碼)。

我們能否通過修改Windows code pages的值來改變“ANSI編碼”呢?

命令提示符下,我們可以通過chcp命令來修改當前終端的active code page,例如:
? ?(1) 執(zhí)行:chcp 437,code page改為437,當前終端的默認編碼就為ASCII編碼了(漢字就成亂碼了);
? ?(2) 執(zhí)行:chcp 936,code page改為936,當前終端的默認編碼就為GBK編碼了(漢字又能正常顯示了)。
? 上面的操作只在當前終端起作用,并不會影響系統(tǒng)默認的“ANSI編碼”。(更改命令行默認codepage參看:設置cmd的codepage的方法)。

Windows下code page是根據(jù)當前系統(tǒng)區(qū)域(locale)來設置的,要想修改系統(tǒng)默認的“ANSI編碼”,我們可以通過修改系統(tǒng)區(qū)域來實現(xiàn)(“控制面板” =>“時鐘、語言和區(qū)域”=>“區(qū)域和語言”=>“管理”=>“更改系統(tǒng)區(qū)域設置...”):

圖中的系統(tǒng)locale為簡體中文,意味著當前“ANSI編碼”實際是GBK編碼。當你把它改成Korean(Korea)時,“ANSI編碼”實際是EUC-KR編碼,“???”就能正常顯示了;當你把它改成English(US)時,“ANSI編碼”實際是ASCII編碼,“漢字”和“???”都成亂碼了。(改了之后需要重啟系統(tǒng)的。。。)

說明:locale是國際化與本地化中重要的概念,本文不深入講解該內(nèi)容。

你上面說的都是windows的情形吧,Linux呢?


將前述內(nèi)容為“漢字”的文件test.txt拷貝至Linux下,用Emacs打開:

也是亂碼!原因也是locale的問題:

更改locale后再打開:
正常顯示了。。。


? ?參考:

  • 知乎:

    Windows 記事本的 ANSI、Unicode、UTF-8 這三種編碼模式有什么區(qū)別?

  • GBK編碼

  • GB2312簡體中文編碼表

  • 韓國euc-kr碼(即Wansung碼)與Unicode碼及原字形對照表

  • 維基百科:Code page 1386

  • MSDN:Code Page Identifiers

  • python CGI模塊獲取中文編碼問題解決- 部分方案

  • http://www.360doc.com/content/15/0105/15/9934052_438371998.shtml

  • 阮一峰:字符編碼筆記:ASCII,Unicode和UTF-8


猜你喜歡

干貨 | 嵌入式必備技能之Git的使用

C語言、嵌入式中幾個非常實用的宏技巧

嵌入式系統(tǒng)軟件架構設計

Linux下應用開發(fā)基礎

【Linux筆記】Pinctrl子系統(tǒng)與GPIO子系統(tǒng)


免責聲明:本文來源網(wǎng)絡,免費傳達知識,版權歸原作者所有。如涉及作品版權問題,請聯(lián)系我進行刪除。

免責聲明:本文內(nèi)容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉