跨越數(shù)據(jù)類型的重重陷阱

時間：2006-10-18 03:57:00

關鍵字：數(shù)據(jù)類型 BSP UI 程序員

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]跨越數(shù)據(jù)類型的重重陷阱

    數(shù)據(jù)類型是編程語言中最基本的構成元素，但卻是最易被忽略的一環(huán)，程序員愿意把幾乎100％的精力都花在算法研究、程序流控制等大環(huán)節(jié)上，卻很少在數(shù)據(jù)類型問題上反復斟酌。

   細節(jié)決定成敗，一個螺絲釘?shù)氖д`可能導致一個飛行器的毀滅，一個數(shù)據(jù)類型的錯誤同樣可以讓龐大的軟件系統(tǒng)崩潰。

    MISRA—c中關于數(shù)據(jù)類型的規(guī)則主要分為兩個方面。一是數(shù)據(jù)類型相關的編程風格；二是不同數(shù)據(jù)類型之間的轉換，后者是重點。這里介紹MISRA_C關于數(shù)據(jù)類型的部分規(guī)則，更多的規(guī)則請參考《MISRA-C：2OO4)》一書。

    下文中凡是未加特殊說明的都是強制(required)規(guī)則．個別推薦(advisory)規(guī)則加了“推薦”標識。

    在展開論述之前，先看兩個問題，讀者可以帶著疑問閱讀完本章內容。

問題1：執(zhí)行以下程序，result_8的值是多少?
ulnt8_t porI=0x5a;
uint8一t resuh_8；
result_8=(～port)>>4;
／*注：uint8_t表示8位無符號整型*／

問題2：執(zhí)行以下程序，d的值是多少?
uintl6_t a=10；
uin|16_t b=6553l；
uint32_t c=0；
uint32_t d；
d=a+b+c；
／*注：uintl6_t表示16位無符號整型，uint32_t表示32位無符號整型*／

1 數(shù)據(jù)類型相關的編程風格
規(guī)則6.3(推薦)：必須用typedef顯式標識出各數(shù)據(jù)
類型的長度和符號特性，避免直接使用標準數(shù)據(jù)類型。
例如，一個32位的整數(shù)系統(tǒng)，可定義如下：
typedef char chat_t；
typedef sigrled char int8_t；
typedef signed short intl6_t；
typedef signed int int32_t；
typedef signed long int64_t；
typedef unsitgned chat uint8_t；
typedef unsigned short uint16_t;
typedef unsigned int uint32_t;
typedef unsigned 1ong uint64_t；

    之所以用intl6_t和uint32_t等代替signed short和unsigned int等標準數(shù)據(jù)類型標識符，是由于不同的編譯器對標準數(shù)據(jù)類型的長度定義是不一樣的。比如說一個16位系統(tǒng)，很可能就把short和int都定義成16位，long定義成32位，這與上文32位系統(tǒng)中標準數(shù)據(jù)類型的長度就不一致。用intl6_t和uint_32等標識符來定義變量，一方面增加了程序的可讀性，使得程序員本人或其他讀者都能對程序中數(shù)據(jù)的具體信息胸有成竹；另一方面也有助于程序在不同系統(tǒng)之間的移植，節(jié)省開發(fā)時間，減少隱患。規(guī)則7 1：不得使用八進制常數(shù)(O除外)或八進制轉義符。
思考如下數(shù)組：
code[1]=109；
code[2]=100；
code[3]=O52
code[4]=O71；
／*注：八進制常數(shù)須在最高位加O*／

    code[3]的實際值是42(十進制)，code[4]的實際值是57(十進制)；但估計很多讀者會把code[3]認成是52(十進制)，code[4]認成是7l(十進制)。

    八進制數(shù)在C程序中使用的頻率遠小于十進制數(shù)和十六進制數(shù)，為了保證程序的可讀性和安全性，程序員不允許使用八進制數(shù)以及八進制轉義符。

2  數(shù)據(jù)類型轉換
    如果程序員對數(shù)據(jù)類型的轉換有很清晰的認識，并且在必要的地方做了正確的顯式強制轉換，那程序是安全的。但有時由于程序員的疏忽，或者是過于相信編譯器的“智慧”程度，導致表達式中有很多隱式轉換(即沒有顯式地強制轉換)，而這些隱式數(shù)據(jù)類型轉換很可能就構成致命的漏洞。MISRA—C中數(shù)據(jù)類型轉換規(guī)則的著眼點，即是避免有漏洞的隱式數(shù)據(jù)轉換。

    在介紹MISRA—C關于數(shù)據(jù)類型轉換的部分規(guī)則之前，先介紹整型操作數(shù)的“平衡(balance)”原則。所謂整型操作數(shù)“平衡”原則，即對于隱式表達式，編譯器會按照既定規(guī)則對操作數(shù)進行位數(shù)擴充，其中int和unsiglled int在整型表達式“平衡”過程中占重要地位。

    下面分析一個簡單的隱式整型表達式c=a+b(假設a的存儲位數(shù)不大于b的存儲位數(shù))，編譯器是這樣來處理這個表達式的：

    如果b是短整型(即位數(shù)少于int，比如char、short等)或者整型(int或unsigned int)，那a也是短整型或者整型，執(zhí)行“+”運算之前，a和b都將被擴充為整型(int或者unsigned int)，然后相加的結果賦給c(如果c不是int或者unsigned int類型，則這個賦值操作也會包含隱式的擴充或截斷操作)。

    如果b是長整型(存儲位數(shù)多于int)，則a會被擴充為與b相當?shù)拈L整型，再執(zhí)行“+”運算，所得結果賦給c(可能包含隱式的擴充或截斷操作)。

    絕大部分的操作符用于整型運算的時候，都遵循上述“平衡”原則，比如：算術操作符、位操作符和關系運算符。

    但邏輯操作符不遵循上述“平衡”原則。此外左移(<<)和右移(>>)運算符也不遵循“平衡”原則，只和移位操作符左邊的整型操作數(shù)相關。假設一個8位的短整型變量值為Oxf5(十六進制)，則右移4位所得結果是O xof(十六進制)。

    明確了上述背景后，下面來關注本文一開始提出的“問題1”(代碼參見前文)。絕大部分擁有嵌人式C程序開發(fā)經(jīng)驗的人都明白這段代碼的原意是將port的值取反后右移4位賦值給result_8(在用I／O口控制共陽的LED時經(jīng)常這么做)，程序員期望的結果顯然是resuIt_8=0xof。然而，由于整型的“平衡”原則，在16位編譯器中，～port的值是Oxffa5；在32位編譯器中，～pott的值是Oxffffffa5。無論哪種情況，最后結果(右移4位后賦值給result_8的時候有一個截斷操作)都是resuIt_8=Oxfa，而非程序員預期的result_8=OxOf。

    倘若將最后一行代碼改成result一8=((uin8_t)(～port))>>4，則result_8可取得預期的值。

    針對以上情況，MISRA-c提出了相應規(guī)則。

    規(guī)則10.5：如果位操作符～和移位操作符<<(或>>)聯(lián)合作用于unsigned char或者unsigned short類型的操作數(shù)時，中間運算步驟的結果必須立刻顯式強制轉換為預期的短整型數(shù)據(jù)類型。

    為了加深對“平衡”原則的理解，再來分析一下“問題2”。

    如果用一個32位的編譯器來編譯這段程序，最終結果是d=6554l，程序員“幸運地”得到了預期的結果。如果是16位的編譯器，得到的結果卻是d=5。

    由于“+”運算是左結合的，所以d=a+b+c等效于d=(a+b)+c，即先執(zhí)行a+b，所得的和再與c相加．最后結果賦值給d。問題就出在a+b這個中間步驟中。由于a和b都是16位整型(注意編譯器也是16位的)，故而a+b的結果也是16位整型，則a+b的值是Ox0005(有溢出)；再擴充為32位整型Ox00000005和c相加賦值給d，d=5，這并非程序員預期的結果。

    所以，在16位編譯器中，問題2的那段代碼很可能導致嚴重錯誤。當然，如果程序員用()指定了運算優(yōu)先級的話，即最后一行代碼寫成d=a+(b+c)，也可以避免上述溢出錯誤，然而，這終究不是治本的辦法。只有明確每一個操作數(shù)的實際數(shù)據(jù)類型，才能保障代碼的安全性。

    MISRA-C中對于表達式中存在隱式數(shù)據(jù)類型轉換的情況作了嚴格的限制。

    規(guī)則10.1：以下情況下，整型表達式中不允許出現(xiàn)隱式數(shù)據(jù)類型轉換。
    ①整型操作數(shù)不是被擴充為更多位數(shù)的同符號整數(shù)；
    ②表達式是復雜表達式；
    ③表達式不是常數(shù)表達式，且是函數(shù)的參數(shù)；
    ④表達式不是常數(shù)表達式，且是函數(shù)的返回表達式。。

    規(guī)則10.2：以下情況下，浮點數(shù)表達式中不允許出現(xiàn)隱式數(shù)據(jù)類型轉換。
    ①浮點型操作數(shù)不是被擴充為更多位數(shù)的同符號浮點數(shù)；
    ②表達式是復雜表達式；
    ③表達式是函數(shù)的參數(shù)；
    ④表達式是函數(shù)的返回表達式。

    整型表達式規(guī)則和浮點數(shù)表達式規(guī)則基本類似，只是浮點數(shù)表達式規(guī)則更為苛刻一些，對浮點型的常數(shù)也作了嚴格的限定。

    這兩條規(guī)則中，出現(xiàn)了“復雜表達式”的概念。請注意，MISRA—C中“復雜表達式”的概念和其他介紹C編程規(guī)范書籍中“復雜表達式”的概念是不一樣的。在MISRA-C中，非“復雜表達式”基本只限制在常數(shù)表達式或者函數(shù)的返回值。為了明確上述規(guī)則中關于“復雜表達式”和“返回表達式”的概念，此處舉一例子。定義一個函數(shù)uintl6_t foo(void)，函數(shù)體如下：
uintl6_t foo(void){
return(a+b+c)；

    函數(shù)體中最后一句return(a+b+c)中的a+b+c是返回表達式。倘若在C程序的其他地方有a=foo()這樣的語句，則用的是foo()函數(shù)的返回值。在MISRA-c中，的資源，完成了采用USB接口技術的熱敏打印機的開發(fā)，并對打印頭作了充分的保護。通過采用相應的算法實現(xiàn)這個賦值表達式不是“復雜表達式”。

    至于表達式作為函數(shù)參數(shù)等情況，礙于篇幅的原因，此處就不再詳細展開了。

    權衡一下利弊，在涉及到數(shù)據(jù)類型轉換的時候，與其花很大力氣去區(qū)分一個隱式表達式是否在MISRA—C規(guī)則的“黑名單”中，還不如用強制轉換符顯式地標識出每個操作數(shù)的實際數(shù)據(jù)類型，這是最為穩(wěn)妥的方法?？偠灾琈ISRA—C關于數(shù)據(jù)類型轉換規(guī)則的中心意思，是要求程序員明確任意一個操作數(shù)的實際數(shù)據(jù)類型。

3  小結
    作為一名優(yōu)秀程序員，第一步就是以嚴謹?shù)膽B(tài)度對待程序中的每一個數(shù)據(jù)，明白任何一個數(shù)據(jù)操作的關鍵，從而能寫出最清晰易懂而又安全的代碼。MISRA—C關于數(shù)據(jù)類型的規(guī)則可保障程序員在邁出這一步的時候不會摔倒。