ARM-CortexM0/M0+單片機的指針變量替換方法
引言
CortexM0/M0+是RISC類型的低端ARM內(nèi)核,其指令集與高端ARM兼容,在性能、功耗和價格方面遠優(yōu)于傳統(tǒng)的以8051、68S08/12等為代表的8/16位CISC(復(fù)雜指令流)CPU。目前,各半導(dǎo)體廠商紛紛以之替代原有的8/16位MCU內(nèi)核,32位ARM MCU全面替代8/16位MCU已是大勢所趨。
CortexM0+將CortexM0的3級流水線簡化為2級,并進一步降低功耗、提高性能,這些優(yōu)點使得CortexM0+成為目前8/16位處理器較好的替代者。不過
替代8/16位MCU的低端ARM往往內(nèi)存資源非常有限,目前典型的CortexM0/M0+ MCU往往僅有2 KB、4 KB或8 KB,最多16 KB片內(nèi)RAM。Flash一般也不大于64KB。對這類MCU編程,使用短指針變量就夠了。而目前ARM處理器的集成開發(fā)環(huán)境(IDE)中的C編譯器,延續(xù)CortexM3/M4的使用傳統(tǒng),仍使用32位長指針變量。這無形中多占用了1倍的RAM資源。這里以飛思卡爾ARM CortexM0+處理器中的Kinetis 系列MCU為例,說明如何使用16位短指針替代32位長指針,以便在將原有的以8/16位MCU為核心的產(chǎn)品升級到采用32位ARM內(nèi)核時,不增加系統(tǒng)開銷。特別是若使用了實時操作系統(tǒng),系統(tǒng)的內(nèi)存會更加緊張。在專門面向CortexM0/M0+的集成開發(fā)環(huán)境(IDE)推出前,可使用本文提供的替換方法,以降低系統(tǒng)的RAM開銷,提升系統(tǒng)的性能。
1 指針替換原理
32位ARM內(nèi)核的內(nèi)部寄存器都是32位的,其尋址空間可以達到4 GB,通常也應(yīng)使用32位的地址指針。但在數(shù)據(jù)空間、程序空間和I/O空間都不大于64 KB的情況下,可以采用1個32位基地址加1個16位偏移量的方法,合成ARM需要的長指針。
以CortexM0+為內(nèi)核的MCU,其SRAM、FLASH很少超過64 KB,一般使用16位的偏移量指針就能滿足需要。
以Freescale公司的KL25Z128 MCU為例,有16 KB SRAM和128 KB FLASH存儲空間。其SRAM的地址范圍是0x1FFF_F000~0x2000_2FFF[1],使用16位的偏移量指針便可以滿足尋址范圍的要求。
圖1說明了長指針替換方法的基本原理,通過使用一個32位的RAM基地址,完成原始32位絕對地址與相對基地址的16位相對偏移地址的相互轉(zhuǎn)化。
其轉(zhuǎn)化關(guān)系如下所示:
Address_32bits=Address_16bits+Address_base(1)
Address_16bits=Address_32bits-Address_base(2)
對于KL25Z128 ,Address_base基地址值可選擇為0x1FFF_F000。通過以上方法的轉(zhuǎn)化,32位的地址空間0x1FFF_F000~0x2000_2FFF(16 KB)可以轉(zhuǎn)化為16位的地址空間0x0000~0x3FFF(16 KB)。
2 指針替換方案
2.1 常量形式實現(xiàn)方案
以下使用Freescale公司推薦的IDE CodeWarrior v10.5予以說明。
typedef unsigned short pointer_16;
#define address_base 0x1ffff000Lu
/*定義基地址*/
#define addr_16(pt_addr_32)((unsigned short)((unsignedint)pt_addr_32 - address_base))
/*32位地址指針轉(zhuǎn)換為16位地址“指針”*/
#define addr_32(pt_addr_16)((unsigned int)((unsigned int)pt_addr_16 + address_base))
/*16位地址“指針”轉(zhuǎn)換為32位地址“指針”*/
程序中利用宏定義了一個32位常數(shù)的基地址,顯然也可以使用一個全局變量或寄存器變量來存儲基地址。在將長指針變量pt_addr_32轉(zhuǎn)化為16位地址“指針”時,需先將指針變量pt_addr_32做強制類型轉(zhuǎn)化,變?yōu)?2位無符號數(shù)后再進行基地址扣除的計算。該段代碼還聲明了一個16位無符號數(shù)的數(shù)據(jù)類型pointer_16,用來定義或存儲16位地址偏移量,例如使用如下語句來定義一個16位的指針變量:
pointer_16 pt16_data = addr_16(&data);
pt16_data的值便是指向data的16位“指針”(轉(zhuǎn)化而成的16位地址偏移量值),編譯器編譯出的匯編代碼如下所示:
69pt16_data = addr_16(&data);
00000a06:ldr r3,[pc,#72]//R3指向data
00000a08:uxth r2,r3//16位 R3送32位 R2
00000a0a:adds r3,r7,#4//R3指向pt16_data
00000a0c:movs r1,#128//R1 = 0x80
00000a0e:lsls r1,r1,#5//生成基地址補碼
00000a10:adds r2,r2,r1//R2=32位指針-基地址
00000a12:strh r2,[r3,#0]//存儲R2低16位
00000a50:1FFF_F020//存儲data地址
需要將16位地址轉(zhuǎn)化為長指針時,以下面的整型數(shù)據(jù)賦值操作為例:
int temp = *(int*) (addr_32(pt16_data));
數(shù)據(jù)data的值賦值給了變量temp,其中int數(shù)據(jù)類型可以替換成任意其他的數(shù)據(jù)類型(例如unsigned int、unsigned short、short、unsigned char、char等)。
2.2 高組寄存器優(yōu)化方案
CortexM系列內(nèi)核是專門為ARM MCU設(shè)計的,僅支持無條件執(zhí)行的Thumb指令。CortexM0/M0+使用ARMv6指令集,而CortexM3/M4使用ARMv7指令集。ARMv6 對ARMv7做了高度簡化,僅保留了其中56條指令。指令中除個別32位指令外,都是16位指令。CortexM0/M0+的內(nèi)部寄存器結(jié)構(gòu)與高端ARM兼容,但低端MCU應(yīng)用往往不需要那么多寄存器,CortexM0/M0+僅提供了R0~R12共13個通用寄存器。這些通用寄存器分為兩部分:低組寄存器(Low registers,R0~R7),高組寄存器(High registers,R8~R12)[2]。CortexM0/M0+犧牲了大量面向高組寄存器的指令,盡量減少32位指令的使用。實際上CortexM0/M0+的指令集中僅有以下3條指令支持高組寄存器R8~R12:
MOV ,;寄存器間數(shù)據(jù)傳送
ADD, ;基地址+偏移量
CMP, ;地址的比較
這里Rd和Rm之一可以是高組寄存器。可以看出,對于高組寄存器,ARMv6僅保留了高低組寄存器間數(shù)據(jù)傳遞、不影響標(biāo)志位的加法運算和單獨的地址比較這3種操作,其用處顯然是為了支持將高組寄存器用于地址運算。
目前基于gcc的主流ARMC編譯器對CortexM0/M0+的高組寄存器采取盡量不予使用的策略,在定義指針變量時,僅使用長指針。而分析ARMv6指令集的設(shè)計初衷,顯然應(yīng)該用高組寄存器和相關(guān)指令。這對于旨在替代8/16位MCU的低成本ARM器件非常必要。
實際上,應(yīng)用程序中可通過MOV指令將R8~R11初始化成“寄存器常數(shù)”,而以后不再改變它們的值。例如可以令:
R8,= 0用于低寄存器的快速清零
R9,=RAM基地址用于拼接長指針
R10,= I/O模塊基地址
R11,=庫函數(shù)基地址
當(dāng)FLASH存儲器空間不大于64 KB時,函數(shù)指針無需設(shè)定基地址,可以直接使用低16位作為16位指針。對于超過64 KB的FLASH,可以使用庫函數(shù)基地址,采用類似分頁的方法實現(xiàn)16位指針替換。
最后一個高組寄存器R12可在響應(yīng)中斷時和R0~R3,PC、SP一同自動入棧,是用戶可以使用的寄存器變量。
2.1節(jié)中提出的宏定義方案形式上簡單清楚,但展開后需要多條指令才能完成。將Address_base作為寄存器變量,存放在R8~R12中的某個高組寄存器中,而不是使用宏定義常量或全局變量。由于C語言不能直接對通用寄存器進行操作,需通過將匯編嵌入到C語言中實現(xiàn)長指針的替換。在程序初始化時,將R8~R12中的一個寄存器初始化為Address_base的值,例如下面給出的語句:
asm("LDR r1, =0x1ffff000"); //R1=基地址
asm("MOV R9, R1"); //R9=R1,即基地址
R9寄存器初始化后無需再修改,是一個“寄存器常數(shù)”。對于已經(jīng)存儲在R0中的長指針,則使用如下匯編代碼,很容易將其轉(zhuǎn)化為16位地址:
asm("MOV R1, R9");//R1=基地址
asm("SUB R0, R0, R1"); //R0=R0-R1,R0低16位即16位
//短指針值
代碼首先將R9寄存器存儲的基地址轉(zhuǎn)移到R1寄存器,隨后利用單條指令完成從R0寄存器所存長指針值減去R1中存儲的基地址,并將所得結(jié)果保存在R0中。執(zhí)行完成后,R0低16位便是轉(zhuǎn)化后的16位地址。16位地址轉(zhuǎn)化為長指針是類似的轉(zhuǎn)化形式(SUB指令換為ADD指令),在此不再贅述。這種方法充分利用了內(nèi)核提供的高組寄存器,并且簡化了指針轉(zhuǎn)化的算法,減少了所需指令的數(shù)目,提高了運行效率,縮短了轉(zhuǎn)換時間,降低MCU因指針替換而產(chǎn)生的時間損失。轉(zhuǎn)換所需指令數(shù)目也壓縮到兩條,減少轉(zhuǎn)換過程所帶來的額外指令代碼的存儲空間開銷。
3 指針替換結(jié)果
μC/OS(含μC/OSII、μC/OSIII)是適用于低成本MCU的多任務(wù)實時內(nèi)核。以μC/OS為例,當(dāng)最大任務(wù)數(shù)為10時,整個內(nèi)核需使用12個全局指針型變量,而非指針型變量僅需占用8字節(jié)RAM空間。若使用默認的長指針模式,共需12×4+8=56字節(jié);若改用短指針,則需使用12×2+8=32字節(jié)。任務(wù)數(shù)目、任務(wù)間通信機制增多時,指針變量的使用將更頻繁,本文介紹的方法所節(jié)約的RAM空間也更加顯著。在CortexM0/M0+處理器替代8/16位MCU的應(yīng)用中,非常有必要使用短指針。
最新版本的μC/OSIII針對帶有計算前導(dǎo)零硬件指令(CLZ)的CortexM3/M4處理器進行了重大改進,提高了其優(yōu)先級任務(wù)搜索的效率。但CortexM0/M0+的ARMv6指令集簡化掉了CLZ指令,故不適宜使用μC/OSIII。這里以運行μC/OSII v2.92(最多256個任務(wù))為例,說明指針替換效果。實際上對于內(nèi)存緊張的MCU,μC/OSII v2.82及以下的版本(最多64個任務(wù))就足夠用了。
μC/OSII每個任務(wù)都需要使用任務(wù)控制塊TCB(Task Control Block)的數(shù)據(jù)結(jié)構(gòu),來維護任務(wù)相關(guān)的信息[3]。在μC/OSII v2.92中,每個任務(wù)的TCB數(shù)據(jù)結(jié)構(gòu)包含9個指針變量,采用本文描述的16位指針替換方法后,每個任務(wù)控制塊均可以節(jié)省18字節(jié)的RAM空間。在μC/OSII中還存在很多數(shù)據(jù)結(jié)構(gòu),均包含著大量的指針變量。這些數(shù)據(jù)結(jié)構(gòu)采用本文描述的方法所節(jié)約的RAM空間如表1所列。
表1 μC/OSII數(shù)據(jù)結(jié)構(gòu)內(nèi)存占用情況對比
注:其中X為OS_LOWEST_PRIO,由用戶進行配置,典型值為63。表中內(nèi)存占用大小是筆者根據(jù)ucos_ii.h文件進行統(tǒng)計的,實際占用內(nèi)存可能會由于用戶配置不同而略有差異。
可以看出,以16位短指針替代ARM編譯器默認的32位長