AT&T匯編與Intel匯編的比較
文章作者:linuxkernel (newbie)
既然大家對匯編感興趣,不妨我也來湊湊熱鬧。廢話少說,言歸正傳。
Intel和AT&T語法的區(qū)別
Intel和AT&T匯編語言的語法表面上各不相同,這將導致剛剛學會INTEL匯編的人第一次見到AT&T匯編時
會感到困惑,或者反之。因此讓我們從基礎的東西開始。
前綴
在Intel匯編中沒有寄存器前綴或者立即數(shù)前綴。而在AT&T匯編中寄存器有一個“%”前綴,立即數(shù)有
一個“$”前綴。Intel語句中十六進制和二進制數(shù)據(jù)分別帶有“h”和“b”后綴,并且如果十六進制
數(shù)字的第一位是字母的話,那么數(shù)值的前面要加一個“0”前綴。
例如,
Intex Syntax
mov? ?eax,1
mov? ?ebx,0ffh
int? ?80h
AT&T Syntax
movl? ?$1,%eax
movl? ?$0xff,%ebx
int? ? $0x80
就像你看到的,AT&T非常難懂。[base+index*scale+disp] 看起來比disp(base,index,scale)更好理解。
操作數(shù)的用法
intel語句中操作數(shù)的用法和AT&T中的用法相反。在Intel語句中,第一個操作數(shù)表示目的,第二個
操作數(shù)表示源。然而在AT&T語句中第一個操作數(shù)表示源而第二個操作數(shù)表示目的。在這種情形下AT&T語法
的好處是顯而易見的。我們從左向右讀,也從左向右寫,這樣比較自然。
例如,
Intex Syntax
instr? ?dest,source
mov? ?eax,[ecx]
? ?
AT&T Syntax
instr? ? source,dest
movl? ?(%ecx),%eax
存儲器操作數(shù)
如同上面所看到的,存儲器操作數(shù)的用法也不相同。在Intel語句中基址寄存器用“[”和“]”括起來
而在AT&T語句中是用“(”和“)”括起來的。
例如,
Intex Syntax
mov? ?eax,[ebx]
mov? ?eax,[ebx+3]
AT&T Syntax
movl? ?(%ebx),%eax
movl? ?3(%ebx),%eax
AT&T語法中用來處理復雜的操作的指令的形式和Intel語法中的形式比較起來要難懂得多。在Intel語句
中這樣的形式是segreg:[base+index*scale+disp]。在AT&T語句中這樣的形式是
%segreg:disp(base,index,scale)。
Index/scale/disp/segreg 都是可選并且可以去掉的。Scale在本身沒有說明而index已指定的情況下
缺省值為1。segreg的確定依賴于指令本身以及程序運行在實模式還是pmode。在實模式下它依賴于
指令本身而pmode模式下它是不需要的。在AT&T語句中用作scale/disp的立即數(shù)不要加“$”前綴。
例如
Intel Syntax
instr? ? foo,segreg:[base+index*scale+disp]
mov? ?eax,[ebx+20h]
add? ?eax,[ebx+ecx*2h]
lea? ?eax,[ebx+ecx]
sub? ?eax,[ebx+ecx*4h-20h]? ?
AT&T Syntax
instr? ?%segreg:disp(base,index,scale),foo
movl? ?0x20(%ebx),%eax
addl? ?(%ebx,%ecx,0x2),%eax
leal? ?(%ebx,%ecx),%eax
subl? ?-0x20(%ebx,%ecx,0x4),%eax
后綴
就像你已經(jīng)注意到的,AT&T語法中有一個后綴,它的意義是表示操作數(shù)的大小?!發(fā)”代表long,
“w”代表word,“b”代表byte。Intel語法中在處理存儲器操作數(shù)時也有類似的表示,
如byte ptr, word ptr, dword ptr。"dword" 顯然對應于“l(fā)ong”。這有點類似于C語言中定義的
類型,但是既然使用的寄存器的大小對應著假定的數(shù)據(jù)類型,這樣就顯得不必要了。
例子:
Intel Syntax
mov? ?al,bl
mov? ?ax,bx
mov? ?eax,ebx
mov? ?eax, dword ptr [ebx]? ?
AT&T Syntax
movb? ?%bl,%al
movw? ?%bx,%ax
movl? ?%ebx,%eax
movl? ?(%ebx),%eax
注意:從此開始所有的例子都使用AT&T語法
系統(tǒng)調(diào)用
本節(jié)將介紹linux中匯編語言系統(tǒng)調(diào)用的用法。系統(tǒng)調(diào)用包括位于/usr/man/man2的手冊里第二部分所有
的函數(shù)。這些函數(shù)也在/usr/include/sys/syscall.h中列出來了。一個重要的關于這些函數(shù)的列表是
在http://www.linuxassembly.org/syscall.html里。這些函數(shù)通過linux中斷服務:int $0x80來被執(zhí)行
小于六個參數(shù)的系統(tǒng)調(diào)用
對于所有的系統(tǒng)調(diào)用,系統(tǒng)調(diào)用號在%eax中。對于小于六個參數(shù)的系統(tǒng)調(diào)用,參數(shù)依次存放
在%ebx,%ecx,%edx,%esi,%edi中,系統(tǒng)調(diào)用的返回值保存在%eax中。
系統(tǒng)調(diào)用號可以在/usr/include/sys/syscall.h中找到。宏被定義成SYS_的形式,
如SYS_exit, SYS_close等。
例子:(hello world 程序)
參照write(2)的幫助手冊,寫操作被聲明為ssize_t write(int fd, const void *buf, size_t count);
這樣,fd應存放在%ebx中,buf放在 %ecx, count 放在 %edx , SYS_write 放在 %eax中,緊跟著是
int $0x80語句來執(zhí)行系統(tǒng)調(diào)用。系統(tǒng)調(diào)用的返回值保存在%eax中。
$ cat write.s
.include "defines.h"
.data
hello:
? ?.string "hello world/n"
.globl? ?main
main:
? ?movl? ?$SYS_write,%eax
? ?movl? ?$STDOUT,%ebx
? ?movl? ?$hello,%ecx
? ?movl? ?$12,%edx
? ?int? ?$0x80
? ?ret
$
少于5個參數(shù)的系統(tǒng)調(diào)用的處理也是這樣的。只是沒有用到的寄存器保持不變罷了。象open或者fcntl這樣
帶有一個可選的額外參數(shù)的系統(tǒng)調(diào)用也就知道怎么用了。
大于5個參數(shù)的系統(tǒng)調(diào)用
參數(shù)個數(shù)大于五個的系統(tǒng)調(diào)用仍然把系統(tǒng)調(diào)用號保存在%eax中,但是參數(shù)存放在內(nèi)存中,并且指向第一個
參數(shù)的指針保存在%ebx中。
如果你使用棧,參數(shù)必須被逆序壓進棧里,即按最后一個參數(shù)到第一個參數(shù)的順序。然后將棧的指針拷貝
到%ebx中?;蛘邔?shù)拷貝到一塊分配的內(nèi)存區(qū)域,然后把第一個參數(shù)的地址保存在%ebx中。
例子:(使用mmap作為系統(tǒng)調(diào)用的例子)。在C中使用mmap():
#include
#include
#include
#include
#include
#define STDOUT? ?1
void main(void) {
? ?char file[]="mmap.s";
? ?char *mappedptr;
? ?int fd,filelen;
? ?fd=fopen(file, O_RDONLY);
? ?filelen=lseek(fd,0,SEEK_END);
? ?mappedptr=mmap(NULL,filelen,PROT_READ,MAP_SHARED,fd,0);
? ?write(STDOUT, mappedptr, filelen);
? ?munmap(mappedptr, filelen);
? ?close(fd);
}
mmap()參數(shù)在內(nèi)存中的排列:
%esp? ?%esp+4? ?%esp+8? ?%esp+12? ?%esp+16? ?%esp+20
00000000? ?filelen? ?00000001? ?00000001? ?fd? ?00000000
等價的匯編程序:
$ cat mmap.s
.include "defines.h"
.data
file:
? ?.string "mmap.s"
fd:
? ?.long? ? 0
filelen:
? ?.long? ? 0
mappedptr:
? ?.long? ? 0
.globl main
main:
? ?push? ?%ebp
? ?movl? ?%esp,%ebp
? ?subl? ?$24,%esp
//? ?open($file, $O_RDONLY);
? ?movl? ?$fd,%ebx? ?// save fd
? ?movl? ?%eax,(%ebx)
//? ?lseek($fd,0,$SEEK_END);
? ?movl? ?$filelen,%ebx? ?// save file length
? ?movl? ?%eax,(%ebx)
? ?xorl? ?%edx,%edx
//? ?mmap(NULL,$filelen,PROT_READ,MAP_SHARED,$fd,0);
? ?movl? ?%edx,(%esp)
? ?movl? ?%eax,4(%esp)? ?// file length still in %eax
? ?movl? ?$PROT_READ,8(%esp)
? ?movl? ?$MAP_SHARED,12(%esp)
? ?movl? ?$fd,%ebx? ?// load file descriptor
? ?movl? ?(%ebx),%eax
? ?movl? ?%eax,16(%esp)
? ?movl? ?%edx,20(%esp)
? ?movl? ?$SYS_mmap,%eax
? ?movl? ?%esp,%ebx
? ?int? ?$0x80
? ?movl? ?$mappedptr,%ebx? ?// save ptr
? ?movl? ?%eax,(%ebx)
? ?? ?
//? ? write($stdout, $mappedptr, $filelen);
//? ?munmap($mappedptr, $filelen);
//? ?close($fd);
? ?
? ?movl? ?%ebp,%esp
? ?popl? ?%ebp
? ?ret
$
注意:上面所列出的源代碼和本文結束部分的例子的源代碼不同。上面列出的代碼中沒有說明其它的
系統(tǒng)調(diào)用,因為這不是本節(jié)的重點,上面列出的源代碼僅僅打開mmap.s文件,而例子的源代碼要讀
命令行的參數(shù)。這個mmap的例子還用到lseek來獲取文件大小。
Socket系統(tǒng)調(diào)用
Socket系統(tǒng)調(diào)用使用唯一的系統(tǒng)調(diào)用號:SYS_socketcall,它保存在%eax中。Socket函數(shù)是通過位于
/usr/include/linux/net.h的一個子函數(shù)號來確定的,并且它們被保存在%ebx中。指向系統(tǒng)調(diào)用參數(shù)
的一個指針存放在%ecx中。Socket系統(tǒng)調(diào)用也是通過int $0x80來執(zhí)行的。
$ cat socket.s
.include "defines.h"
.globl? ?_start
_start:
? ?pushl? ?%ebp
? ?movl? ?%esp,%ebp
? ?sub? ?$12,%esp
//? ?socket(AF_INET,SOCK_STREAM,IPPROTO_TCP);
? ?movl? ?$AF_INET,(%esp)
? ?movl? ?$SOCK_STREAM,4(%esp)
? ?movl? ?$IPPROTO_TCP,8(%esp)
? ?movl? ?$SYS_socketcall,%eax
? ?movl? ?$SYS_socketcall_socket,%ebx
? ?movl? ?%esp,%ecx
? ?int? ?$0x80
? ?movl? ? $SYS_exit,%eax
? ?xorl? ? %ebx,%ebx
? ?int? ? $0x80
? ?movl? ?%ebp,%esp
? ?popl? ?%ebp
? ?ret
$
命令行參數(shù)
在linux中執(zhí)行的時候命令行參數(shù)是放在棧上的。先是argc,跟著是一個由指向命令行中各字符串的
指針組成的數(shù)組(**argv)并以空指針結束。接下來是一個由指向環(huán)境變量的指針組成的
數(shù)組(**envp)。這些東西在asm中都可以很容易的獲得,并且在例子代碼(args.s)中有示范。
GCC內(nèi)聯(lián)匯編
本節(jié)中GCC內(nèi)聯(lián)匯編僅涉及x86的應用程序。操作數(shù)約束會和其它處理器上的有所不同。關于這部分
的說明放在本文的最后。
gcc中基本的內(nèi)聯(lián)匯編非常易懂,如
__asm__("movl? ?%esp,%eax");? ?// look familiar ?
或者是
__asm__("
? ?? ???movl? ?$1,%eax? ?? ?// SYS_exit
? ?? ???xor? ?%ebx,%ebx
? ?? ???int? ?$0x80
? ?");
如果指定了用作asm的輸入、輸出數(shù)據(jù)并指出哪一個寄存器會被修改,會使程序的執(zhí)行效率提高。
input/output/modify都不是必需的。格式如下:
__asm__("" : output : input : modify);
output和input中必須包含一個操作數(shù)約束字符串,并緊跟一個用圓括號括起來的C語言表達式。
輸出操作數(shù)約束的前面必須有一個“=”,表示這是一個輸出??赡軙卸鄠€輸出,多個輸入和
多個修改過的寄存器。每個“入口”應該用“,”分隔開,并且入口的總數(shù)不多有10個。
操作數(shù)約束字符串可以是包含整個寄存器的名稱也可以是簡寫。
Abbrev Table
Abbrev? ?Register
a? ?%eax/%ax/%al
b? ?%ebx/%bx/%bl
c? ?%ecx/%cx/%cl
d? ?%edx/%dx/%dl
S? ?%esi/%si
D? ?%edi/%di
m? ?memory
例如:
? ?__asm__("test? ?%%eax,%%eax", : /* no output */ : "a"(foo));
或者是
? ?__asm__("test? ?%%eax,%%eax", : /* no output */ : "eax"(foo));
你可以在__asm__后使用關鍵字__volatile__:“你可以利用在__asm__后使用關鍵字__volatile__的
方法防止一條‘a(chǎn)sm’指令被刪除、移動或者被重新組合?!保ǔ鲎詆cc的info文件中"Assembler
Instructions with C Expression Operands" 部分)
$ cat inline1.c
#include
int main(void) {
? ?int foo=10,bar=15;
? ?
? ?__asm__ __volatile__ ("addl? ? %%ebxx,%%eax"
? ?? ?: "=eax"(foo)? ?? ?// ouput
? ?? ?: "eax"(foo), "ebx"(bar)// input
? ?? ?: "eax"? ?? ???// modify
? ?);
? ?printf("foo+bar=%d/n", foo);
? ?return 0;
}
$
你可能已經(jīng)注意到現(xiàn)在寄存器使用“%%”前綴而不是“%”。這在使用output/input/modify域時是必要的,
這是因為此時基于其它域的寄存器的別名的使用。我馬上來討論這個問題。
你可以很簡單的指定“a”而不是寫“eax”或者強制使用一個特殊寄存器如"eax"、"ax"、"al",
這同樣適用于其它一般用途的寄存器(在Abbrev表中列出的)。當你在當前的代碼中使用特殊的寄存器
時這好像毫無用處,因此gcc提供了寄存器別名。最多有10個別名(%0—%9),這也是為什么只允許10個
輸入/輸出的原因。
$ cat inline2.c
int main(void) {
? ?long eax;
? ?short bx;
? ?char cl;
? ?__asm__("nop;nop;nop"); // to separate inline asm from the rest of
? ?? ?? ???// the code
? ?__volatile__ __asm__("
? ?? ?test? ?%0,%0
? ?? ?test? ?%1,%1
? ?? ?test? ?%2,%2"
? ?? ?: /* no outputs */
? ?? ?: "a"((long)eax), "b"((short)bx), "c"((char)cl)
? ?);
? ?__asm__("nop;nop;nop");
? ?return 0;
}
$ gcc -o inline2 inline2.c
$ gdb ./inline2
GNU gdb 4.18
Copyright 1998 Free Software Foundation, Inc.
GDB is free software, covered by the GNU General Public License, and you are
welcome to change it and/or distribute copies of it under certain conditions.
Type "show copying" to see the conditions.
There is absolutely no warranty for GDB.??Type "show warranty" for details.
This GDB was configured as "i686-pc-linux-gnulibc1"...
(no debugging symbols found)...
(gdb) disassemble main
Dump of assembler code for function main:
... start: inline asm ...
0x8048427 : nop
0x8048428 : nop
0x8048429 : nop
0x804842a : mov 0xfffffffc(%ebp),%eax
0x804842d : mov 0xfffffffa(%ebp),%bx
0x8048431 : mov 0xfffffff9(%ebp),%cl
0x8048434 : test %eax,%eax
0x8048436 : test %bx,%bx
0x8048439 : test %cl,%cl
0x804843b : nop
0x804843c : nop
0x804843d : nop
... end: inline asm ...
End of assembler dump.
$
就像你看到的,由內(nèi)聯(lián)匯編生成的代碼將變量的值放入它們在input域中指定的寄存器中,然后繼續(xù)
執(zhí)行當前的代碼。編譯器自動根據(jù)變量的大小來偵測操作數(shù)的大小,這樣相應的寄存器就被
別名%0, %1 和 %2代替了(當使用寄存器別名時在存儲器里指定操作數(shù)的大小回導致編譯時發(fā)生錯誤)
在操作數(shù)約束里也可以使用別名。這不允許你在輸入/輸出域中指定多于10個的入口。我能想到的這樣
做的唯一用法是在你指定操作數(shù)約束為“q”以便讓編譯器在a,b,c,d寄存器之間進行選擇的時候。
當這個寄存器被修改時,我們不會知道選中了那個寄存器,因而不能在modify域中指定它。
這種情況下你只需指定""。
例子:
$ cat inline3.c
#include
int main(void) {
? ?long eax=1,ebx=2;
? ?__asm__ __volatile__ ("add %0,%2"
? ?? ?: "=b"((long)ebx)
? ?? ?: "a"((long)eax), "q"(ebx)
? ?? ?: "2"
? ?);
? ?printf("ebx=%x/n", ebx);
? ?return 0;
}
$