FUTEX_SWAP補(bǔ)丁分析-SwitchTo?如何大幅度提升切換性能?
作者簡(jiǎn)介
胡哲寧,西安郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)大二學(xué)生。
Google SwitchTo
由于協(xié)程本身對(duì)操作系統(tǒng)的不可見性,協(xié)程中出現(xiàn)的 BUG 往往不能通過一些已有的工具去排查。在谷歌內(nèi)部有一套閉源的用戶態(tài)任務(wù)調(diào)度框架SwitchTo
, 這個(gè)框架可以為谷歌提供延遲敏感的服務(wù),對(duì)運(yùn)行的內(nèi)容進(jìn)行細(xì)粒度的用戶空間控制/調(diào)度,它可以讓內(nèi)核來實(shí)現(xiàn)上下文的切換,同時(shí)將任務(wù)何時(shí)切換,何時(shí)恢復(fù)的工作交給了用戶態(tài)的程序來做,這樣既可以實(shí)現(xiàn)在任務(wù)間協(xié)作式切換的功能,又可以不喪失內(nèi)核對(duì)于任務(wù)的控制和觀察能力。谷歌去年恢復(fù)嘗試將其 SwitchTo
API 上游引入 Linux。相關(guān)補(bǔ)丁見:[1],[2],[3],[4].1pid_t?switchto_wait(timespec?*timeout)
2/*??Enter?an?'unscheduled?state',?until?our?control?is?re-initiated?by?another?thread?or?external?event?(signal).?*/
3void?switchto_resume(pid_t?tid)
4/*?Resume?regular?execution?of?tid?*/
5pid_t?switchto_switch(pid_t?tid)
6/*?Synchronously?transfer?control?to?target?sibling?thread,?leaving?the?current?thread?unscheduled.Analogous?to:Atomically?{?Resume(t1);?Wait(NULL);?}
7*/
這是使用 SwitchTo
和使用其他線程間切換的組件的上下文切換性能對(duì)比:Benchmark | Time(ns) | CPU(ns) | Iterations |
---|---|---|---|
BM_Futex | 2905 | 1958 | 1000000 |
BM_GoogleMutex | 3102 | 2326 | 1000000 |
BM_SwitchTo | 179 | 178 | 3917412 |
BM_SwitchResume | 2734 | 1554 | 1000000 |
SwitchTo
后切換的性能比其他組件提高了一個(gè)數(shù)量級(jí)別。SwitchTo
是如何做到在切換性能上大幅度領(lǐng)先的呢?我們暫時(shí)可能無法看到它們,但讓我們來看看 Peter Oskolkov
向 LKML(Linux Kernel Mail List) 提出的補(bǔ)丁中有關(guān) futex_swap()
的實(shí)現(xiàn)??梢源_定的是,SwitchTo
構(gòu)建在這個(gè)內(nèi)核函數(shù)之上。什么是 futex
futex
全稱 fast user-space locking
,快速用戶空間互斥鎖,作為內(nèi)核中一種基本的同步原語,它提供了非??焖俚臒o競(jìng)爭(zhēng)鎖獲取和釋放,用于構(gòu)建復(fù)雜的同步結(jié)構(gòu):互斥鎖、條件變量、信號(hào)量等。由于 futex
的一些機(jī)制和使用過于復(fù)雜,glibc
沒有為 futex
提供包裝器,但我們?nèi)匀豢梢允褂?syscall
來調(diào)用這個(gè) 極其 hack 的系統(tǒng)調(diào)用。1static?int?futex(uint32_t?*uaddr,?int?futex_op,?uint32_t?val,
2?????????????????const?struct?timespec?*timeout,?uint32_t?*uaddr2,
3?????????????????uint32_t?val3)
4?{
5??return?syscall(SYS_futex,?uaddr,?futex_op,?val,?timeout,?uaddr2,?val3);
6}
uaddr
: 一個(gè)四字節(jié)的用戶空間地址。多個(gè)任務(wù)間可以通過*uaddr
的值的變化來控制阻塞或者運(yùn)行。futex_op
: 用于控制futex
執(zhí)行的命令 如FUTEX_WAIT
,FUTEX_WAKE
,FUTEX_LOCK_PI
,FUTEX_UNLOCK_PI
…val
: 在不同的futex_op
具有不同的含義,如在futex(uaddr, FUTEX_WAKE)
中作為喚醒等待在該futex
上所有任務(wù)的數(shù)量。timeout
: 作為等待(如FUTEX_WAIT
)的超時(shí)時(shí)間。uaddr2
:uaddr2
參數(shù)是一個(gè)四字節(jié)的用戶空間地址 在需要的場(chǎng)景使用(如后文的FUTEX_SWAP
)。val3
: 整數(shù)參數(shù)val3
的解釋取決于在操作上。
為什么 futex “快速”?
由于用戶模式和內(nèi)核模式之間的上下文切換很昂貴,futex
實(shí)現(xiàn)的同步結(jié)構(gòu)會(huì)盡可能多地留在用戶空間,這意味著它們只需要執(zhí)行更少的系統(tǒng)調(diào)用。futex
的狀態(tài)存儲(chǔ)在用戶空間變量中,futex
可以通過一些原子操作在沒有競(jìng)爭(zhēng)的情況下更改 futex
的狀態(tài),而無需系統(tǒng)調(diào)用的開銷。futex_wait() 和 futex_wake()
在看futex_swap()
之前讓我們先看看 內(nèi)核中 與 futex
最重要的兩個(gè)內(nèi)核函數(shù):1static?int?futex_wait(u32?__user?*uaddr,?unsigned?int?flags,?u32?val,?ktime_t?*abs_time,?u32?bitset);
簡(jiǎn)單來說 對(duì)于 futex_wait()
有用的參數(shù)就只有 uaddr
,val
,abs_time
,就像 futex_wait(uaddr,val,abs_time)
。其含義是當(dāng)這個(gè)用戶空間地址 uaddr
的值等于傳入的參數(shù) val
的時(shí)候睡眠,即 if (*uaddr == val) wait()
. futex_wake()
可以將它喚醒,另外還可以通過指定超時(shí)時(shí)間來超時(shí)喚醒。 1static?int?futex_wait(u32?__user?*uaddr,?unsigned?int?flags,?u32?val,
2??????????????ktime_t?*abs_time,?u32?bitset)
3{
4????struct?hrtimer_sleeper?timeout,?*to;
5????struct?restart_block?*restart;
6????struct?futex_hash_bucket?*hb;
7????struct?futex_q?q?=?futex_q_init;
8????int?ret;
9
10????if?(!bitset)
11????????return?-EINVAL;
12????q.bitset?=?bitset;
13??/*?設(shè)置定時(shí)器?*/
14????to?=?futex_setup_timer(abs_time,?