123,123

[導(dǎo)讀]當(dāng)配置Linux內(nèi)核的時候，我們可以選擇一些參數(shù)，這些參數(shù)能影響系統(tǒng)的行為。你可以用不同的優(yōu)先級、調(diào)度類和搶占模型來工作。正確地選擇這些參數(shù)是非常重要的。

當(dāng)配置Linux內(nèi)核的時候，我們可以選擇一些參數(shù)，這些參數(shù)能影響系統(tǒng)的行為。你可以用不同的優(yōu)先級、調(diào)度類和搶占模型來工作。正確地選擇這些參數(shù)是非常重要的。

1、內(nèi)核搶占概述

2.6新的可搶占式內(nèi)核是指內(nèi)核搶占，即當(dāng)進程位于內(nèi)核空間時，有一個更高優(yōu)先級的任務(wù)出現(xiàn)時，如果當(dāng)前內(nèi)核允許搶占，則可以將當(dāng)前任務(wù)掛起，執(zhí)行優(yōu)先級更高的進程。

在2.5.4版本之前，Linux內(nèi)核是不可搶占的，高優(yōu)先級的進程不能中止正在內(nèi)核中運行的低優(yōu)先級的進程而搶占CPU運行。進程一旦處于核心態(tài)(例如用戶進程執(zhí)行系統(tǒng)調(diào)用)，則除非進程自愿放棄CPU，否則該進程將一直運行下去，直至完成或退出內(nèi)核。與此相反，一個可搶占的Linux內(nèi)核可以讓Linux內(nèi)核如同用戶空間一樣允許被搶占。當(dāng)一個高優(yōu)先級的進程到達(dá)時，不管當(dāng)前進程處于用戶態(tài)還是核心態(tài)，如果當(dāng)前允許搶占，可搶占內(nèi)核的Linux都會調(diào)度高優(yōu)先級的進程運行。

2、用戶搶占

內(nèi)核即將返回用戶空間的時候，如果need resched標(biāo)志被設(shè)置，會導(dǎo)致schedule()被調(diào)用，此時就會發(fā)生用戶搶占。在內(nèi)核返回用戶空間的時候，它知道自己是安全的。所以，內(nèi)核無論是在從中斷處理程序還是在系統(tǒng)調(diào)用后返回，都會檢查need resched標(biāo)志。如果它被設(shè)置了，那么，內(nèi)核會選擇一個其他(更合適的)進程投入運行。

簡而言之，用戶搶占在以下情況時產(chǎn)生：

從系統(tǒng)調(diào)返回用戶空間。

從中斷處理程序返回用戶空間。

3、不可搶占內(nèi)核的特點

在不支持內(nèi)核搶占的內(nèi)核中，內(nèi)核代碼可以一直執(zhí)行，到它完成為止。也就是說，調(diào)度程序沒有辦法在一個內(nèi)核級的任務(wù)正在執(zhí)行的時候重新調(diào)度—內(nèi)核中的各任務(wù)是協(xié)作方式調(diào)度的，不具備搶占性。當(dāng)然，運行于內(nèi)核態(tài) 的進程可以主動放棄CPU，比如，在系統(tǒng)調(diào)用服務(wù)例程中，由于內(nèi)核代碼由于等待資源而放棄CPU，這種情況叫做計劃性進程切換(planned process switch)。內(nèi)核代碼一直要執(zhí)行到完成(返回用戶空間)或明顯的阻塞為止，

在單CPU情況下，這樣的設(shè)定大大簡化了內(nèi)核的同步和保護機制?？梢苑謨刹綄Υ思右苑治觯?

首先，不考慮進程在內(nèi)核中自愿放棄CPU的情況(也即在內(nèi)核中不發(fā)生進程的切換)。一個進程一旦進入內(nèi)核就將一直運行下去，直到完成或退出內(nèi)核。在其沒有完成或退出內(nèi)核之前，不會有另外一個進程進入內(nèi)核，即進程在內(nèi)核中的執(zhí)行是串行的，不可能有多個進程同時在內(nèi)核中運行，這樣內(nèi)核代碼設(shè)計時就不用考慮多個進程同時執(zhí)行所帶來的并發(fā)問題。Linux的內(nèi)核開發(fā)人員就不用考慮復(fù)雜的進程并發(fā)執(zhí)行互斥訪問臨界資源的問題。當(dāng)進程在訪問、修改內(nèi)核的數(shù)據(jù)結(jié)構(gòu)時就不需要加鎖來防止多個進程同時進入臨界區(qū)。這時只需再考慮一下中斷的情況，若有中斷處理例程也有可能訪問進程正在訪問的數(shù)據(jù)結(jié)構(gòu)，那么進程只要在進入臨界區(qū)前先進行關(guān)中斷操作，退出臨界區(qū)時進行開中斷操作就可以了。

再考慮一下進程自愿放棄CPU的情況。因為對CPU的放棄是自愿的、主動的，也就意味著進程在內(nèi)核中的切換是預(yù)先知道的，不會出現(xiàn)在不知道的情況下發(fā)生進程的切換。這樣就只需在發(fā)生進程切換的地方考慮一下多個進程同時執(zhí)行所可能帶來的并發(fā)問題，而不必在整個內(nèi)核范圍內(nèi)都要考慮進程并發(fā)執(zhí)行問題。

4、為什么需要內(nèi)核搶占?

實現(xiàn)內(nèi)核的可搶占對Linux具有重要意義。首先，這是將Linux應(yīng)用于實時系統(tǒng)所必需的。實時系統(tǒng)對響應(yīng)時間有嚴(yán)格的限定，當(dāng)一個實時進程被實時設(shè)備的硬件中斷喚醒后，它應(yīng)在限定的時間內(nèi)被調(diào)度執(zhí)行。而Linux不能滿足這一要求，因為Linux的內(nèi)核是不可搶占的，不能確定系統(tǒng)在內(nèi)核中的停留時間。事實上當(dāng)內(nèi)核執(zhí)行長的系統(tǒng)調(diào)用時，實時進程要等到內(nèi)核中運行的進程退出內(nèi)核才能被調(diào)度，由此產(chǎn)生的響應(yīng)延遲，在如今的硬件條件下，會長達(dá)100ms級。

這對于那些要求高實時響應(yīng)的系統(tǒng)是不能接受的。而可搶占的內(nèi)核不僅對Linux的實時應(yīng)用至關(guān)重要，而且能解決Linux對多媒體(video， audio)等要求低延遲的應(yīng)用支持不夠好的缺陷。

由于可搶占內(nèi)核的重要性，在Linux2.5.4版本發(fā)布時，可搶占被并入內(nèi)核，同SMP一樣作為內(nèi)核的一項標(biāo)準(zhǔn)可選配置。

5、什么情況不允許內(nèi)核搶占

有幾種情況Linux內(nèi)核不應(yīng)該被搶占，除此之外Linux內(nèi)核在任意一點都可被搶占。這幾種情況是：

內(nèi)核正進行中斷處理。在Linux內(nèi)核中進程不能搶占中斷(中斷只能被其他中斷中止、搶占，進程不能中止、搶占中斷)，在中斷例程中不允許進行進程調(diào)度。進程調(diào)度函數(shù)schedule()會對此作出判斷，如果是在中斷中調(diào)用，會打印出錯信息。

內(nèi)核正在進行中斷上下文的Bottom Half(中斷的底半部)處理。硬件中斷返回前會執(zhí)行軟中斷，此時仍然處于中斷上下文中。

內(nèi)核的代碼段正持有spinlock自旋鎖、writelock/readlock讀寫鎖等鎖，處干這些鎖的保護狀態(tài)中。內(nèi)核中的這些鎖是為了在SMP系統(tǒng)中短時間內(nèi)保證不同CPU上運行的進程并發(fā)執(zhí)行的正確性。當(dāng)持有這些鎖時，內(nèi)核不應(yīng)該被搶占，否則由于搶占將導(dǎo)致其他CPU長期不能獲得鎖而死等。

內(nèi)核正在執(zhí)行調(diào)度程序Scheduler。搶占的原因就是為了進行新的調(diào)度，沒有理由將調(diào)度程序搶占掉再運行調(diào)度程序。

內(nèi)核正在對每個CPU“私有”的數(shù)據(jù)結(jié)構(gòu)操作(Per-CPU date structures)。在SMP中，對于per-CPU數(shù)據(jù)結(jié)構(gòu)未用spinlocks保護，因為這些數(shù)據(jù)結(jié)構(gòu)隱含地被保護了(不同的CPU有不一樣的per-CPU數(shù)據(jù)，其他CPU上運行的進程不會用到另一個CPU的per-CPU數(shù)據(jù))。但是如果允許搶占，但一個進程被搶占后重新調(diào)度，有可能調(diào)度到其他的CPU上去，這時定義的Per-CPU變量就會有問題，這時應(yīng)禁搶占。

為保證Linux內(nèi)核在以上情況下不會被搶占，搶占式內(nèi)核使用了一個變量preempt_ count，稱為內(nèi)核搶占鎖。這一變量被設(shè)置在進程的PCB結(jié)構(gòu)task_struct中。每當(dāng)內(nèi)核要進入以上幾種狀態(tài)時，變量preempt_ count就加1，指示內(nèi)核不允許搶占。每當(dāng)內(nèi)核從以上幾種狀態(tài)退出時，變量preempt_ count就減1，同時進行可搶占的判斷與調(diào)度。

從中斷返回內(nèi)核空間的時候，內(nèi)核會檢查need_resched和preempt_count的值。如果need_ resched被設(shè)置，并且preempt count為0的話，這說明可能有一個更為重要的任務(wù)需要執(zhí)行并且可以安全地?fù)屨?，此時，調(diào)度程序就會被調(diào)用。如果preempt-count不為0，則說明內(nèi)核現(xiàn)在處干不可搶占狀態(tài)，不能進行重新調(diào)度。這時，就會像通常那樣直接從中斷返回當(dāng)前執(zhí)行進程。如果當(dāng)前進程持有的所有的鎖都被釋放了，那么preempt_ count就會重新為0。此時，釋放鎖的代碼會檢查need_ resched是否被設(shè)置。如果是的話，就會調(diào)用調(diào)度程序。

6、內(nèi)核搶占時機

在2.6版的內(nèi)核中，內(nèi)核引入了搶占能力;現(xiàn)在，只要重新調(diào)度是安全的，那么內(nèi)核就可以在任何時間搶占正在執(zhí)行的任務(wù)。

那么，什么時候重新調(diào)度才是安全的呢?只要premptcount為0，內(nèi)核就可以進行搶占。通常鎖和中斷是非搶占區(qū)域的標(biāo)志。由于內(nèi)核是支持SMP的，所以，如果沒有持有鎖，那么正在執(zhí)行的代碼就是可重新導(dǎo)人的，也就是可以搶占的。

如果內(nèi)核中的進程被阻塞了，或它顯式地調(diào)用了schedule()，內(nèi)核搶占也會顯式地發(fā)生。這種形式的內(nèi)核搶占從來都是受支持的(實際上是主動讓出CPU)，因為根本無需額外的邏輯來保證內(nèi)核可以安全地被搶占。如果代碼顯式的調(diào)用了schedule()，那么它應(yīng)該清楚自己是可以安全地被搶占的。

內(nèi)核搶占可能發(fā)生在：

當(dāng)從中斷處理程序正在執(zhí)行，且返回內(nèi)核空間之前。

當(dāng)內(nèi)核代碼再一次具有可搶占性的時候，如解鎖及使能軟中斷等。

如果內(nèi)核中的任務(wù)顯式的調(diào)用schedule()

如果內(nèi)核中的任務(wù)阻塞(這同樣也會導(dǎo)致調(diào)用schedule())

7、如何支持搶占內(nèi)核

搶占式Linux內(nèi)核的修改主要有兩點：一是對中斷的入口代碼和返回代碼進行修改。在中斷的入口內(nèi)核搶占鎖preempt_count加1，以禁止內(nèi)核搶占;在中斷的返回處，內(nèi)核搶占鎖preempt_count減1，使內(nèi)核有可能被搶占。

我們說可搶占Linux內(nèi)核在內(nèi)核的任一點可被搶占，主要就是因為在任意一點中斷都有可能發(fā)生，每當(dāng)中斷發(fā)生，Linux可搶占內(nèi)核在處理完中斷返回時都會進行內(nèi)核的可搶占判斷。若內(nèi)核當(dāng)前所處狀態(tài)允許被搶占，內(nèi)核都會重新進行調(diào)度選取高優(yōu)先級的進程運行。這一點是與非可搶占的內(nèi)核不一樣的。在非可搶占的Linux內(nèi)核中，從硬件中斷返回時，只有當(dāng)前被中斷進程是用戶態(tài)進程時才會重新調(diào)度，若當(dāng)前被中斷進程是核心態(tài)進程，則不進行調(diào)度，而是恢復(fù)被中斷的進程繼續(xù)運行。

另一基本修改是重新定義了自旋鎖、讀、寫鎖，在鎖操作時增加了對preempt count變量的操作。在對這些鎖進行加鎖操作時preemptcount變量加1，以禁止內(nèi)核搶占;在釋放鎖時preemptcount變量減1，并在內(nèi)核的搶占條件滿足且需要重新調(diào)度時進行搶占調(diào)度。

另外一種可搶占內(nèi)核實現(xiàn)方案是在內(nèi)核代碼段中插入搶占點(preemption point)的方案。在這一方案中，首先要找出內(nèi)核中產(chǎn)生長延遲的代碼段，然后在這一內(nèi)核代碼段的適當(dāng)位置插入搶占點，使得系統(tǒng)不必等到這段代碼執(zhí)行完就可重新調(diào)度。這樣對于需要快速響應(yīng)的事件，系統(tǒng)就可以盡快地將服務(wù)進程調(diào)度到CPU運行。搶占點實際上是對進程調(diào)度函數(shù)的調(diào)用，代碼如下：

復(fù)制代碼代碼如下:

if(current->need_resched)schedule();

通常這樣的代碼段是一個循環(huán)體，插入搶占點的方案就是在這一循環(huán)體中不斷檢測need_ resched的值，在必要的時候調(diào)用schedule()令當(dāng)前進程強行放棄CPU

8、何時需要重新調(diào)度

內(nèi)核必須知道在什么時候調(diào)用schedule()。如果僅靠用戶程序代碼顯式地調(diào)用schedule()，它們可能就會永遠(yuǎn)地執(zhí)行下去。相反，內(nèi)核提供了一個need_resched標(biāo)志來表明是否需要重新執(zhí)行一次調(diào)度。當(dāng)某個進程耗盡它的時間片時，scheduler tick()就會設(shè)置這個標(biāo)志;當(dāng)一個優(yōu)先級高的進程進入可執(zhí)行狀態(tài)的時候，try_to_wake_up也會設(shè)置這個標(biāo)志。

set_ tsk_need_resched：設(shè)置指定進程中的need_ resched標(biāo)志

clear tsk need_resched：清除指定進程中的need_ resched標(biāo)志

need_resched()：檢查need_ resched標(biāo)志的值;如果被設(shè)置就返回真，否則返回假

信號量、等到隊列、completion等機制喚醒時都是基于waitqueue的，而waitqueue的喚醒函數(shù)為default_wake_function，其調(diào)用try_to_wake_up將進程更改為可運行狀態(tài)并置待調(diào)度標(biāo)志。

在返回用戶空間以及從中斷返回的時候，內(nèi)核也會檢查need_resched標(biāo)志。如果已被設(shè)置，內(nèi)核會在繼續(xù)執(zhí)行之前調(diào)用調(diào)度程序。

每個進程都包含一個need_resched標(biāo)志，這是因為訪問進程描述符內(nèi)的數(shù)值要比訪問一個全局變量快(因為current宏速度很快并且描述符通常都在高速緩存中)。在2.2以前的內(nèi)核版本中，該標(biāo)志曾經(jīng)是一個全局變量。2.2到2.4版內(nèi)核中它在task_struct中。而在2.6版中，它被移到thread_info結(jié)構(gòu)體里，用一個特別的標(biāo)志變量中的一位來表示?？梢?，內(nèi)核開發(fā)者總是在不斷改進。

9、避免內(nèi)核搶占

進程一旦調(diào)用了schedule，如果再次被調(diào)度運行，那么有下面幾種可能：1.狀態(tài)為TASK_RUNNING，處于運行隊列，那么它肯定有機會再運行;2.處于睡眠隊列，那么一旦條件滿足被喚醒，那么它就會運行。那么如果一個進程被搶占的話，而且它不在運行隊列，那么怎么再讓它運行呢?答案是它不能運行了。為了避免這種情況，就必須避免處于非TASK_RUNNING的進程被搶占的進程不被趕出運行隊列，也就是下面的代碼，schedule的代碼：

復(fù)制代碼代碼如下:

if (prev->state && !(preempt_count() & PREEMPT_ACTIVE)) {

switch_count = &prev->nvcsw;

if (unlikely((prev->state & TASK_INTERRUPTIBLE) && unlikely(signal_pending(prev))))

prev->state = TASK_RUNNING;

else {

if (prev->state == TASK_UNINTERRUPTIBLE)

rq->nr_uninterruptible++;

deactivate_task(prev, rq);

}

也許有人會問，怎么會有不是TASK_RUNNING的進程而且被搶占的，這個問題實在難以回答，可是記住，進程狀態(tài)和其所在的隊列沒有關(guān)系，設(shè)置進程狀態(tài)和搶占總是有可能有間隙的。我們看看下面的代碼:

復(fù)制代碼代碼如下:

for (;;) { \

1： prepare_to_wait(&wq, &__wait, TASK_UNINTERRUPTIBLE); \

2： if (condition) \

3： break; \

4： schedule(); \

}

如果在1中被搶占，恰恰在設(shè)置完進程為TASK_UNINTERRUPTIBLE的時候被搶占，本來馬上就要測試條件是否滿足了，結(jié)果又被加入睡眠隊列去睡眠了，如果沒有PREEMPT_ACTIVE，那么在schedule中就會被移出運行隊列，如果只有這一次喚醒機會，那么就永遠(yuǎn)喚不醒這個進程了，如果本次從schedule回來條件不滿足，那么在下面的schedue中就會被移出運行隊列，這不是搶占的職責(zé)，如果非要怎么做就會出錯，在dequeue_task中由array->queue已經(jīng)為空了，在第二次真正出隊的時候就會由于空指針引用而出錯(這其實不會發(fā)生，因為只要從schedue回來，進程的狀態(tài)肯定是TASK_RUNNING，僅僅是一個例子)。因此必須保證在將進程從運行隊列移除的時候，它必須在運行隊列，否則移個鳥啊!實際上PREEMPT_ACTIVE的作用就是防止將處于非TASK_RUNNING狀態(tài)的進程并且沒有在任何睡眠隊列的進程移出運行隊列，總之必須保證進程在一個隊列中或者可以被喚醒，被搶占的進程是不能被喚醒的，如果它還不在運行隊列中，那么它將永遠(yuǎn)不能再運行了。那么PREEMPT_ACTIVE是怎么保證被搶占的進程不會被移除運行隊列呢?就是在preempt_schedule實現(xiàn)的：

復(fù)制代碼代碼如下:

asmlinkage void __sched preempt_schedule(void)

{

struct thread_info *ti = current_thread_info();

if (likely(ti->preempt_count || irqs_disabled()))

return;

do {

add_preempt_count(PREEMPT_ACTIVE); //設(shè)置PREEMPT_ACTIVE位，一直到下面的sub_preempt_count(PREEMPT_ACTIVE)，這期間不能再搶占這個進程，不過再搶占也沒有意義，如果非要搶占，出了下面的sub_preempt_count(PREEMPT_ACTIVE)也不遲

schedule();

sub_preempt_count(PREEMPT_ACTIVE); //搶占完畢后清除之

barrier();

} while (unlikely(test_thread_flag(TIF_NEED_RESCHED)));

}

除了這里之外，在早一些的內(nèi)核中從中斷返回內(nèi)核空間時如果要搶占，在entery.S中也會加上這個這個PREEMPT_ACTIVE。現(xiàn)在還有一個問題，就是為何wait_event要用那種實現(xiàn)方式呢?為何需要一個循環(huán)呢?我的回答就是：這種情況下進程之所以能被喚醒就是因為它加入了一個睡眠隊列，如果如你所說在schedule之后直接判斷condition的話是不安全的，因為喚醒不一定是因為條件滿足了，萬一兩個進程同時被喚醒那很可能有一個進程條件不能滿足，如果正好此時進程被搶占，那么這個進程就沒有機會加入睡眠隊列了，也就沒有機會被喚醒了，雖然PREEMPT_ACTIVE保證了這個進程不出運行隊列，但是卻失去了程序的本意，程序的本意是通過喚醒運行隊列來使進程運行，而此時卻成了完全依據(jù)優(yōu)先級了，即使條件滿足因為這個進程不在睡眠隊列也不會被喚醒，系統(tǒng)就亂掉了。

其實很簡單，必須在將進程加入到睡眠隊列以后再判斷條件，因為這樣可以不漏掉喚醒通知，如果反過來的話，就是先判斷再加入睡眠隊列，如果在加入之前其它進程喚醒了這個睡眠隊列，那么這個進程就會漏掉這次喚醒，之所以會有一個循環(huán)是因為可能不止一個進程被喚醒，那么就會出現(xiàn)競爭，這個循環(huán)就是為了競爭而設(shè)置的，這個循環(huán)保證了每個出了這個循環(huán)的進程都能安全帶著結(jié)果為真的條件。

另外，說到TASK_RUNNING這個狀態(tài)，又有人問了，為何在缺頁中要把進程狀態(tài)設(shè)置為TASK_RUNNING，難道缺頁前不是TASK_RUNNING嗎?大部分情況下應(yīng)該是，可是linux內(nèi)核不敢保證，之所以在handle_mm_fault中將進程狀態(tài)設(shè)置為TASK_RUNNING是為了保證在缺頁處理中如果睡眠，那么進程可以被喚醒，舉個例子，在select中，當(dāng)進程被設(shè)置為非TASK_RUNNING之后還會copy_from_user，而這卻可能引起缺頁。如果不把進程狀態(tài)設(shè)置為TASK_RUNNING，那么萬一在page fault中schedule了，那么這個進程就會被趕出運行隊列，就再也回不來了，為了預(yù)防之，措施是：在任何調(diào)用schedule的地方分辨狀態(tài)，然后設(shè)置進程狀態(tài)，比如前面說的用PREEMPT_ACTIVE來預(yù)防，另外就是像handle_mm_fault中做到的一樣，盡量使進程在TASK_RUNNABE狀態(tài)下進入schedule。不過我想是不是現(xiàn)在這個應(yīng)該去掉了，即使在缺頁中不把進程設(shè)置為運行態(tài)，如果非要調(diào)度，也在之前設(shè)為運行臺了。

ACTIVE_PREEMPT的作用：防止已經(jīng)處于非運行態(tài)的進程還沒有加入睡眠隊列的時候就被搶占然后剔除出運行隊列。這樣就永遠(yuǎn)也回不來了，雖然這種情況很少見，一般都是先將進程放到睡眠隊列再設(shè)置狀態(tài)。