Linux 內(nèi)核何以發(fā)展至今?
當(dāng)來自芬蘭的21歲的學(xué)生Linus Torvalds在1991年編寫Linux內(nèi)核代碼的第一行時,他可能沒想到它會成為今天的龐然大物。
當(dāng)年 8 月 25 日,Torvalds 在 Minix Usenet 新聞組里發(fā)了一封帖子,稱自己正在做一個自由的操作系統(tǒng),“就是個興趣愛好,不會搞得像 GNU 那么大那么專業(yè)”。
事情的發(fā)展顯然遠(yuǎn)超他的預(yù)期,如今小到傳感器,大到超級計算機(jī),從智能手機(jī)、手表、汽車等日常用品到航天器等設(shè)備,Linux 內(nèi)核的身影已無處不在。
隨著迄今為止最大版本 Linux Kernel 5.8 于今年 8 月初的發(fā)布,Linux 內(nèi)核已擁有超過 2 萬名貢獻(xiàn)者,歷史 commit 數(shù)超過 100 萬次,迎來一個新的里程碑。
上周恰逢 Linux 29 周年紀(jì)念日,Linux 基金會發(fā)布了一份詳盡的 Linux 內(nèi)核報告,涵蓋了自 1991 年 9 月 17 日首次發(fā)布以來,到 2020 年 8 月 2 日最新版本的 Linux 內(nèi)核歷史。
版本控制:從 BitKeeper 到 Git
Linux 基金會從 2008 年開始每年發(fā)布 Linux 內(nèi)核報告,但此前一直難以將其發(fā)展過程完整串聯(lián)起來。
今年,借助 Daniel German 博士的 cregit 工具,他們成功追溯到了第一個版本,Linux 內(nèi)核的發(fā)展時間線變得清晰。根據(jù)版本控制方式,可大致分為以下三個階段:
pre-version control(前版本控制):1991 年 9 月 - 2002 年 2 月 4 日
BitKeeper:2002 年 2 月 4 日 - 2005 年 4 月 15 日
Git:2005 年 4 月 16 日至今
版本控制對社區(qū)協(xié)作能力影響重大,這在 2000 年代初是一件令人頗為苦惱的事情。使用版本控制系統(tǒng),也就是 BitKeeper 之前,貢獻(xiàn)者需要將補(bǔ)丁提交至郵件列表,待 Torvalds 接受后放進(jìn)源碼樹,再發(fā)布整個樹的新版本。
在這種方式下,具體是誰在做貢獻(xiàn)、貢獻(xiàn)的數(shù)量和路徑都不夠透明。
2002 年 2 月 4 日,BitKeeper 的使用標(biāo)志著 Linux 內(nèi)核 commit 歷史的開啟。然而 BitKeeper 為專有軟件,這一決定在社區(qū)中遭受了長期質(zhì)疑。
直到 2005 年,BitKeeper 擁有者 Larry McVoy 決定收回?zé)o償使用 BitKeeper 的許可。Torvalds 本人當(dāng)時又對現(xiàn)成的 CVS 和 Subversion 等集中式版本控制工具感到不滿,因此自己動手,用十天時間寫出了 Git 的第一個版本。
Git 目前已成為開發(fā)者們非常熟知且廣泛使用的分布式版本控制系統(tǒng)。Linus Torvalds 則表現(xiàn)得更多的是迫于無奈,他曾聲稱自己“根本不想做源代碼管理,覺得這是計算機(jī)世界中最無趣的事情”。
自從版本控制系統(tǒng)由 BitKeeper 改為 Git 后,Linux 內(nèi)核每年的貢獻(xiàn)者和 commit 數(shù)量都在穩(wěn)步增長。歷年的內(nèi)核報告數(shù)據(jù)顯示,2005 年 5 月發(fā)布的 2.6.12 版本平均每小時收到 2 次 commit。
15 年后,2019 年的平均數(shù)是每小時 9.4 次。而在最新的 5.8 內(nèi)核中,平均每小時 commit 數(shù)達(dá)到了 10.7 次。
繁雜且自成體系的內(nèi)核代碼
首個內(nèi)核版本 linux-0.01.tar.Z 由 88 個文件和 10,239 行代碼組成,運(yùn)行在 i386 這樣單一的硬件架構(gòu)上。到了 5.8 版本,這一數(shù)據(jù)擴(kuò)張為 69,325 個文件和 28,442,673 行代碼,并能夠在 30 多種主要的架構(gòu)上運(yùn)行。
數(shù)量上的龐大僅是 Linux 內(nèi)核代碼的表象,它自身更是形成了一套復(fù)雜的體系,不熟悉的人往往不知從何處下手,極有可能“牽一發(fā)而動全身”。這或許也是內(nèi)核維護(hù)者難尋的原因之一。
Linux 內(nèi)核發(fā)布第一天起的某些代碼仍在當(dāng)前版本中使用,例如 Torvalds 和大學(xué)好友 Lars Wirzenius 共同編寫的 vsprintf 例程,它也是為數(shù)不多存在至今的首次 commit 中的源代碼。
今年的內(nèi)核報告提到,有 2,964 個能被追溯至 1991 年的 token 如今在 5.8 版本中也能找到。5.8 版本超過一半的代碼寫于近 7 年內(nèi),但之前所有年份都對此版本有貢獻(xiàn)。過去的代碼不斷在后續(xù)的版本中留下痕跡。
持續(xù)膨脹的內(nèi)核文件量和代碼行數(shù)未見得完全是一件好事,為了使系統(tǒng)不變得臃腫,內(nèi)核維護(hù)者需要做一些修枝剪葉的工作。
Linux 內(nèi)核中未使用的代碼和文件都會被視情況刪除,有一些版本還會進(jìn)行大的清理,例如 2018 年的 4.17 版本,刪除了 8 個架構(gòu),凈減少代碼大約 180,000 行。
不僅僅是源碼,Linux 內(nèi)核維護(hù)者還會關(guān)注空白行和代碼注釋,以確保源碼的可讀性。
開發(fā)者原創(chuàng)證書和標(biāo)簽管理
2004 年對開發(fā)者原創(chuàng)證書(Developer Certificate of Origin,簡稱 DCO)的標(biāo)準(zhǔn)化是 Linux 內(nèi)核史上的一個關(guān)鍵變化點。DCO 的引入為開發(fā)者和用戶提供了法律保護(hù),同時又不至于增加程序負(fù)擔(dān)。
它極大地提高了跟蹤補(bǔ)丁進(jìn)入內(nèi)核的路徑的能力,加上版本控制系統(tǒng)向 Git 的過渡,DCO 有效地減輕了開發(fā)者做貢獻(xiàn)的開銷,因此變得很受歡迎,后來也被許多其他開源項目采用。
隨著 DCO 的標(biāo)準(zhǔn)化使用,現(xiàn)在幾乎所有的 commit 都有一個 Signed-off-by 標(biāo)簽。通常每個 commit 平均會有兩個該標(biāo)簽,能夠反映代碼在合并之前的維護(hù)者層次結(jié)構(gòu),有助于追溯補(bǔ)丁進(jìn)入代碼的路徑。
Signed-off-by 之外,Linux 內(nèi)核還增加了表示審查的標(biāo)簽(Reviewed-by 和 Acked-by)。審查對內(nèi)核代碼的質(zhì)量來說相當(dāng)重要,標(biāo)簽的加入令這個過程更加清晰,有越來越多的維護(hù)者選擇使用標(biāo)簽來表示已審查。
在審查 git 倉庫時,Linux 基金會發(fā)現(xiàn)了一些比較有趣的標(biāo)簽,像是 "Enithusiastically-ack'd by"、"Thanksto"、"Based-on-the-Original-screenplay-by"、"Catched-by-andrightfully-ranted-at-by" 等等。
但這些標(biāo)簽并沒有像上述兩類一樣被廣泛采用。
行之有效的發(fā)布模式
Linux 內(nèi)核的發(fā)布模式已漸趨成熟,現(xiàn)在基本固定為 Prepatch(或"-rc")、Mainline、Stable 和 Long Term Stable 四類版本。
社區(qū)曾對發(fā)布周期進(jìn)行了大量的探討和實驗,并逐漸找到了行之有效的發(fā)布模式,發(fā)布周期也幾乎完全可預(yù)測——每個發(fā)布周期由時長兩周的“合并窗口”開始,這時,新功能經(jīng)適當(dāng)?shù)? review 后可被納入接下來要發(fā)布的 git 倉庫。
一旦它被標(biāo)記為 rc1,那么集成測試、調(diào)試和穩(wěn)定化的周期就開始了。然后每周對 rc 候選版本進(jìn)行標(biāo)記,直到達(dá)到目標(biāo)質(zhì)量和穩(wěn)定性。發(fā)布后,隨著下一個合并窗口的到來,這個周期又開始循環(huán)。
內(nèi)核的主線樹由 Linus Torvalds 維護(hù),這棵樹引入了所有新功能。新的主線(Mainline)內(nèi)核每 2 到 3 個月發(fā)布一次。但這樣的發(fā)布節(jié)奏較慢,難以滿足大多數(shù)用戶的需求。因此,從 2005 年開始,每周發(fā)行一次穩(wěn)定版(Stable)內(nèi)核。
用戶還想要受維護(hù)時間更長的版本,于是 2006 年發(fā)布的 2.6.16 版本成為第一個長期支持(LTS)版本內(nèi)核。此后每年都有一個新的 LTS 內(nèi)核,該內(nèi)核將由內(nèi)核社區(qū)維護(hù)至少 2 年(從 4.4 版本開始延長至 6 年)。
Linux 內(nèi)核官網(wǎng)公布了所有現(xiàn)存 LTS 版本的發(fā)行日期、EOL 日期及維護(hù)者(目前 6 個 LTS 版本都由 Greg Kroah-Hartman 和 Sasha Levin 這兩人維護(hù))。
貢獻(xiàn)者:長尾的力量不可忽視
不少組織都在為 Linux 內(nèi)核做貢獻(xiàn),貢獻(xiàn)者排行榜前列幾乎都被 Intel、Red Hat、IBM、SUSE、Google、Samsung、AMD、Oracle、華為和 ARM 這樣的大企業(yè)占據(jù)。
從 2007 年到 2019 年,Linux 內(nèi)核共接受了來自 1,730 個組織的 780,048 次 commit。排在最前面的 20 個組織占了 68% 的 commit 量。
在過去十年中,每年有超過 400 個組織為 Linux 內(nèi)核做出貢獻(xiàn)。其中相當(dāng)一部分可能只有過一次 commit。從每年的 commit 比例來看,其中 1/3 貢獻(xiàn)來自神秘的長尾。也就是圖中最上面淺灰色 “Others” 的部分。
Linux 基金會指出,企業(yè)的貢獻(xiàn)會根據(jù)業(yè)務(wù)需求和戰(zhàn)略的不同而有所變化。前 20 名貢獻(xiàn)者中,有些是 2007 年之后才加入,有些在此前做過很多貢獻(xiàn)的公司,被收購后便不再繼續(xù)參與。貢獻(xiàn)者的多樣性為內(nèi)核發(fā)展賦予了一些彈性。
除了組織貢獻(xiàn)者,Linux 內(nèi)核社區(qū)成員也致力于增加個人貢獻(xiàn)者的多樣性,他們通常愿意花費(fèi)自己的時間來指導(dǎo)新的開發(fā)者。
Linux 基金會有一個 Kernel Mentorship(LKMP)項目,用來幫助新加入開源的開發(fā)者進(jìn)行實驗、學(xué)習(xí),并為開源社區(qū)做出貢獻(xiàn)。
內(nèi)核社區(qū)的共同目標(biāo):高質(zhì)量、可靠性
報告的最后,Linux 基金會指出,內(nèi)核社區(qū)的重點是保持一個共同的目標(biāo),即擁有一個沒有回歸的高質(zhì)量操作系統(tǒng),愿意根據(jù)需要創(chuàng)建新的流程和工具,以幫助提高效率,并繼續(xù)提升 Linux 內(nèi)核的可靠性。
內(nèi)核測試現(xiàn)在也引入了一些自動化測試工具:靜態(tài)分析工具如 sparse(語義解析器)、smatch(源匹配器)和cocicheck(語義補(bǔ)丁,測試特定的 bug),由 0-day 和 Hulk Robot 這樣的自動測試機(jī)器人在 Linux 內(nèi)核樹上運(yùn)行。
機(jī)器人在發(fā)現(xiàn)和跟蹤 bug 上起到不少作用。這些測試工具能夠幫助開發(fā)人員跟上上游內(nèi)核的速率變化,并繼續(xù)改進(jìn)內(nèi)核版本,提升其穩(wěn)定性。
Linux 內(nèi)核如今被應(yīng)用于諸多領(lǐng)域,基金會認(rèn)為,改進(jìn)基礎(chǔ)設(shè)施,進(jìn)行正確的安全分析,是接下來要應(yīng)對的重大挑戰(zhàn)之一。
目前 Linux 內(nèi)核已擁有一個很好的基礎(chǔ),它應(yīng)當(dāng)繼續(xù)引領(lǐng)創(chuàng)造最佳實踐,以促進(jìn)整個開源軟件行業(yè)的發(fā)展。