精致全景圖 | linux內(nèi)核輸出的日志去哪里了
因?yàn)閳D片比較大,微信公眾號(hào)上壓縮的比較厲害,所以很多細(xì)節(jié)都看不清了,我單獨(dú)傳了一份到github上,想要原版圖片的,可以點(diǎn)擊下方的閱讀原文,或者直接使用下面的鏈接,來(lái)訪問(wèn)github:
https://github.com/wangyuntao/linux-kernel-illustrated
另外,精致全景圖系列文章,以及之后的linux內(nèi)核分析文章,我都會(huì)整理到這個(gè)github倉(cāng)庫(kù)里,歡迎大家star收藏。
熟悉linux內(nèi)核,或者看過(guò)linux內(nèi)核源碼的同學(xué)就會(huì)知道,在內(nèi)核中,有一個(gè)類(lèi)似于c語(yǔ)言的輸出函數(shù),叫做printk,使用它,我們可以打印各種我們想要的信息,比如內(nèi)核當(dāng)前的運(yùn)行狀態(tài),又或者是我們自己的調(diào)試日志等,非常方便。
那當(dāng)我們調(diào)用printk函數(shù)后,這些輸出的信息到哪里去了呢?我們又如何在linux下的用戶態(tài),查看這些信息呢?
為了解答這些疑問(wèn),我畫(huà)了一張printk全景圖,放在了文章開(kāi)始的部分,這張圖既包含了printk在內(nèi)核態(tài)的實(shí)現(xiàn),又包含了其輸出的信息在用戶態(tài)如何查看。
我們可以根據(jù)這張圖,來(lái)理解printk的整體架構(gòu)。
在內(nèi)核編碼時(shí),如果想要輸出一些信息,通常并不會(huì)直接使用printk,而是會(huì)使用其衍生函數(shù),比如 pr_err / pr_info / pr_debug 等,這些衍生函數(shù)附帶了日志級(jí)別、所屬模塊等其他信息,比較友好,但其最終還是調(diào)用了printk。
printk函數(shù)會(huì)將每次輸出的日志,放到內(nèi)核為其專(zhuān)門(mén)分配的名為ring buffer的一個(gè)槽位里。
ring buffer其實(shí)就是一個(gè)用數(shù)組實(shí)現(xiàn)的環(huán)形隊(duì)列,不過(guò)既然是環(huán)形隊(duì)列,就會(huì)有一個(gè)問(wèn)題,即當(dāng)ring buffer滿了的時(shí)候,下一條新的日志,會(huì)覆蓋最開(kāi)始的舊的日志。
ring buffer的大小,可以通過(guò)內(nèi)核參數(shù)來(lái)修改。
printk在將日志放到ring buffer后,會(huì)再調(diào)用系統(tǒng)console的相關(guān)方法,將還未輸出到系統(tǒng)控制臺(tái)的消息,繼續(xù)輸出到控制臺(tái),這個(gè)后面會(huì)詳細(xì)說(shuō),這里就暫不贅述。
以上就是printk在內(nèi)核態(tài)的實(shí)現(xiàn)。
在用戶態(tài),我們有幾個(gè)方式,可以查看printk輸出的內(nèi)核日志,比如使用dmesg命令,cat /proc/kmsg文件,或者是使用klogctl函數(shù)等,這些方式分別對(duì)應(yīng)于全景圖中用戶態(tài)的橙色、綠色、和藍(lán)色的部分。
dmesg命令,在默認(rèn)情況下,是通過(guò)讀取/dev/kmsg文件,來(lái)實(shí)現(xiàn)查看內(nèi)核日志的。
當(dāng)該命令運(yùn)行時(shí),dmesg會(huì)先調(diào)用open函數(shù),打開(kāi)/dev/kmsg文件,該打開(kāi)操作在內(nèi)核中的邏輯,會(huì)為dmesg分配一個(gè)file實(shí)例,在這個(gè)file實(shí)例里,會(huì)有一個(gè)seq變量,該變量記錄著下一條要讀取的內(nèi)核日志在ring buffer中的位置。
剛打開(kāi)/dev/kmsg文件時(shí),這個(gè)seq指向的就是ring buffer中最開(kāi)始的那條日志。
之后,dmesg會(huì)以打開(kāi)的/dev/kmsg文件為媒介,不斷的調(diào)用read函數(shù),從內(nèi)核中讀取日志消息,每讀取出一條,seq的值都會(huì)加一,即指向下一條日志的位置,依次往復(fù),直到所有的內(nèi)核日志讀取完畢,dmesg退出。
以上就是dmesg的主體實(shí)現(xiàn)。
第二種查看內(nèi)核日志的方式,是通過(guò) cat /proc/kmsg 命令。
該命令和dmesg命令的實(shí)現(xiàn)機(jī)制基本類(lèi)似,都是通過(guò)讀文件,只不過(guò)cat讀取的是/proc/kmsg文件,而dmesg讀取的是/dev/kmsg文件。
讀取這兩個(gè)文件最大的區(qū)別是,/dev/kmsg文件每次打開(kāi)時(shí),內(nèi)核都會(huì)為其分配一個(gè)單獨(dú)的seq變量,而/proc/kmsg文件每次打開(kāi)時(shí),用的都是同一個(gè)全局的靜態(tài)seq變量,叫做syslog_seq。
syslog_seq指向的也是下一條要讀取的內(nèi)核日志在ring buffer中的位置,但因?yàn)樗且粋€(gè)全局的靜態(tài)變量,當(dāng)有多個(gè)進(jìn)程要讀取/proc/kmsg文件時(shí),就會(huì)有一個(gè)比較嚴(yán)重的問(wèn)題,即內(nèi)核日志會(huì)被這幾個(gè)進(jìn)程隨機(jī)搶占讀取,也就是說(shuō),每個(gè)進(jìn)程讀到的都是整個(gè)內(nèi)核日志的一部分,是不完整的,這也是dmesg命令默認(rèn)不使用/proc/kmsg文件的原因。
第三種查看內(nèi)核日志的方式,是通過(guò)klogctl函數(shù)。
該函數(shù)是glibc對(duì)syslog系統(tǒng)調(diào)用的一個(gè)簡(jiǎn)單封裝,其具體使用方式,可以參考全景圖中用戶態(tài)的藍(lán)色部分。
klogctl函數(shù)可以指定很多命令,在上圖的示例中,我們使用的是SYSLOG_ACTION_READ命令,以此來(lái)模擬 cat /proc/kmsg 行為。
其實(shí)在內(nèi)核層面,cat /proc/kmsg命令,使用的就是klogctl對(duì)應(yīng)的syslog系統(tǒng)調(diào)用的SYSLOG_ACTION_READ命令的處理邏輯,所以示例中的klogctl函數(shù)相關(guān)代碼,和 cat /proc/kmsg 命令其實(shí)是等價(jià)的。
也就是說(shuō),klogctl函數(shù)在內(nèi)核里使用的也是syslog_seq變量,它也有和/proc/kmsg文件同樣的問(wèn)題。
其實(shí)還有一種方式可以查看內(nèi)核日志,就是通過(guò)系統(tǒng)控制臺(tái)。
但這種方式和前面講的三種方式都不一樣,它是完全被動(dòng)的,是內(nèi)核在調(diào)用printk函數(shù),將日志信息放到ring buffer后,再去通知系統(tǒng)控制臺(tái),告知其可以輸出這些日志。
系統(tǒng)控制臺(tái)也是通過(guò)一個(gè)console_seq變量,記錄下一條要輸出內(nèi)核日志的所在位置。
這里說(shuō)的系統(tǒng)控制臺(tái),是指我們?cè)陂_(kāi)機(jī)的時(shí)候,黑色屏幕輸出的那些內(nèi)容,但當(dāng)我們進(jìn)入圖形化界面后,我們就看不到系統(tǒng)控制臺(tái)的輸出了,除非我們?cè)儆?ctrl alt f1/f2/f3 等方式,切換成系統(tǒng)控制臺(tái)。
系統(tǒng)控制臺(tái)輸出的內(nèi)容,是被日志級(jí)別過(guò)濾過(guò)的,內(nèi)核默認(rèn)的日志過(guò)濾級(jí)別是7,即debug級(jí)別以上的日志,比如info / err 等,這些都會(huì)輸出,但debug級(jí)別不會(huì)輸出。
該日志過(guò)濾級(jí)別,可以通過(guò)很多方式改變,比如說(shuō),可以通過(guò)內(nèi)核參數(shù) loglevel,所以,如果發(fā)現(xiàn)系統(tǒng)控制臺(tái)沒(méi)有輸出想要的日志信息,先看下其是否被過(guò)濾掉了。
以上就是printk生態(tài)的完整實(shí)現(xiàn)。
了解printk函數(shù)的實(shí)現(xiàn),對(duì)于內(nèi)核開(kāi)發(fā)者或研究者來(lái)說(shuō),意義非常大,但對(duì)于普通的應(yīng)用開(kāi)發(fā)人員來(lái)說(shuō),又有什么幫助呢?
其實(shí),隨著技術(shù)的深入,我們不應(yīng)該再只關(guān)心應(yīng)用層面的行為,而且還要關(guān)心系統(tǒng)層面的行為,這樣我們才能更好的去定位問(wèn)題,更好的去保證我們應(yīng)用的健康運(yùn)行。
比如,當(dāng)我們的應(yīng)用需要內(nèi)存時(shí),會(huì)向操作系統(tǒng)申請(qǐng),操作系統(tǒng)此時(shí)給我們的,其實(shí)是虛擬內(nèi)存,只有當(dāng)我們的進(jìn)程真正的在使用這些內(nèi)存時(shí),比如讀/寫(xiě),操作系統(tǒng)才會(huì)為其分配物理內(nèi)存。
但假設(shè)此時(shí)物理內(nèi)存沒(méi)有了,那操作系統(tǒng)會(huì)怎么辦?
對(duì)于linux內(nèi)核來(lái)說(shuō),它會(huì)選擇一個(gè)使用內(nèi)存最多的進(jìn)程,然后將其kill掉,以此來(lái)釋放內(nèi)存,保證后續(xù)的內(nèi)存分配操作能夠成功,這個(gè)我在之前文章?為什么我的進(jìn)程被kill掉了?有詳細(xì)講過(guò)。
對(duì)于內(nèi)核的這種行為,我們就應(yīng)該多加關(guān)注,而關(guān)注的方式,就是查看內(nèi)核日志。
比如,linux內(nèi)核在kill掉進(jìn)程時(shí),會(huì)用pr_err記錄一行日志:
如果我們發(fā)現(xiàn)一個(gè)進(jìn)程跑著跑著就沒(méi)有了,就可以通過(guò)dmesg命令,查看是否有這個(gè)日志,如果有,說(shuō)明該進(jìn)程因?yàn)橄到y(tǒng)內(nèi)存不足,被操作系統(tǒng)kill掉了。
類(lèi)似的,內(nèi)核里還有很多error級(jí)別,甚至更高級(jí)別的日志需要我們關(guān)注,通過(guò)這些日志,我們可以及時(shí)的發(fā)現(xiàn)系統(tǒng)的異常情況,必要時(shí)可以人工介入進(jìn)行干預(yù)。
總之,對(duì)系統(tǒng)了解的越深,內(nèi)核日志對(duì)我們的幫助就越大。
就這些,希望你喜歡。