當(dāng)前位置:首頁(yè) > 嵌入式 > 嵌入式軟件
[導(dǎo)讀] 日志文件系統(tǒng)可以在系統(tǒng)發(fā)生斷電或者其它系統(tǒng)故障時(shí)保證整體數(shù)據(jù)的完整性,Linux是目前支持日志文件系統(tǒng)最多的操作系統(tǒng)之一,本文重點(diǎn)研究了Linux常用的日志文件系統(tǒng):EXT

 日志文件系統(tǒng)可以在系統(tǒng)發(fā)生斷電或者其它系統(tǒng)故障時(shí)保證整體數(shù)據(jù)的完整性,Linux是目前支持日志文件系統(tǒng)最多的操作系統(tǒng)之一,本文重點(diǎn)研究了Linux常用的日志文件系統(tǒng):EXT3、ReiserFS、XFS和JFS日志技術(shù),并采用標(biāo)準(zhǔn)的測(cè)試工具PostMark和 Bonnie++對(duì)它們進(jìn)行了測(cè)試,給出了詳細(xì)的性能分析,對(duì)Linux服務(wù)器應(yīng)用具有重要的參考價(jià)值。

一、概述

所謂日志文件系統(tǒng)是在傳統(tǒng)文件系統(tǒng)的基礎(chǔ)上,加入文件系統(tǒng)更改的日志記錄,它的設(shè)計(jì)思想是:跟蹤記錄文件系統(tǒng)的變化,并將變化內(nèi)容記錄入日志。日志文件系統(tǒng)在磁盤(pán)分區(qū)中保存有日志記錄,寫(xiě)操作首先是對(duì)記錄文件進(jìn)行操作,若整個(gè)寫(xiě)操作由于某種原因(如系統(tǒng)掉電)而中斷,系統(tǒng)重啟時(shí),會(huì)根據(jù)日志記錄來(lái)恢復(fù)中斷前的寫(xiě)操作。在日志文件系統(tǒng)中,所有的文件系統(tǒng)的變化都被記錄到日志,每隔一定時(shí)間,文件系統(tǒng)會(huì)將更新后的元數(shù)據(jù)及文件內(nèi)容寫(xiě)入磁盤(pán)。在對(duì)元數(shù)據(jù)做任何改變以前,文件系統(tǒng)驅(qū)動(dòng)程序會(huì)向日志中寫(xiě)入一個(gè)條目,這個(gè)條目描述了它將要做些什么,然后它修改元數(shù)據(jù)。目前Linux的日志文件系統(tǒng)主要有:在Ext2基礎(chǔ)上開(kāi)發(fā)的Ext3,根據(jù)面向?qū)ο笏枷朐O(shè)計(jì)的ReiserFS,由SGI IRIX系統(tǒng)移植過(guò)來(lái)的XFS,由IBM AIX系統(tǒng)移植過(guò)來(lái)的JFS,其中EXT3完全兼容EXT2,其磁盤(pán)結(jié)構(gòu)和EXT2完全一樣,只是加入日志技術(shù);而后三種文件系統(tǒng)廣泛使用了B樹(shù)以提高文件系統(tǒng)的效率。

二、Ext3

Ext3 文件系統(tǒng)是直接從Ext2文件系統(tǒng)發(fā)展而來(lái),目前Ext3文件系統(tǒng)已經(jīng)非常穩(wěn)定可靠,它完全兼容Ext2文件系統(tǒng),用戶(hù)可以平滑地過(guò)渡到一個(gè)日志功能健全的文件系統(tǒng)。Ext3日志文件系統(tǒng)的思想就是對(duì)文件系統(tǒng)進(jìn)行的任何高級(jí)修改都分兩步進(jìn)行。首先,把待寫(xiě)塊的一個(gè)副本存放在日志中;其次,當(dāng)發(fā)往日志的 I/O 數(shù)據(jù)傳送完成時(shí)(即數(shù)據(jù)提交到日志),塊就寫(xiě)入文件系統(tǒng)。當(dāng)發(fā)往文件系統(tǒng)的I/O 數(shù)據(jù)傳送終止時(shí)(即數(shù)據(jù)提交給文件系統(tǒng)),日志中的塊副本就被丟棄。

2.1 Ext3日志模式

Ext3既可以只對(duì)元數(shù)據(jù)做日志,也可以同時(shí)對(duì)文件數(shù)據(jù)塊做日志。具體來(lái)說(shuō),Ext3提供以下三種日志模式:

日志(Journal )

文件系統(tǒng)所有數(shù)據(jù)和元數(shù)據(jù)的改變都記入日志。這種模式減少了丟失每個(gè)文件所作修改的機(jī)會(huì),但是它需要很多額外的磁盤(pán)訪問(wèn)。例如,當(dāng)一個(gè)新文件被創(chuàng)建時(shí),它的所有數(shù)據(jù)塊都必須復(fù)制一份作為日志記錄。這是最安全和最慢的Ext3日志模式。

預(yù)定(Ordered )

只有對(duì)文件系統(tǒng)元數(shù)據(jù)的改變才記入日志。然而,Ext3文件系統(tǒng)把元數(shù)據(jù)和相關(guān)的數(shù)據(jù)塊進(jìn)行分組,以便把元數(shù)據(jù)寫(xiě)入磁盤(pán)之前寫(xiě)入數(shù)據(jù)塊。這樣,就可以減少文件內(nèi)數(shù)據(jù)損壞的機(jī)會(huì);例如,確保增大文件的任何寫(xiě)訪問(wèn)都完全受日志的保護(hù)。這是缺省的Ext3 日志模式。

寫(xiě)回(Writeback )

只有對(duì)文件系統(tǒng)元數(shù)據(jù)的改變才記入日志;這是在其他日志文件系統(tǒng)發(fā)現(xiàn)的方法,也是最快的模式。

2.2 日志塊設(shè)備(JBD)

Ext3 文件系統(tǒng)本身不處理日志,而是利用日志塊設(shè)備(Journaling Block Device)或叫JBD 的通用內(nèi)核層。Ext3文件系統(tǒng)調(diào)用JDB例程以確保在系統(tǒng)萬(wàn)一出現(xiàn)故障時(shí)它的后續(xù)操作不會(huì)損壞磁盤(pán)數(shù)據(jù)結(jié)構(gòu)。Ext3 與JDB 之間的交互本質(zhì)上基于三個(gè)基本單元:日志記錄,原子操作和事務(wù)。

日志記錄本質(zhì)上是文件系統(tǒng)將要發(fā)出的低級(jí)操作的描述。在某些日志文件系統(tǒng)中,日志記錄只包括操作所修改的字節(jié)范圍及字節(jié)在文件系統(tǒng)中的起始位置。然而,JDB 層使用的日志記錄由低級(jí)操作所修改的整個(gè)緩沖區(qū)組成。這種方式可能浪費(fèi)很多日志空間(例如,當(dāng)?shù)图?jí)操作僅僅改變位圖的一個(gè)位時(shí)),但是,它還是相當(dāng)快的,因?yàn)镴BD 層直接對(duì)緩沖區(qū)和緩沖區(qū)首部進(jìn)行操作。

修改文件系統(tǒng)的任一系統(tǒng)調(diào)用都通常劃分為操縱磁盤(pán)數(shù)據(jù)結(jié)構(gòu)的一系列低級(jí)操作。如果這些低級(jí)操作還沒(méi)有全部完成系統(tǒng)就意外宕機(jī),就會(huì)損壞磁盤(pán)數(shù)據(jù)。為了防止數(shù)據(jù)損壞,Ext3文件系統(tǒng)必須確保每個(gè)系統(tǒng)調(diào)用以原子的方式進(jìn)行處理。原子操作是對(duì)磁盤(pán)數(shù)據(jù)結(jié)構(gòu)的一組低級(jí)操作,這組低級(jí)操作對(duì)應(yīng)一個(gè)單獨(dú)的高級(jí)操作。

出于效率的原因,JBD 層對(duì)日志的處理采用分組的方法,即把屬于幾個(gè)原子操作處理的日志記錄分組放在一個(gè)單獨(dú)的事務(wù)中。此外,與一個(gè)處理相關(guān)的所有日志記錄都必須包含在同一個(gè)事務(wù)中。一個(gè)事務(wù)的所有日志記錄都存放在日志的連續(xù)塊中。JBD層把每個(gè)事務(wù)作為整體來(lái)處理。例如,只有當(dāng)包含在一個(gè)事務(wù)的日志記錄中的所有數(shù)據(jù)提交給文件系統(tǒng)時(shí)才回收該事務(wù)所使用的塊。

三、ReiserFS

ReiserFS 是一個(gè)非常優(yōu)秀的文件系統(tǒng),其開(kāi)發(fā)者非常有魄力,整個(gè)文件系統(tǒng)完全是從頭設(shè)計(jì)的。目前,ReiserFS可輕松管理上百G的文件系統(tǒng),這在企業(yè)級(jí)應(yīng)用中非常重要。ReiserFS 是根據(jù)面向?qū)ο蟮乃枷朐O(shè)計(jì)的,由語(yǔ)義層(semantic layer)和存儲(chǔ)層(storage layer)組成。語(yǔ)義層主要是對(duì)對(duì)象命名空間的管理及對(duì)象接口的定義,以確定對(duì)象的功能。存儲(chǔ)層主要是對(duì)磁盤(pán)空間的管理。語(yǔ)義層與存儲(chǔ)層是通過(guò)鍵(key)聯(lián)系的。語(yǔ)義層通過(guò)對(duì)對(duì)象名進(jìn)行解析生成鍵,存儲(chǔ)層通過(guò)鍵找到對(duì)象在磁盤(pán)上存儲(chǔ)空間,鍵值是全局唯一的。

3.1 語(yǔ)義層主要接口

1) 文件接口 每個(gè)文件擁有一個(gè)接口ID,此ID標(biāo)識(shí)一個(gè)方法集,此方法集包含訪問(wèn)ReiserFS 文件的所有接口。

2) 屬性接口 ReiserFS實(shí)現(xiàn)了一種新接口,把文件的每一種屬性當(dāng)做一個(gè)文件,屬性的值就是此文件的內(nèi)容,以實(shí)現(xiàn)對(duì)文件屬性的目錄式訪問(wèn)。

3) hash接口 目錄是文件名到文件的映射表,ReiserFS是通過(guò)B+樹(shù)來(lái)實(shí)現(xiàn)這張映射表。由于文件名是變長(zhǎng)的,而且有時(shí)文件名會(huì)很長(zhǎng),所以文件名不適合作為鍵值,故引入了Hash函數(shù)來(lái)產(chǎn)生鍵值。

4) 安全接口 安全接口處理所有的安全性檢查,通常是由文件接口觸發(fā)的。下面以讀文件為例:文件接口的read 方法在讀入文件數(shù)據(jù)之前會(huì)調(diào)用安全接口的read chech 方法來(lái)來(lái)進(jìn)行安全性檢查,而后者又會(huì)調(diào)用屬性文件的read方法把文件屬性讀入以便檢查。

5) 項(xiàng)(Item)接口 項(xiàng)接口主要是一些對(duì)項(xiàng)進(jìn)行平衡處理的方法,包括:項(xiàng)的拆分,項(xiàng)的評(píng)估,項(xiàng)的覆寫(xiě),項(xiàng)的追加,項(xiàng)的刪除,插入及查找。[!--empirenews.page--]

6) 鍵分配(key Assignment)接口 當(dāng)把一個(gè)鍵分配給一個(gè)項(xiàng)時(shí),鍵分配接口就會(huì)被觸發(fā)。每一種項(xiàng)都有一個(gè)與其對(duì)應(yīng)的鍵分配方法。

3.2 存儲(chǔ)層

ReiserFS是以B+樹(shù)來(lái)存儲(chǔ)數(shù)據(jù)的,其結(jié)構(gòu)如圖:

圖1:ReiserFS B+ 樹(shù)

[upload=1]

在B+樹(shù)中的各個(gè)結(jié)點(diǎn)中有一個(gè)稱(chēng)為項(xiàng)(Item)的數(shù)據(jù)結(jié)構(gòu)。項(xiàng)是一個(gè)數(shù)據(jù)容器,一個(gè)項(xiàng)只屬于一個(gè)結(jié)點(diǎn),是結(jié)點(diǎn)管理空間的基本單位。如圖所示,一個(gè)項(xiàng)包括以下內(nèi)容:

1) Item_body:項(xiàng)的數(shù)據(jù)域

2) Item_key: 項(xiàng)的鍵值

3) Item_offset:數(shù)據(jù)域的起點(diǎn)在結(jié)點(diǎn)中的偏移量

4) Item_length: 數(shù)據(jù)域的長(zhǎng)度

5) Item_Plugin_id:項(xiàng)接口ID。

圖2: ReiserFS 項(xiàng)結(jié)構(gòu)

[upload=2]

ReiserFS設(shè)計(jì)了多種不同的項(xiàng)以存儲(chǔ)不同的數(shù)據(jù),主要有以下幾種:

1) static_stat_data: 靜態(tài)統(tǒng)計(jì)數(shù)據(jù),包括文件的所有者,訪問(wèn)權(quán)限,創(chuàng)建時(shí)間,最近修改時(shí)間,鏈接數(shù)等

2) cmpnd_dir_item: 包含各個(gè)目錄項(xiàng)

3) extend_pointers: 指向一個(gè)盤(pán)區(qū)(extend)

4) node_pointers: 指向一個(gè)結(jié)點(diǎn)

5) bodies: 包含的是文件的小部分?jǐn)?shù)據(jù)

3.3 ReiserFS日志

與ext3 一樣,ReiserFS也有三種日志模式,即journal,ordered,writeback。同時(shí),ReiserFS引入了兩種日志優(yōu)化方法: copy-on-capture和steal-on-capture。copy-on-capture:當(dāng)一個(gè)事務(wù)要修改的塊在另一個(gè)未提交的事務(wù)中時(shí),就把這個(gè)塊復(fù)制一份,這樣這兩個(gè)事務(wù)就可以并發(fā)進(jìn)行了。steal-on-capture:當(dāng)一個(gè)塊被多個(gè)事務(wù)修改時(shí),只有最晚提交的那個(gè)事務(wù)才把這個(gè)塊實(shí)際寫(xiě)入文件系統(tǒng),其他事務(wù)都不寫(xiě)這個(gè)塊。

四、XFS

XFS 是一種高性能的64 位文件系統(tǒng),由SGI 公司為了替代原有的EFS 文件系統(tǒng)而開(kāi)發(fā)的。XFS 通過(guò)保持cache 的一致性、定位數(shù)據(jù)和分布處理磁盤(pán)請(qǐng)求來(lái)提供對(duì)文件系統(tǒng)數(shù)據(jù)的低延遲、高帶寬的訪問(wèn)。目前SGI已經(jīng)將XFS文件系統(tǒng)從IRIX移植到Linux。

4.1 分配組(allocation groups)

當(dāng)創(chuàng)建 XFS 文件系統(tǒng)時(shí),底層塊設(shè)備被分割成八個(gè)或更多個(gè)大小相等的線性區(qū)域(region),用戶(hù)可以將它們想象成"塊"(chunk)或者"線性范圍(range)",在 XFS 中,每個(gè)區(qū)域稱(chēng)為一個(gè)"分配組"。分配組是唯一的,因?yàn)槊總€(gè)分配組管理自己的索引節(jié)點(diǎn)(inode)和空閑空間,實(shí)際上是將這些分配組轉(zhuǎn)化為一種文件子系統(tǒng),這些子系統(tǒng)透明地存在于 XFS 文件系統(tǒng)內(nèi)。有了分配組,XFS 代碼將允許多個(gè)線程和進(jìn)程持續(xù)以并行方式運(yùn)行,即使它們中的許多線程和進(jìn)程正在同一文件系統(tǒng)上執(zhí)行大規(guī)模 IO 操作。因此,將 XFS 與某些高端硬件相結(jié)合,將獲得高性能而不會(huì)使文件系統(tǒng)成為瓶頸。分配組在內(nèi)部使用高效的 B+樹(shù)來(lái)跟蹤主要數(shù)據(jù),具有優(yōu)越性能和極大的可擴(kuò)展性。

4.2 日志記錄

XFS 也是一種日志記錄文件系統(tǒng),它允許意外重新引導(dǎo)后的快速恢復(fù)。象 ReiserFS 一樣,XFS 使用邏輯日志;它不象 ext3 那樣將文字文件系統(tǒng)塊記錄到日志,而是使用一種高效的磁盤(pán)格式來(lái)記錄元數(shù)據(jù)的變動(dòng)。就 XFS 而言,邏輯日志記錄是很適合的;在高端硬件上,日志經(jīng)常是整個(gè)文件系統(tǒng)中爭(zhēng)用

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話(huà)語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉