開源嵌入式數(shù)據(jù)庫Bericel ey DB和SQLite的比較
通常,我們采用數(shù)據(jù)庫來實現(xiàn)對數(shù)據(jù)的存儲、檢索等功能。像MySQL這類基于C/S結(jié)構(gòu)的關(guān)系型數(shù)據(jù)庫系統(tǒng),雖然代表著目前數(shù)據(jù)庫應(yīng)用的主流,卻并不能滿足所有應(yīng)用場合的需要。很多的應(yīng)用,僅僅利用到了這些數(shù)據(jù)庫產(chǎn)品的基本特性而已。有時我們需要的可能只是一個簡單的基于磁盤文件的數(shù)據(jù)庫系統(tǒng),這樣就不必安裝龐大的數(shù)據(jù)庫服務(wù)器,以簡化數(shù)據(jù)庫應(yīng)用程序的設(shè)計。在某些特殊應(yīng)用場合,比如在嵌入式系統(tǒng)中,由于系統(tǒng)的硬件軟件資源都有限,這些數(shù)據(jù)庫產(chǎn)品就明顯有一些臃腫,甚至是不可實現(xiàn)的。在這些情況下,嵌入式數(shù)據(jù)庫的優(yōu)勢就特別明顯了。
嵌入式數(shù)據(jù)庫通常與操作系統(tǒng)和具體應(yīng)用集成在一起,無須獨立運行的數(shù)據(jù)庫引擎,由程序直接調(diào)用相應(yīng)的API去實現(xiàn)對數(shù)據(jù)的存取操作。更直白地講,嵌入式數(shù)據(jù)庫是一種具備了基本數(shù)據(jù)庫特性的數(shù)據(jù)文件。嵌入式數(shù)據(jù)庫與其它數(shù)據(jù)庫產(chǎn)品的區(qū)別是,前者是程序驅(qū)動式,而后者是引擎響應(yīng)式。嵌入式數(shù)據(jù)庫的一個很重要的特點是它們的體積非常小,編譯后的產(chǎn)品也不過幾十KB,在一些移動設(shè)備上極具競爭力。
從目前嵌入式應(yīng)用的發(fā)展趨勢來看,嵌入式數(shù)據(jù)庫的實現(xiàn)必須充分體現(xiàn)系統(tǒng)的可定制性,即系統(tǒng)選擇的技術(shù)路線要面向具體的行業(yè)應(yīng)用,因而研究源碼開放的嵌入式數(shù)據(jù)庫具有特殊意義。
2 Berkeley DB和SQLite
DBkeley DB是一款健壯的、高速的工業(yè)級開放源代碼的嵌入式數(shù)據(jù)庫管理系統(tǒng)。應(yīng)用它,程序員只需要調(diào)用一些簡單的API就可以完成對數(shù)據(jù)的訪問和管理。
Berkeley DB的源代碼有C和Java兩種,函數(shù)庫本身只有300KB左右,但卻能夠用來管理多達256TB的數(shù)據(jù)。Berkeley DB作為一種嵌入式數(shù)據(jù)庫系統(tǒng)在許多方面有著獨特的優(yōu)勢。首先,由于其應(yīng)用程序和數(shù)據(jù)庫管理系統(tǒng)運行在相同的進程空間當中,進行數(shù)據(jù)操作時可以避免繁瑣的進程間通信,因此耗費在通信上的開銷自然也就降低到了極低程度。其次,Berkeley DB使用簡單的函數(shù)調(diào)用接口來完成所有的數(shù)據(jù)庫操作,而不是在數(shù)據(jù)庫系統(tǒng)中經(jīng)常用到的SQL語言,避免了對結(jié)構(gòu)化查詢語言進行解析和處理所需的開銷。
SQLite的源代碼是C,其源代碼完全開放。SQLite第一個Alpha版本誕生于2000年5月。今年5月,SQLite又迎來了一個新的里程一SOLite 3。
SQLite有以下特性:支持ACID事務(wù);零配置一無需安裝和管理配置;儲存在單一磁盤文件中的一個完整的數(shù)據(jù)庫;數(shù)據(jù)庫文件可以在不同字節(jié)順序的機器間自由共享;支持數(shù)據(jù)庫大小至2TB;足夠小,全部源碼大致3萬行c代碼,250KB;比目前流行的大多數(shù)數(shù)據(jù)庫對數(shù)據(jù)的操作要快;提供了對事務(wù)功能和并發(fā)處理的支持,應(yīng)用Transaction既保證了數(shù)據(jù)的完整性,也會提高運行速度,因為多條語句一起提交給數(shù)據(jù)庫的速度會比一條一條的提交方式更快;獨立,沒有額外依賴。
目前,對Berkeley DB的研究開發(fā)工作主要是美國的sleepycat公司在進行,在國內(nèi)幾乎沒有關(guān)于這方面的研究;而SQLite在國內(nèi)也是鮮有人問津。
2.1 Berkeley DB和SOLite的數(shù)據(jù)庫操作
與常用的數(shù)據(jù)庫管理系統(tǒng)(如MySQL和Oracle等)有所不同,在Berkeley DB中并沒有數(shù)據(jù)庫服務(wù)器的概念。應(yīng)用程序不需要事先同數(shù)據(jù)庫服務(wù)建立起網(wǎng)絡(luò)連接,而是通過內(nèi)嵌在程序中的Berkeley DB函數(shù)庫來完成對數(shù)據(jù)的保存、查詢、修改和刪除等操作。所有與數(shù)據(jù)庫相關(guān)的操作都由函數(shù)庫負責(zé)統(tǒng)一完成,這樣無論是系統(tǒng)中的多個進程,或者是相同進程中的多個線程,都可以在同一時間調(diào)用訪問數(shù)據(jù)庫的函數(shù);而底層的數(shù)據(jù)加鎖、事務(wù)日志和存儲管理等都在Berkeley DB函數(shù)庫中實現(xiàn)。它們對應(yīng)用程序來講是完全透明的。
Berkeley DB不是關(guān)系型的數(shù)據(jù)庫,不能應(yīng)用標準的SQL語句對數(shù)據(jù)庫操作,對它的操作要調(diào)用專用的API實現(xiàn)。這些API提供了查詢、插入、刪除等功能。比如com.sleepycat.db.Db類代表數(shù)據(jù)庫對象。Db類的put( )方法完成的是插入功能;get( )方法完成的是讀出數(shù)據(jù)的功能;com.sleepycat.db.Dbc是Berkeley DB的游標類,提供了遍歷數(shù)據(jù)庫記錄的功能。
使用Berkeley DB提供的函數(shù)來進行數(shù)據(jù)庫的訪問和管理并不復(fù)雜。在大多數(shù)場合下,只需按照統(tǒng)一的接口標準進行調(diào)用就可以完成最基本的操作,Berkeley DBEnvironment為一組數(shù)據(jù)庫同時提供參數(shù)設(shè)置。更為重要的是,如果要應(yīng)用更高級的特性,必須要使用Environment功能,比如在要對保存的數(shù)據(jù)進行加密存儲、利用其Transaction、數(shù)據(jù)加密、同步加鎖控制、錯誤日志等功能的時候。
SQLite的SQL語言很大程度上實現(xiàn)了ANSI SQL92標準,特別是支持視圖、觸發(fā)器、事務(wù),支持嵌套SQL。它通過SQL編譯器(SQL Complier)來實現(xiàn)SQL語言對數(shù)據(jù)庫進行操作,支持大部分的SQL命令,如attach database、begin transaction、comment、commit transaction、copy、create index、create table、create trigger、create view、delete、detach database、drop index、drop table、drop trigger、drop view、end transaction、explain、expression、insert、On conflict clause、pragma、replace、rollback transaction、select、update。
當然,也有一部分SQL命令SQLite并不支持。比如:不支持:Exists,雖然支持in(in是Exists的一種情況);不支持多數(shù)據(jù)庫,如create table dbl.tablel as select*from db2.table 1;:不支持存儲過程;不支持Alter View/Trigger/Table:不支持Truncate, 在SQLite中Delete不帶Where字句時和Truancate的效果是一樣的;不支持Floor和Ceiling函數(shù),還有其它許多的函數(shù);沒有Auto Increment(自增)字段,但其實SQLite是支持Auto Increment的,即在將該字段設(shè)置為“INTEGER PRIMARY KEY”的時候;不支持If Exists等。
2.2 Berkeley DB和S0Lite與普通數(shù)據(jù)庫的差別
Berkeley DB引入了一些新的基本概念,使得數(shù)據(jù)庫應(yīng)用程序訪問和管理數(shù)據(jù)庫變得相對簡單起來。
(1)關(guān)鍵字和數(shù)據(jù)
關(guān)鍵字(key)和數(shù)據(jù)(data)是。Berkeley.DB用來進行數(shù)據(jù)庫管理的基礎(chǔ),由這兩者構(gòu)成的key/data對,組成了數(shù)據(jù)庫中的一個基本結(jié)構(gòu)單元。整個數(shù)據(jù)庫實際上就是由許多這樣的結(jié)構(gòu)單元構(gòu)成的。通過使用這種方式,在通過API函數(shù)訪問數(shù)據(jù)庫時,只需提供關(guān)鍵字就能夠訪問到相應(yīng)的數(shù)據(jù)。
關(guān)鍵字和數(shù)據(jù)在Berkeley DB中都是用一個名為DBT的簡單結(jié)構(gòu)來表示的。實際上兩者都可以是任意長度的二進制數(shù)據(jù)。DBT的作用主要是保存相應(yīng)的內(nèi)存地址及其長度,其結(jié)構(gòu)如下所示:
typedef struct {
void*data;
u_int32_t size;
u_int32_t ulen;
u_int32_f dlen;
u_int32_f doff;
u_int32_f flags;
}DBT;
在使用Berkeley DB進行數(shù)據(jù)管理時,缺省情況下是一個關(guān)鍵字對應(yīng)于一個數(shù)據(jù);但也可以將數(shù)據(jù)庫配置成一個關(guān)鍵字對應(yīng)于多個數(shù)據(jù),而鍵值和數(shù)據(jù)必須是類com.sleepycat.db.Dbt的對象或其子類的對象。
(2)對象句柄
在Berkeley DB函數(shù)庫定義的大多數(shù)函數(shù)都遵循同樣的調(diào)用原則:首先創(chuàng)建某個結(jié)構(gòu),然后再調(diào)用該結(jié)構(gòu)中的某些方法。從程序設(shè)計的角度來講,這一點同面向?qū)ο蟮脑O(shè)計原則是非常類似的,即先創(chuàng)建某個對象的一個實例,然后再調(diào)用該實例的某些方法。正因為如此,.Berkeley DB引入了對象句柄的概念來表示實例化后的結(jié)構(gòu),并且將結(jié)構(gòu)中的成員函數(shù)稱為該句柄的方法。對象句柄的引入使得程序員能夠憑借面向?qū)ο蟮乃枷?,來完成對Berkeley DB數(shù)據(jù)庫的訪問和操作。
(3)錯誤處理
對于任何一個函數(shù)庫來說,如何對錯誤進行統(tǒng)一的處理都是需要考慮的問題。Berkeley DB提供的所有函數(shù)都遵循同樣的錯誤處理原則,即函數(shù)成功執(zhí)行后返回零,否則返回非零值。
對于系統(tǒng)錯誤(如磁盤空間不足),返回的是一個標準的值;而對于非系統(tǒng)錯誤,返回的則是一個特定的錯誤編碼。例如,如果在數(shù)據(jù)庫中沒有與某個特定關(guān)鍵字所對應(yīng)的數(shù)據(jù),那么在通過該關(guān)鍵字檢索數(shù)據(jù)時就會出現(xiàn)錯誤。此時函數(shù)的返回值將是DB—NOTF0uND,表示在數(shù)據(jù)庫中并沒有所請求的關(guān)鍵字。所有標準的e rrn0值都大于零,而由Berkeley DB定義的特殊錯誤編碼則都小于零。
Berkeley。DB提供了相應(yīng)的函數(shù)來獲得錯誤代號所對應(yīng)的錯誤描述。一旦有錯誤發(fā)生,只需首先調(diào)用db_strerror( )函數(shù)來獲得錯誤描述信息,然后再調(diào)用DB一>err()或DB->errx()就可以很輕松地輸出格式化后的錯誤信息。
而SQLite最大的特點在于其數(shù)據(jù)類型為無數(shù)據(jù)類型(typelessness)。這意味著可以保存任何類型的數(shù)據(jù)到所想要保存的任何表的任何列中,無論這列聲明的數(shù)據(jù)類型是什么。雖然在生成表結(jié)構(gòu)的時候,要聲明每個域的數(shù)據(jù)類型,但sQLite并不做任何檢查。開發(fā)人員要靠自己的程序控制輸入與讀出數(shù)據(jù)的類型。這里有一個例外,就是當主鍵為整型值時,如果要插入一個非整型值時會產(chǎn)生異常。
誠然,SQLite允許忽略數(shù)據(jù)類型,但是,仍然建議在Create Table語句中指定數(shù)據(jù)類型,因為數(shù)據(jù)類型有利于增強程序的可讀性。SQLite支持常見的數(shù)據(jù)類型,如VARCHAR、NVARCHAR、TEXT、INTEGER、FLOAT、BOOLEAN、CLOB、BLOB、TIMESTAMP、NUMERIC、VARYING、CHARACTER、NATl0NAI, VARYINGCHARACTER。
另外,雖然在插入或讀出數(shù)據(jù)的時候是不區(qū)分類型的,但在比較的時候,不同數(shù)據(jù)類型是有區(qū)別的。比如:CREATE TABLE MyTable (a INTEGER,b TEXT);
INSERT INT0 MyTable VALIUES(0,0);
當執(zhí)行查詢
SELECT count(*)FROM MyTable WHERE a=='00';時,會返回一條記錄。因為字段a的類型是整型,而數(shù)字00與0是相等的。而執(zhí)行查詢
SELECT count(*)FROM MyTable WHERE b=='00':時,則不會返回記錄。因為字段b是字符類型,字符"00"與“0”是不相等的。
2.3 Betkeley DB和SQLite數(shù)據(jù)存儲方式比較
Berkeley DB對任何存入的數(shù)據(jù)都是按原樣直接存儲到數(shù)據(jù)文件中去,無論其是二進制數(shù)據(jù)還是A S C I I或Unicode等編碼的文本。Berkeley DB提供了四種存儲數(shù)據(jù)的模式:Btree、Hash、Queue和Recno。在打開數(shù)據(jù)庫的時候,要指定一種存儲模式。比如,上例中open( )方法中的參數(shù)Db.DB_BTREE就是指定以Btree模式打開數(shù)據(jù)庫。
SQLite只提供了Btree存儲數(shù)據(jù)的模式。對二進制數(shù)據(jù),SQLite不能直接保存,但可以先將二進制的數(shù)據(jù)轉(zhuǎn)換成ASCII編碼,然后再保存。Base64.編碼機制是最常見的把二進制數(shù)據(jù)轉(zhuǎn)換成ASCII編碼的手段。在SQLite的C語言代碼encode.c中,提供了Base64編碼的功能。
Btree模式是以排序的二叉樹的方式存儲的,Hash是以線性哈希表的方式存儲。Queue用邏輯記錄號作為鍵值,以定長的數(shù)據(jù)為記錄值。Recno方式也以邏輯記錄號作為鍵值,但可以保存定長或變長的記錄值。這里提到的邏輯記錄號有兩種,即可變的和固定的??勺冞壿嬘涗浱枙鶕?jù)數(shù)據(jù)記錄的增加與刪除作相應(yīng)的變化。Queue模式下,邏輯記錄號只能是固定方式。Recno模式則可通過配置來選擇是采用哪種類型的記錄號作為鍵值。Btree模式也可以通過設(shè)置,將可變的邏輯記錄號作為鍵值。
這幾種存儲模式各有優(yōu)缺點,當鍵值不想用邏輯記錄號時,Btree或Hash是必須的選擇。Btree方式比較適合連續(xù)的順序讀取。比如,當鍵值是時間值,如果經(jīng)常有從某一時間點開始連續(xù)讀取后繼的記錄的操作,Btree是一種很好的選擇。對隨機的跳躍式讀取,Hash模式則更為恰當。Queue和Recno都以記錄號為鍵值,但前者適合先進先出的讀取方式。Recno則通常是存取變長文本記錄的理想存儲模式。
2.4 Berkeley DB和S0Lite適用的系統(tǒng)
Berkeley DB為許多編程語言提供了實用的API接口,包括C、C++、Java、:Perl、Tcl、Python和PHP等。它適用平臺UNIX/POSIX systems、win32以及嵌入式操作系統(tǒng)WinCE、VxWorks等。
通過Wrapper,SQLite實現(xiàn)了與其它語言的連接。所謂Wrapper即對SQLite提供的接口進行封裝,使其它語言可以訪問,使用SQLite。SQLite本身提供C和Tcl的接口,世界各地的程序員還提供了各種語言的SQLite的接口封裝, 如Python、C++、Java、.Net等幾乎所有流行的語言基本都有。sQLite提供一個抽象的操作系統(tǒng)接口層,來保證其在POSIX 與 Win32系統(tǒng)之間的兼容性。
2.5 其它方面
Berkeley DB沒有數(shù)據(jù)庫服務(wù)器的概念,使用簡單的函數(shù)調(diào)用接口來完成所有的數(shù)據(jù)庫操作,不使用SQL語言;接口簡明實用,避免了對結(jié)構(gòu)化查詢語言進行解析和處理所需的開銷,提高了執(zhí)行速度;速度極快,可靠性高,但學(xué)習(xí)起來有一定難度。SQLite則簡單易用,速度也很快,但功能卻較Berkeley略有遜色,比如加密功能、二進制數(shù)據(jù)的處理等。
Berkeley DB雖然是開源的產(chǎn)品,但對某些條件下的商業(yè)性應(yīng)用,卻不是免費的,而且價格頗為昂貴。這些商業(yè)條件包括排除了開源的情況,不發(fā)放分布版本的情況等。SQLite是源代碼完全的開放,可以免費用于任何用途,包括商業(yè)目的。
結(jié)語
隨著人們對移動數(shù)據(jù)處理和管理需求的不斷提高,與各種智能設(shè)備緊密結(jié)合的嵌入式數(shù)據(jù)庫技術(shù)已經(jīng)得到了學(xué)術(shù)界、工業(yè)界、民用部門等各方面的廣泛重視。嵌入式數(shù)據(jù)庫將會使得人們希望隨時隨地存取任意思數(shù)據(jù)信息的愿望成為現(xiàn)實,嵌入式數(shù)據(jù)庫將無處不在。開源的嵌入式數(shù)據(jù)庫Berkeley DB和SQLite,內(nèi)核微小,有能夠充分適應(yīng)硬件的能力,能很好地適應(yīng)嵌入式系統(tǒng)的需要。在具體的嵌入式應(yīng)用中可以根據(jù)具體情況選擇應(yīng)用。