當(dāng)前位置:首頁(yè) > 通信技術(shù) > 通信技術(shù)
[導(dǎo)讀]摘要:商業(yè)企業(yè)每天產(chǎn)生大量的網(wǎng)格數(shù)據(jù),作為網(wǎng)頁(yè)信息交換的實(shí)際標(biāo)準(zhǔn),最重要的挑戰(zhàn)之一是如何有效地進(jìn)行數(shù)據(jù)搜索,數(shù)據(jù)搜索可以以鏈接的方式進(jìn)行。一些研究人員已經(jīng)研究出了演算法,以減少搜索過(guò)程中產(chǎn)生的無(wú)效信息

摘要:商業(yè)企業(yè)每天產(chǎn)生大量的網(wǎng)格數(shù)據(jù),作為網(wǎng)頁(yè)信息交換的實(shí)際標(biāo)準(zhǔn),最重要的挑戰(zhàn)之一是如何有效地進(jìn)行數(shù)據(jù)搜索,數(shù)據(jù)搜索可以以鏈接的方式進(jìn)行。一些研究人員已經(jīng)研究出了演算法,以減少搜索過(guò)程中產(chǎn)生的無(wú)效信息。另一些研究人員引入了記錄法,可以進(jìn)行相關(guān)元素的定位,無(wú)需搜索原始網(wǎng)格文檔,通過(guò)記錄的方式完成搜索過(guò)程。文中介紹的方法是基于正在被搜索的數(shù)據(jù)的概念,以及對(duì)網(wǎng)格數(shù)據(jù)庫(kù)的內(nèi)容搜索及關(guān)鍵字搜索,使用概念搜索可以提高搜索效率。
關(guān)鍵詞:網(wǎng)格;搜索;最佳化;演算;網(wǎng)頁(yè)描述語(yǔ)言WSDL

    半結(jié)構(gòu)化數(shù)據(jù)在網(wǎng)頁(yè)中的高級(jí)應(yīng)用越來(lái)越普遍,商業(yè)企業(yè)每天生產(chǎn)及消費(fèi)大量的數(shù)據(jù)。網(wǎng)格作為網(wǎng)頁(yè)上半結(jié)構(gòu)化的數(shù)據(jù)具有相當(dāng)復(fù)雜的內(nèi)部結(jié)構(gòu),有時(shí)還被提取出來(lái)作為命令樹(shù)。
    在大多數(shù)的網(wǎng)格搜索語(yǔ)言中,網(wǎng)格查詢的結(jié)構(gòu)以鏈接的形式出現(xiàn),網(wǎng)格元素的價(jià)值被用作選擇謂詞的一部分。有效鏈接模式匹配是網(wǎng)格數(shù)據(jù)庫(kù)中網(wǎng)格搜索程序的關(guān)鍵。
    筆者概述了一種創(chuàng)新方式,將數(shù)據(jù)的概念考慮進(jìn)來(lái)進(jìn)行網(wǎng)格搜索,介紹了在網(wǎng)格數(shù)據(jù)庫(kù)中進(jìn)行關(guān)鍵詞搜索的一種有效的演算法。該方法的實(shí)質(zhì)是,如果數(shù)據(jù)的概念是已知的,那么數(shù)據(jù)的概念可以用于搜索最佳化。
    首先定義一個(gè)數(shù)據(jù)模型,稱之為CRD—FS。半結(jié)構(gòu)化的數(shù)據(jù)對(duì)象-關(guān)系-屬性模式,包括概念數(shù)據(jù)模型的實(shí)體,以及層次結(jié)構(gòu)網(wǎng)格數(shù)據(jù)。有了CRD—FS數(shù)據(jù)模型,許多網(wǎng)格數(shù)據(jù)庫(kù)的概念可以明確的被呈現(xiàn),但是不能被WSDL及網(wǎng)格模式所識(shí)別。

1 相關(guān)工作
   
X路徑是通過(guò)網(wǎng)格文檔中的元素及屬性,在網(wǎng)格文檔中發(fā)現(xiàn)信息的一種語(yǔ)言,同UNIX文檔系統(tǒng)中的目錄相似。例如,通過(guò)X路徑的表示:/院系/課程[代碼=\cs4221”]/學(xué)生、學(xué)生姓名。可以表示為\cs4221”課程的學(xué)生的名字。一條X路徑的搜索可以經(jīng)樹(shù)狀圖表表示,稱為鏈接方式。X路徑被作為鏈接形式搜索的方式被呈現(xiàn)。
    Chippimolchai et al.發(fā)展了一種演繹數(shù)據(jù)庫(kù)中概念搜索的最佳化框架。他們概述了一種演算方法,可以將搜索轉(zhuǎn)換成查詢及完整性約束,這些整體性約束是從真實(shí)世界產(chǎn)生的,不能從網(wǎng)格模式或WSDLs.中產(chǎn)生。

2 CRD-FS數(shù)據(jù)模型
   
半結(jié)構(gòu)化的對(duì)象,關(guān)系,屬性數(shù)據(jù)模式有4個(gè)基本概念:對(duì)象類,關(guān)系類別,屬性及參考,包括4個(gè)圖表:模式圖表、距離圖表、功能獨(dú)立性圖表及層次圖表。
    一個(gè)CRD—FS模式圖表代表著作為標(biāo)簽的一個(gè)對(duì)象類。對(duì)象類之間的聯(lián)系類型被描述為標(biāo)簽姓名(對(duì)象類清單),N,P,C”,此處的姓名指示了關(guān)系類型的名稱,對(duì)象類是參與到關(guān)系類型中的對(duì)象類清單,N是一個(gè)整數(shù),標(biāo)明了關(guān)系類型的程度,P和C是關(guān)系類型中的參與限制,定義了使用標(biāo)準(zhǔn)的最小及最大的符號(hào)。兩個(gè)對(duì)象類之間的邊緣可以有多于一個(gè)的這樣的關(guān)系類型標(biāo)簽去標(biāo)明對(duì)象類所參與的不同的關(guān)系類型。關(guān)系類的屬性或者關(guān)系類型是有標(biāo)簽圓圈所注解的。對(duì)象類的標(biāo)識(shí)符像填充的圓圈一樣被注解,所有的屬性都應(yīng)當(dāng)并強(qiáng)制的,單值的,包含一個(gè)“?”,標(biāo)明這是單值的,可選的,或者是一個(gè)“+”標(biāo)明多值并且是被請(qǐng)求的,或者是一個(gè)“*”,標(biāo)明其實(shí)可選多值的。對(duì)象類的屬性可以從一個(gè)關(guān)系類型中相區(qū)分出來(lái)。前者沒(méi)有邊緣標(biāo)簽,當(dāng)后者的關(guān)系類型的名稱屬于自己的標(biāo)簽邊緣時(shí)。
    屬性的名字,代碼和學(xué)生編號(hào)分別是對(duì)象類院系、課程和學(xué)生的標(biāo)識(shí)符。每個(gè)學(xué)生都有其獨(dú)有的學(xué)生編號(hào)。標(biāo)題的屬性、標(biāo)記、地址和業(yè)余愛(ài)好都是可選的。業(yè)余愛(ài)好是多屬性,而學(xué)生姓名是必需的。這里有兩種關(guān)系類型,被稱之為dc and cs.前者是對(duì)象類部門(mén)同課程之間的二進(jìn)制關(guān)系類型,后者是課程同學(xué)生之間的二進(jìn)制關(guān)系類型。一個(gè)院系可以由一個(gè)或更多的(1:n)課程,一項(xiàng)課程屬于一個(gè)或只一個(gè)院系(1:1)。一門(mén)課程可以由零個(gè)或更多(0:n)學(xué)生;一名學(xué)生可以選修一門(mén)或更多課程。學(xué)生同標(biāo)記之間的邊緣上的標(biāo)簽cs標(biāo)明標(biāo)記是關(guān)系類型cs的單獨(dú)價(jià)值屬性。也就是說(shuō),一門(mén)課程中一名學(xué)生的屬性標(biāo)記。從這些約束條件中,可以派生出{課程;學(xué)生}→標(biāo)記。

3 搜索過(guò)程中概念的使用
   
概念是通過(guò)CRD-FS模式進(jìn)行優(yōu)化鏈接模式,從而用3個(gè)鏈接查詢來(lái)進(jìn)行搜索評(píng)估的。
    搜索1:找出等同于“s123”的學(xué)生元素的學(xué)生姓名值,X路徑表示為://student[@stuNo=“s123”]/stuName
    利用CRD—FS模式,可以知道學(xué)生姓名是學(xué)生對(duì)象類的一個(gè)單一值屬性,學(xué)生編號(hào)是學(xué)生的身份標(biāo)識(shí),因此學(xué)生編號(hào)→學(xué)生姓名。為了處理搜索,我們只需要找出帶有學(xué)生編號(hào)屬性的網(wǎng)格中的第一個(gè)學(xué)生元素即可。
    此外,Wu et al.已經(jīng)提議了一種演算方式,它集中搜索內(nèi)容或具有概念信息值。
    搜索2:找出所有學(xué)生的平均分。
    解答該搜索處理器需要了解學(xué)生編號(hào)是對(duì)象類學(xué)生的標(biāo)識(shí)符,并且要將課程同學(xué)生之間的關(guān)系類的單值屬性標(biāo)記出來(lái)。
    搜索3:找出課程中所有學(xué)生所取得的分?jǐn)?shù)。
    為了正確完成以上搜索,用戶需要明白學(xué)生編號(hào)是學(xué)生的標(biāo)識(shí)符,代碼是課程的標(biāo)識(shí)符,標(biāo)記是課程與學(xué)生之間關(guān)系類型的單值,每一門(mén)課程僅僅由一個(gè)院系所提供,每一門(mén)課程在網(wǎng)格文檔中僅僅出現(xiàn)一次。當(dāng)WSDLs模式無(wú)法捕捉所有所需概念時(shí),該信息可以在CRD-FS模式圖表中被捕捉。
    有了CRD—FS數(shù)據(jù)模型所捕捉的概念,我們可以解釋網(wǎng)格詢問(wèn)是否正確,是否可以提高搜索評(píng)估性能。利用存儲(chǔ)在CRD-FS模式圖表中的概念,圖解搜索語(yǔ)言GLASS能夠自動(dòng)生成搜索所用的X搜索,用戶沒(méi)有必要去編寫(xiě)X搜索詢問(wèn)。

4 網(wǎng)格中的內(nèi)容搜索
   
網(wǎng)格文檔中處理一個(gè)鏈接模式的搜索包括結(jié)構(gòu)搜索及內(nèi)容搜索。大多數(shù)現(xiàn)有的演算方法無(wú)法將內(nèi)容同結(jié)構(gòu)搜索相區(qū)分。在結(jié)構(gòu)處理期間,它們將內(nèi)容節(jié)點(diǎn)同元素節(jié)點(diǎn)一樣處理,搜索所詢問(wèn)的實(shí)際值需要依賴于原始文檔。我們提議將帶有相關(guān)表格的一個(gè)新的演算值(VERT)提取來(lái)克服這些局限。VERT技術(shù)是生成相關(guān)表格以便來(lái)存儲(chǔ)文檔內(nèi)容,而不是將他們像節(jié)點(diǎn)那樣進(jìn)行處理和標(biāo)記。筆者所說(shuō)的演算是基于文檔的概念信息。因?yàn)樵蕉嗟母拍畋徊蹲?,筆者就可以進(jìn)一步優(yōu)化表格及詢問(wèn)這樣可以極大的提高效率。
    例如,考慮帶有包含標(biāo)簽的網(wǎng)格樹(shù)??梢詫?shù)值內(nèi)容同關(guān)系標(biāo)簽中的母標(biāo)簽一同存儲(chǔ),而不是為每個(gè)網(wǎng)格標(biāo)簽和數(shù)值內(nèi)容存儲(chǔ)標(biāo)簽數(shù)據(jù)流。有了這些關(guān)系表,當(dāng)用戶在發(fā)出一個(gè)鏈接搜索時(shí),系統(tǒng)就能夠自動(dòng)將其重寫(xiě)至搜索中,這里節(jié)點(diǎn)價(jià)格大于15,他們的PC關(guān)系被稱之為>15的價(jià)格節(jié)點(diǎn)所取代。可以在表格Rprice中執(zhí)行至帶有數(shù)值的所有價(jià)格元素當(dāng)中。其性能結(jié)構(gòu)以書(shū)本的標(biāo)簽數(shù)據(jù)流為基礎(chǔ)。ISBN以及價(jià)格’> 15,以這種方式,可節(jié)省所有大于15的數(shù)值內(nèi)容的數(shù)據(jù)流的成本,以及在合并標(biāo)簽數(shù)據(jù)流之間的結(jié)構(gòu)的成本。用這種方式,當(dāng)處理鏈接搜索時(shí),也可以節(jié)省書(shū)本對(duì)象同其價(jià)值屬性之間的結(jié)構(gòu)及其價(jià)格。
    最終,基于由ORASS所捕捉到的概念,標(biāo)題,價(jià)格等是書(shū)本對(duì)象類的唯一價(jià)值屬性,能夠?qū)⑦@些屬性的內(nèi)容價(jià)值premerge到一個(gè)單獨(dú)的帶有書(shū)本對(duì)象標(biāo)簽的關(guān)聯(lián)表格,有了premerged表格,可以對(duì)鏈接搜索作出回答。在premerged表格上僅僅可以完成一種有效的選擇。

5 網(wǎng)格中關(guān)鍵字連同概念的搜索
   
關(guān)鍵字的近似搜索是搜索網(wǎng)格數(shù)據(jù)庫(kù)的一種友好方式。該區(qū)域多數(shù)前期所做的努力都是集中于網(wǎng)格關(guān)鍵字近似搜索。網(wǎng)格的數(shù)據(jù)模式普遍都很簡(jiǎn)單并且有效。然而,它們并不捕捉數(shù)據(jù)庫(kù)中的聯(lián)系,例如身份參考。相反,是基于圖表模式的捕捉聯(lián)系的技術(shù),不過(guò)這些大多對(duì)于計(jì)算來(lái)說(shuō)都是無(wú)效的。許多現(xiàn)有的技術(shù)并不開(kāi)發(fā)模式信息,這些信息通常是以數(shù)據(jù)庫(kù)的形式出現(xiàn)。沒(méi)有了模式信息,關(guān)鍵詞近似技術(shù)在結(jié)果中呈現(xiàn)的可能性會(huì)很小,并且它們所返回的結(jié)果是不相關(guān)的。例如,LCA對(duì)于基于樹(shù)狀模式的關(guān)鍵字近似搜索會(huì)很大一部分返回到其全部數(shù)據(jù)庫(kù)的根部。
    筆者建議的是一種互連對(duì)象模式,可以充分開(kāi)發(fā)網(wǎng)格性能并且在模式出現(xiàn)時(shí)標(biāo)注出其模式信息。在我們的模型中,數(shù)據(jù)庫(kù)管理員為結(jié)果標(biāo)識(shí)出感興趣的對(duì)象類及同興趣對(duì)象之間的概念性連接。
    有了感興趣的對(duì)象類,關(guān)于關(guān)鍵字近似搜索最具直覺(jué)結(jié)果的是含有所有關(guān)鍵字的興趣對(duì)象的清單。較之眾所周知的LCA概念(Lowest Comm on Ancestor),將這些興趣清單稱之為ICA(Interested Common Ancestor)。同樣,用IRA(Interested Related Ancestors)概念來(lái)捕獲興趣對(duì)象及包含更多相關(guān)結(jié)果。一個(gè)IRA結(jié)果是一對(duì)包含所有關(guān)鍵字的對(duì)象,并且同概念性連接是聯(lián)系在一起的。例如,為了搜索“網(wǎng)格搜索程
序”,帶有標(biāo)題“搜索程序”的標(biāo)題以及引用或被“網(wǎng)格“所引用的論文被看作是IRA對(duì)象。
    就執(zhí)行時(shí)間和結(jié)果質(zhì)量而言,實(shí)驗(yàn)性的評(píng)估標(biāo)明該方法要優(yōu)于大多現(xiàn)存的學(xué)術(shù)系統(tǒng)。

6 結(jié)論
   
半結(jié)構(gòu)化數(shù)據(jù)組織中的重要區(qū)域之一就是提供可以進(jìn)行有效數(shù)據(jù)搜索的演算。本文中概述了一個(gè)最佳化方案,在數(shù)據(jù)已知的時(shí)候可以被引用。介紹了一種數(shù)據(jù)模型,在ORASS中可以呈現(xiàn)出必要的概念,并且已完成的最佳化方案進(jìn)行描述,展示了當(dāng)概念被包含在內(nèi)的時(shí)候,鏈接方式是如何最佳化的。如何處理歷史鏈接演算中的價(jià)值,概念性的連接與對(duì)象類之間如何被運(yùn)用在關(guān)鍵字接近的搜索中。
    今后將研究如何使用ORASS中捕捉的其他概念進(jìn)行鏈接方式詢問(wèn)的進(jìn)一步優(yōu)化,這些優(yōu)化方案哪些地方是有價(jià)值的,通過(guò)實(shí)驗(yàn)來(lái)表明處理速度的提高。特別的信息是如何同最優(yōu)化方式所鏈接的,如母子、始祖一后裔關(guān)系,否定,節(jié)點(diǎn)的指令,恒定值及節(jié)點(diǎn)輸出。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉