當前位置:首頁 > 模擬 > 模擬
[導讀]漢語框架網(wǎng)絡包含豐富的本體語義信息。利用詞匯的語義信息來探測框架在本體體系中的關系,利用自主學習技術確定相應本體,完善漢語框架網(wǎng)絡本體的配價模式。實驗證明,本體學習策略的選取對于本體的構建及語義檢索性能的提高,發(fā)揮了重要作用。

O 引 言
   
本體學習能力對本體構建和語義Web的快速發(fā)展及自動問答技術的發(fā)展,具有非常重要的意義?,F(xiàn)有本體可深層次理解領域知識,但是手工構建本體的方式遠遠不能滿足語義檢索應用的需求。因此,運用本體學習策略提高本體構建的速度成為本體應用的關鍵。以漢語框架網(wǎng)絡本體知識庫為基礎,采用不同的學習策略來處理不同特征的實例,抽取其中的語義信息,以便更好實現(xiàn)實例的定位和本體歸類。同時,通過實時監(jiān)控,系統(tǒng)檢查用戶的檢索情況,采用適合用戶特征的輔策略來控制和修正主策略,提高檢索的性能。

l 漢語框架網(wǎng)絡本體的構建
   
以FrameNet本體為依據(jù),以法律領域為突破口,從語義角度描述法律概念與概念、詞語與詞語間的關系,形成語義知識網(wǎng)絡,構建法律詞匯及其所屬框架的計算機可讀信息。法律框架網(wǎng)絡本體中包含豐富的框架關系、配價模式等語義規(guī)則,機器可以此來自主地學習領域內(nèi)外相關的概念及屬性,建立概念之間的關系。通過學習可以實現(xiàn)已有的框架與新框架的有效融合,不斷豐富法律框架本體,擴大其語義表述能力,提高本體知識庫的歸納、演繹、推理的能力。

2 本體學習策略
   
本體學習是一種可以由本體工程師使用,以便更容易地創(chuàng)建本體的方法,是一套用幾種資源以半自動化方式對現(xiàn)存本體進行挖掘、豐富或改造來構建新本體的方法和技術。目前,很多本體學習方法都以不同類型的無結構的,或半結構的,或充分結構化數(shù)據(jù)來進行訓練,運用聯(lián)想規(guī)則、概念聚類、本體修改、概念學習等方法,構建一個自動或半自動的、協(xié)同的本體。在漢語框架網(wǎng)絡中,我們采用了基于本體學習的半自動本體構建方法,采用多種學習策略,綜合構建一體化的本體學習環(huán)境,加快本體構建和本體語料加工的進程。此方法能更好的發(fā)現(xiàn)概念間的關系,更有效地獲得本體信息,是一種比較高效可行的本體構建方法。

    本體學習的過程如圖l所示。首先,對各類語料進行處理,其中包括分詞、詞性標注、句法依存分析、語義信息的提取。其次,從語料庫中提取領域術語,使用自然語言處理、學習規(guī)則和統(tǒng)計的技術來過濾這些術語,然后使用通用本體中的概念對這些術語進行語義解釋,確定術語的語義類型,形成本體學習的結果。最后,由專家對學習結果評估,從而利用通用本體和核心本體來學會新領域本體。
2.1 語義信息的抽取
   
漢語框架網(wǎng)絡本體的語義信息由框架、語義元素及語義關系構成,而語義關系包括繼承關系、總分關系、使用關系和參照關系等。語義關系是對框架網(wǎng)絡本體間共同特性的描述,也是兩者的共同關注焦點,故可借助語義關系從一個已知框架來學習另一個未知框架的語義信息。
    構建漢語框架網(wǎng)絡本體時,我們采用一個5元組O:={C,R,HC,rel,AO}來表示框架的語義信息。其中:C表示與該框架發(fā)生關系的框架集合;R為框架間的關系的集合;XXXXXXX是一種有向關系,HC(Cl,C2)表示框架Cl是框架C2的上位框架,其中框架關系包括繼承關系和使用關系;rel:R→C×C是一個函數(shù),亦可表示為R(C1,C2),表示除了繼承關系和使用關系外的框架間關系;AO為框架進行本體學習和推理的邏輯化、形式化公理,用以約束本體中的語義信息,校驗它的正確性或推導出新的信息。這樣,在上述5元組的基礎上,將學習任務的初始描述、中間狀態(tài)、學習到的規(guī)則等都借助例句庫保存起來,從而形成一組基本事實和判定公理。在公理中,我們利用了句法一語義相對應的學習經(jīng)驗生成一系列規(guī)則,把每一個語法成分同它的框架元素聯(lián)系起來,然后從詞元和框架中找出合適的基本聯(lián)系,此方法對于不可繼承的框架元素的確定具有重要意義。然后,把基本學習器組成元學習器,元學習器分配給每個基本學習器一個權重,來顯示它所信任基本學習器在元學習器中學習能力。然后,由人工對此進行確認和修正,最終形成完整的框架網(wǎng)絡本體語義信息。
    語義信息抽取時,學習器通過給定的學習策略不斷地在一組候選框架及例句中挑選最適合的選項加入學習器中,這些候選框架及例句被公理和規(guī)則不斷地特殊化(借助大量的反例來篩選候選框架及例句),直到它們符合第一類基本學習器的基本條件,然后由第二類學習器進行語義關系的學習。其中,第一類基本學習器利用了每個框架特定的語義信息,來處理框架間的繼承關系,從上位框架中繼承所有的框架元素。例如,框架“文本”與框架“人造物品”屬于繼承關系,“人造物品”包含框架元素:創(chuàng)建者、類型、材料、人造物品、創(chuàng)造時間、名稱、使用價值等,以其語義信息作為學習的基礎,可歸納出“文本”框架應包括的框架元素及其它的語義信息。第二類基本學習器利用框架間的其它語義關系,如總分關系、先與關系、使用關系等。比如,框架“犯罪場景”與框架“犯罪”屬于總分關系?!胺缸铩辈糠掷^承“犯罪場景”的犯罪行為、犯罪人元素,同時增加了時間、地點、動機等其它元素。這需要學習器根據(jù)分框架中主體擔任的角色不同及情景的差異進行總結而獲得。這樣,通過學習器的學習,就獲得了未知框架網(wǎng)絡本體遺失的語義特性,再根據(jù)相應的判斷公理來學會了未知框架所代表的語義信息。
2.2 配價模式的學習
   
通過對語義信息的學習,我們把句子解析成了若干語法要素和語義元素。配價模式學習過程中,參照已有的本體及其語義模式(配價模式)等信息,根據(jù)詞性分析、語法分析和句法分析的結果及所總結的規(guī)則和統(tǒng)計信息,生成框架的配價模式。
    框架配價模式學習過程:1)對例句做句法依存分析。2)以句法依存樹中的結點為目標詞,將目標詞所有的子樹看作一語義元素,每個子樹包含的所有詞語默認為最大短語。3)根據(jù)子樹的根結點與目標的句法依存關系類型,與已有配價模式匹配,確定子樹在配價模式中充當?shù)目蚣茉?,比如,它們之間為動賓關系,那么子樹就作為“受事”框架元素。若存在使義動詞則子樹所做框架元素為“施事”。最后,如果子樹中存在像并列關系之類的依存關系則應當考慮將其進一步細分為若干框架元素,算法如圖2所示。

    研究發(fā)現(xiàn),配價模式學習的關鍵是結合語義信息制定判定規(guī)則。利用有用的域約束、依賴約束和相關詞語的詞性標記限制,我們形成了一系列可操作的啟發(fā)式規(guī)則,提高了配價模式學習的精度。那么,如何來判斷初步的配價模式與已有配價模式是匹配的?不同的框架元素在配價模式中的重要性是不同的,應該區(qū)別對待。假設句法依存樹中的結點受樹結構中相鄰的結點的特性的影響:如果相鄰的結點的關系緊密那么這兩個結點也很可能在配價模式中充當重要角色,兩者至少有個充當配價模式的很重要框架元素。
2.3 檢索特征學習技術策略
   
個性化查詢就是用戶根據(jù)自身興趣愛好、關注焦點和查詢特征進行擴展,來獲取精確完整的知識信息。不同用戶對事件關注的角度不一樣,比如,罪犯及其律師關心的是如何減輕判刑,而檢察官則是要找到罪犯的全部犯罪情節(jié)。系統(tǒng)能夠對用戶的各種信息行為進行智能化追蹤及分析,搜集用戶個性信息及其關注的焦點的種類等信息,并將用戶個性化信息儲存到數(shù)據(jù)庫里。當系統(tǒng)收到檢索請求后,從語料庫中檢索符合用戶信息需求的信息,并利用個性信息過濾掉相關度小的信息,同時細化語義情景,按用戶提問將答案精確到最小語義元素。同時,系統(tǒng)建立反饋機制,允許用戶對系統(tǒng)推送的信息進行評價和人工選擇,然后將作為此類用戶的個性化信息。

3 結束語
   
在構建漢語框架網(wǎng)絡本體時,以思維科學的基本原理為指導,運用元學習器技術,充分發(fā)揮兩類基本學習器各自的優(yōu)點,解決了語義信息的鑒別、已做語義處理知識的理解、未標記文獻的利用等問題,從而獲得了比單一的基本學習器較高的學習能力;同時總結了一些具有代表性和高精確度的實例和規(guī)則,作為系統(tǒng)學習的參數(shù),得到了較好學習未知框架網(wǎng)絡本體語義信息的近似值。不同學習策略的實施,提高了系統(tǒng)的歸納、演繹、推理的能力,增強了語義理解能力,能夠返回精確匹配的答案。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉