當前位置:首頁 > 智能硬件 > 安全設備/系統(tǒng)
[導讀] 一、意圖搜索起源 意圖搜索最早起源于互聯(lián)網行業(yè)搜索引擎工具,隨著互聯(lián)網信息量的不斷增加,能夠快速、準確地查找信息越來越困難,主要原因是搜索引擎不能理解用戶的真實查詢意圖,因而機器學習如遺

一、意圖搜索起源

意圖搜索最早起源于互聯(lián)網行業(yè)搜索引擎工具,隨著互聯(lián)網信息量的不斷增加,能夠快速、準確地查找信息越來越困難,主要原因是搜索引擎不能理解用戶的真實查詢意圖,因而機器學習如遺傳算法、BP神經網絡法等在這方面的應用研究快速地被引起關注。Lam Wai 就利用基于事例的機器學習和查詢反饋技術實現(xiàn)了文本的自動分類并用于文本檢索, 實驗證明了其優(yōu)越性。Mandala Rila 采用加權方法從多類信息中實現(xiàn)查詢擴展 , 以及ChakrabarTI 探討的基于矩陣代數(shù)的主題提取算法、組合詞匯和索引文本等特征提取都是這方面的努力。

但目前最有前景的是Doug Lenat 研制的搜索系統(tǒng), 通過建立常識庫和推理機來與用戶交談, 進而實現(xiàn)對用戶真正意圖的理解。知識工程之父Feigenbaum稱贊他開創(chuàng)了查詢的“語義時代”(TheAge of SemanTIcs)。但前提是要建立一個龐大的百科全書常識庫, 這是非常困難的, 而且也不分析用戶的潛在意圖。構造龐大知識庫的一種方法是從網絡上自動構造, Craven 和Lesser 提出了信息獲取的系統(tǒng)原理, 知識庫的結構和實現(xiàn)方法。Choi 則實現(xiàn)了一種具體的自動構造系統(tǒng),其可從網上發(fā)現(xiàn)文本并歸入本地數(shù)據(jù)庫供查詢, 它相當于智能代理。Alsaffa 做了類似的探索, 利用專家系統(tǒng)在用戶喜歡的表達和系統(tǒng)要求的表達之間實現(xiàn)自動轉換。意圖搜索正在基于這些技術之上實現(xiàn)了智能化的自動搜索。雖然意圖搜索起源于互聯(lián)網行業(yè),但是目前已經被廣泛用于其它行業(yè),例如在安防行業(yè)與物聯(lián)網技術緊密結合。

二、意圖搜索在互聯(lián)網行業(yè)的發(fā)展

互聯(lián)網行業(yè)最早由搜索引擎起步,目前數(shù)據(jù)也都是通過搜索引擎實現(xiàn)數(shù)據(jù)交換和傳遞過程。用戶之所以會產生搜索行為,往往是在解決任務時遇到自己不熟悉的概念或者問題,由此產生了對特定信息的需求,之后用戶會在頭腦中逐步形成秒速需求的查詢詞,將查詢提交給搜索引擎,然后對搜索結果進行瀏覽,如果發(fā)現(xiàn)搜索結果不能完全解決用戶的信息需求,則會根據(jù)搜索結果的啟發(fā),改寫查詢,以便更精確地描述自己的信息需求,之后重新構造新的查詢需求,提交搜索引擎,如此形成用戶和搜素引擎交互的閉合回路,直到搜索結果已經解決了自己的需求或嘗試幾次無果而終。從上述過程可以看出,從用戶產生信息需求到最終形成用戶查詢,中間有很大的不確定性,用戶未必能夠一開始就找到合適的查詢詞,即使是找到了,也可能存在查詢詞不能完全描述信息需求的情形,即在形成查詢的過程中存在信息丟失的問題。所以后續(xù)循環(huán)中的查詢改寫就是用戶逐步澄清搜索需求的一個過程。

用戶發(fā)出的每個搜索請求背后都隱含著潛在的搜索意圖,如果搜索引擎能夠根據(jù)查詢詞匯自動找出背后的用戶搜索意圖,然后針對不同的意圖,提供不同的檢索方法,將更符合用戶意圖的搜索結果排在前列,無疑會增加搜索引擎用戶的搜索體驗。目前搜索引擎已經部分實現(xiàn)了這種搜索模式,比如用戶搜索“北京 天氣”的時候會主動將當天的氣溫等情況列在搜索結果最前面。

意圖搜索是基于目前internet上信息的無組織、異構、分布和動態(tài)的特點以及現(xiàn)有搜索的不足而提出的,用于解決現(xiàn)有信息檢索系統(tǒng)所面臨的“信息過載”、“資源迷向”和搜索結果個性化需求等實際問題,實現(xiàn)Internet信息個性化主動服務。搜索引擎在強化“智能化”方向的理念之上,在自動分類、自動聚類的基礎上推出智能導航、概念搜索、個性化搜索功能,使搜索引擎充分領會用戶意圖的進行搜索,這是意圖搜索在搜索引擎方面的落地應用模式。

當前大多數(shù)搜索引擎是通過用戶注冊及用戶個性化配置(利用cookie機制、為用戶建立配置文件等)來提高對用戶搜索請求的精度和命中率,實現(xiàn)一定程度上的個性化搜索服務。這種方式需要用戶在服務器上登記個人信息,但這可能造成用戶某些隱私信息的泄露。目前比較公認的搜索引擎意圖搜索方法是采用特征獲取方法。特征獲取方法分為兩類,第一類方式可以稱為事先方法,這種方法在查詢被提交給搜索引擎以前,利用查詢本身的特征來表示查詢,比如表示特定需求的特征詞匯、詞與詞之間關系、詞的詞性以及詞的選擇優(yōu)先性、在語料集中的統(tǒng)計信息等等;第二類方法可以稱為事后方法,這種方法利用查詢被提交給搜索引擎以后的相關數(shù)據(jù)來獲取查詢的特征。

意圖搜索分為意圖分析和分析擴展兩個部分。意圖分析是解決“信息過載”和“資源迷向”問題的有效途徑,通過對用戶所需的信息資源進行搜集、加工、整理,可以梳理和有序化網絡上的專業(yè)信息資源,向用戶提供智能化的信息服務。意圖分析和分析擴展的具體步驟如下所述:

(1)意圖分析。①根據(jù)用戶對問題的回答, 檢索知識庫中的相關信息, 以提供直接的回答。②對輸入的原始查詢根據(jù)其概念內容進行組織和安排, 以析取相關的概念信息和范疇知識。然后, 通過語義聯(lián)想等意圖推理修改查詢向量。③將查詢向量交由用戶交互確認、編輯。④根據(jù)用戶的編輯結果可以再次意圖推理, 直到用戶滿意為止。⑤將此次意圖推理的結果記入知識庫中,以備以后的意圖推理。

(2)分析擴展。根據(jù)意圖分析的結果, 更新原始查詢向量, 形成新的查詢向量。方法是將應用領域知識和索引、相關性、估計和查詢表達相結合來實現(xiàn)查詢擴展, 即查詢索引還包括不在用戶查詢中出現(xiàn)的查詢詞部分。查詢擴展所需要的查詢詞的選擇策略有:①非獨立類。非獨立詞指的是和查詢詞具有較大相關性的詞。查詢擴展通過知識庫推理從知識庫中找出相關性詞、短語、句子、段/篇章。②交互式選擇。用戶從通過上述策略得出的待選詞中決定最后的查詢詞。

三、意圖搜索與安防行業(yè)的結合

2014年發(fā)生的震驚全球的“馬航失聯(lián)”事件牽動了無數(shù)中國人的心,泛太平洋各國均提供了大量幫助用于搜索失聯(lián)航班,但是由于搜索方式千奇萬種、信息達到海量級別、信息來源不連續(xù)性等多種問題,導致搜索遲遲沒有結果。仔細分析搜索方式,可以發(fā)覺這類型的搜索形式其實與互聯(lián)網行業(yè)的搜索引擎意圖搜索有相似之處,相似點在于都需要對數(shù)據(jù)進行收集、甄別、過濾、分類、整合,都不是一個單一的行動,而是一整套連貫的過程。

物聯(lián)網行業(yè)本身由于傳感器的多種多樣導致數(shù)據(jù)形式多樣性、信息海量性等特征,如果大數(shù)據(jù)環(huán)境下還是采用過去的全文檢索方式進行單一化搜索,未來一定無法滿足用戶的智能化需求。針對這一挑戰(zhàn),2014中國大數(shù)據(jù)峰會上中國工程院吳曼青院士發(fā)表了名為“存在就有痕跡,聯(lián)系就有信息,反恐環(huán)境下大數(shù)據(jù)的意圖搜索”的專題演講,吳院士以眾多美國案例為引,描述了新時代反恐行動應用的特性:法律保障、以人為核心、高技術手段、國際合作,通過構建虛擬空間信息社會雷達的方式將意圖搜索引用到反恐活動中,提升反恐能力。

基于“存在就有痕跡,聯(lián)系就有信息”的基本理念,構建網絡空間中行為事件、思想事件等模型,在實體空間和虛擬空間中全面收集人的存在痕跡和聯(lián)系信息,關注人物或事件間聯(lián)系鏈,從而實現(xiàn)網絡空間中存在的各種意圖,完成對意圖產生源頭、傳播途徑和發(fā)展趨勢的全方位描述,達到對個人和組織的所思所想行為所在的全面搜索和分析。物聯(lián)網行業(yè)擁有海量的視頻、音頻、圖片數(shù)據(jù),通過相應智能算法可以從中提取出可供分類的結構化信息,通過這些結構化信息與意圖搜索技術相結合可以幫助用戶快速預判事物、事件發(fā)生概率和趨勢。

因國內反恐形勢嚴峻,大數(shù)據(jù)搜索需要積極應對新時期恐怖主義威脅,立足恐怖主義存在和意圖特征,運用大數(shù)據(jù)技術進行深入關聯(lián)分析,實現(xiàn)對恐怖分子的準確識別和暴恐事件的提前預警,有力提升反恐維穩(wěn)核心能力。??低?/u>作為安防行業(yè)的龍頭,物聯(lián)網概念提出之處就已經開始涉及其中,相信在不遠的將來,意圖搜索應用可能就在??低?/u>率先落地。

四、結語

本文首先針對意圖搜索的來源、基本概念作了一些解釋,隨后針對產生意圖搜索概念的互聯(lián)網行業(yè)具體發(fā)展過程、應用模式及技術等做了一些討論,最后對安防行業(yè)與意圖搜索技術相結合的具體形式進行了探討,通過馬航失聯(lián)事件的預測性分析告訴讀者意圖搜索如何在安防、反恐等領域發(fā)揮自己的作用,如何與物聯(lián)網緊密結合。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉