谷歌發(fā)力AI搜索,視覺(jué)檢索+識(shí)別會(huì)成主流?AR眼鏡也要東山再起?
今年的谷歌開(kāi)發(fā)者大會(huì)(Google I/O 2022)上有什么新玩意、硬科技?
谷歌翻譯、谷歌多重AI搜索、保護(hù)性計(jì)算、Android 13、谷歌硬件。
在2小時(shí)的主題演講上,谷歌梳理了自己現(xiàn)有AI計(jì)算的進(jìn)度,并演示了關(guān)鍵技術(shù)應(yīng)用。并發(fā)布了谷歌手機(jī),還提前曝光了谷歌AR眼鏡!
有不少最新技術(shù)理念和硬核產(chǎn)品,科技圈媒體已經(jīng)鋪天蓋地報(bào)道了。
01谷歌的邏輯
一家高科技公司總要有句通俗易懂的口號(hào),方便和用戶直接交流。
曲高和寡、孤芳自賞裝深沉裝睿智是行不通的。
谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)很懂這思路,所以他的口號(hào)從來(lái)簡(jiǎn)明扼要。
這次他的口頭禪是:“谷歌的目的,深化用戶對(duì)信息的理解,讓人們無(wú)論在哪都能獲得知識(shí)。”
桑達(dá)爾·皮查伊印度平民家庭出身、買(mǎi)不起新書(shū)包的窮學(xué)生,一路爬到谷歌寡頭公司的CEO,皮查伊的成功充滿了勵(lì)志色彩,激勵(lì)著世界許多寒門(mén)子弟奮發(fā)前進(jìn)。
Google搜索引擎、谷歌Chrome、Chrome OS、地圖、Gmail、Android都是在他的帶領(lǐng)下壯大的,人稱劈柴哥!
谷歌的工程師文化在他手里被發(fā)揚(yáng)到了極致,一個(gè)重要的行事規(guī)則是——?dú)㈦u要用牛刀,集重兵狂投入優(yōu)化產(chǎn)品功能性到極點(diǎn)。
Chrome瀏覽器就是這個(gè)邏輯的經(jīng)典產(chǎn)品,核心功能細(xì)節(jié)比同行強(qiáng)的時(shí)候,用戶蜂擁而至。
工程師文化,就是這點(diǎn)好,拼產(chǎn)品功效功能細(xì)節(jié),沒(méi)有花哨,比不過(guò)別人就是比不過(guò)別人,沒(méi)有廢話連篇的自我遮羞布。
市場(chǎng)用戶最公平,不管競(jìng)爭(zhēng)是否激烈,不管條件是否艱苦,不管舞臺(tái)大小,不看你演戲演技演給誰(shuí)看。
就看產(chǎn)品本身實(shí)用性說(shuō)話。
不行,千萬(wàn)別浪費(fèi)觀眾時(shí)間,大家都不傻,煩了,人家真會(huì)扔臭雞蛋香蕉皮砸人的。
02谷歌翻譯、谷歌地圖
在翻譯領(lǐng)域,谷歌已經(jīng)要超神!
谷歌宣布,谷歌翻譯增加了對(duì)24種新語(yǔ)言的支持,深度神經(jīng)網(wǎng)絡(luò)算法功不可沒(méi)!
大概全世界所有主流語(yǔ)言都能支持翻譯了。
在視頻領(lǐng)域,YouTube視頻已經(jīng)支持了16種語(yǔ)言的實(shí)時(shí)翻譯。YouTube去年已經(jīng)可以自動(dòng)生成章節(jié)分段?,F(xiàn)在通過(guò)語(yǔ)音/視頻腳本分析等,讓這種分段更準(zhǔn)確,數(shù)量也會(huì)達(dá)到8千萬(wàn)段。
在NLP(自然語(yǔ)言處理)領(lǐng)域,谷歌的AI技術(shù)可以對(duì)文字段落進(jìn)行更好的理解、總結(jié),并幫助用戶快速找到重點(diǎn)信息。
谷歌地圖(Google Maps),進(jìn)一步完善了地圖數(shù)據(jù),谷歌的心氣自然是讓全世界都能用谷歌地圖,所以這次人家表態(tài),已經(jīng)能讓非洲等偏遠(yuǎn)地區(qū)使用了。
有一說(shuō)一,谷歌地圖的細(xì)節(jié)處理非常優(yōu)秀。據(jù)官方說(shuō),已經(jīng)開(kāi)始大規(guī)模應(yīng)用3D航拍、AI智能等技術(shù),以此來(lái)確保導(dǎo)航、搜索等功能的準(zhǔn)確性。
同時(shí),3D繪圖和機(jī)器學(xué)習(xí)等+航拍,讓沉浸式實(shí)景地圖更逼真完整。
會(huì)上,谷歌也公布了關(guān)于地圖應(yīng)用的最新數(shù)據(jù):已在全球范圍內(nèi)繪制超16億座建筑和6000萬(wàn)公里的道路。
03多重維度AI搜索
谷歌核心產(chǎn)品是搜索引擎。
2022這產(chǎn)品又添加了什么黑科技功能?
在之前,搜索是類似查詢的方式,你輸入文字,它給出一堆相應(yīng)結(jié)果。
現(xiàn)在,用戶的要求多了,也復(fù)雜了。
例如用戶會(huì)上傳一張圖片、一段小視頻,甚至一段鳥(niǎo)叫聲,問(wèn)圖片里、視頻里的是什么鳥(niǎo)類?
這種問(wèn)題不再是文字,而是圖片、視頻影音、文字的多維度結(jié)合。
這就是最新的技術(shù)“圖像檢索+識(shí)別”,比傳統(tǒng)文字檢索識(shí)別更難更復(fù)雜。
這屬于多重搜索,也是谷歌這些年發(fā)力的重點(diǎn)。
簡(jiǎn)單的說(shuō),“多重搜索”利用AI多模型理解,去理解人們的搜索意圖,并用直觀的方式體現(xiàn)。
一個(gè)實(shí)例來(lái)說(shuō),在巧克力店去尋找“不含堅(jiān)果黑巧克力”,用戶要做的是采用手機(jī)鏡頭去掃描貨架,找到指定的產(chǎn)品。
鏡頭去識(shí)別物體-加入篩選條件-呈現(xiàn)出結(jié)果。
這是圖像識(shí)別+篩選結(jié)果的過(guò)程,仍舊是一種搜索,但已經(jīng)跟之前的搜索引擎體驗(yàn)完全不同。
整個(gè)視頻檢索體驗(yàn)與以往理解傳統(tǒng)文字框搜索很不一樣。
知情郎對(duì)這搜索應(yīng)用技術(shù)嘆為觀止。
在德高行全球?qū)@麛?shù)據(jù)庫(kù)中,以圖像檢索+識(shí)別為關(guān)鍵詞,在谷歌全球?qū)@餀z索了相關(guān)專利,以數(shù)量看,中國(guó)專利60件,包括發(fā)明公開(kāi)32件、發(fā)明授權(quán)28件;美國(guó)專利205件,包括發(fā)明公開(kāi)83件、發(fā)明授權(quán)122件
下表為9件為谷歌近期公開(kāi)圖像檢索+識(shí)別領(lǐng)域的專利。
這些專利含金量都非常大,谷歌的目標(biāo)是“用任何方式在任何地方進(jìn)行搜索”,所以研究多維搜索,尤其是通過(guò)手機(jī)自帶的攝像頭視頻拍攝識(shí)別這種模式,大概率會(huì)成為主流搜索應(yīng)用之一。
04谷歌AI語(yǔ)音助手Google Assistant
手機(jī)帶AI語(yǔ)音助手,已經(jīng)成了行業(yè)慣例。
國(guó)內(nèi)比較成熟的就是百度語(yǔ)音助手小度,能幫助用戶處理一些簡(jiǎn)單的操作指令。
谷歌的AI語(yǔ)音助手則是Google Assistant,谷歌稱,在AI對(duì)話能力技術(shù)領(lǐng)域,全球每天有7億人都在使用Google Assistant。
在開(kāi)發(fā)者大會(huì)上,谷歌發(fā)布了“Look and Talk”功能,用戶不再必須通過(guò)“Hi Google”喚醒設(shè)備。用戶可以通過(guò)注視并直接講話與語(yǔ)音助手進(jìn)行交流。
你只需要看著設(shè)備屏幕上的前置攝像頭,并說(shuō)出需求,語(yǔ)音助手就會(huì)進(jìn)行應(yīng)答。
另外,用戶可以直接通過(guò)一些快捷短語(yǔ)控制語(yǔ)音助手,進(jìn)行一些事項(xiàng)的處理,比如上個(gè)鬧鐘、關(guān)個(gè)燈。
谷歌的核心目的,就是讓用戶可以與語(yǔ)音助手交互的更自然。
值得一提的是,在開(kāi)放式對(duì)話處理方面,谷歌進(jìn)一步優(yōu)化了神經(jīng)網(wǎng)絡(luò)模型,語(yǔ)音助手甚至可以對(duì)非連續(xù)的對(duì)話進(jìn)行理解。
比如用戶說(shuō)話的時(shí)候即使磕巴、語(yǔ)句斷斷續(xù)續(xù),語(yǔ)音助手還是可以聽(tīng)懂用戶的意思。
▲AI會(huì)去掉語(yǔ)句中的“停頓”和“卡殼”
去年谷歌發(fā)布了生成語(yǔ)言模型LaMDA,谷歌今年將其迭代為L(zhǎng)aMDA 2,并向一些谷歌員工開(kāi)放測(cè)試。
LaMDA甚至學(xué)會(huì)了“想象”,比如當(dāng)用戶說(shuō),“想象世界上最深的海是什么樣子”,LaMDA會(huì)找到馬里亞納海溝。
此外,用戶還可以與LaMDA圍繞某一話題展開(kāi)討論,LaMDA會(huì)一直圍繞這一話題進(jìn)行回答。
比如討論關(guān)于“狗”的話題,LaMDA的回答都會(huì)圍繞狗來(lái)展開(kāi)。
谷歌在發(fā)布會(huì)上也提到了近期發(fā)布的PaLM大模型,該模型包含5400億參數(shù),它可以解答數(shù)學(xué)問(wèn)題,甚至可以解釋一個(gè)笑話。
PaLM可以用沒(méi)有訓(xùn)練過(guò)的語(yǔ)言回答用戶提出的問(wèn)題,打破語(yǔ)言的邊界。
谷歌在大會(huì)上宣布,他們將為谷歌云客戶提供全球最大的開(kāi)放機(jī)器學(xué)習(xí)中心,該數(shù)據(jù)中擁有9 exaFLOPS的算力。
另外,Android 13今年發(fā)布。
05谷歌手機(jī)
大家比較的關(guān)心也是這個(gè)。
首先是谷歌Pixel 6a,它是旗艦Pixel 6的“青春版”,依舊是谷歌自研芯片Tensor ,也依舊支持5G,還有Android 13系統(tǒng)。
外觀設(shè)計(jì)類似,但看起來(lái)沒(méi)那么高端(應(yīng)該是塑料材質(zhì)),背后是1200萬(wàn)像素的雙鏡頭系統(tǒng),價(jià)格更低了只要449美元起,走的是平民廉價(jià)路線。
有一說(shuō)一,谷歌這思路是挺政治正確的,在中高端市場(chǎng),蘋(píng)果在美國(guó)的統(tǒng)治力過(guò)大,死磕沒(méi)必要,不如學(xué)當(dāng)年的小米,繼續(xù)走低價(jià)傾銷策略,專注低端市場(chǎng)擴(kuò)銷量是真。
這手機(jī)7月21日預(yù)售,7月28日上市。
這款手機(jī)跟之前所有Pixel手機(jī)一樣,是Android系統(tǒng)和剛才講那一大票AI技術(shù)+算法的硬件體現(xiàn);或者說(shuō)是谷歌技術(shù)的硬件軀殼。
06新款A(yù)R眼鏡
在開(kāi)發(fā)者大會(huì)末尾,公司透露,它正在開(kāi)發(fā)一副新的增強(qiáng)現(xiàn)實(shí)智能眼鏡,旨在“打破溝通障礙”。
外形和普通眼鏡類似,減少了佩戴者的突兀感。
功能方面,谷歌AR眼鏡可以直接看到翻譯在眼前的語(yǔ)言,非常酷。相當(dāng)于直接給你加字幕解讀外文影視劇!
但谷歌沒(méi)有透露該設(shè)備的具體名稱,也沒(méi)有說(shuō)什么時(shí)候會(huì)向消費(fèi)者發(fā)布。
谷歌AR眼鏡天天在講故事,講了好多年,就是沒(méi)看見(jiàn)好的應(yīng)用產(chǎn)品,大家等的黃花菜都涼了。
這行業(yè)競(jìng)爭(zhēng)也激烈,Meta、蘋(píng)果、三星、微軟等科技巨頭都陸續(xù)透露正在研究或者即將推出AR眼鏡產(chǎn)品。
不過(guò),據(jù)媒體報(bào)道,谷歌之前收購(gòu)了Raxium,這是一家專注于開(kāi)發(fā)針對(duì)AR/VR/MR設(shè)備應(yīng)用的單片集成式RGB Micro LED微顯示器公司,很明顯,谷歌收購(gòu)這家公司也是為了提高AR設(shè)備的適用性,看來(lái),這次人家有備而來(lái)。
知情郎專門(mén)查了下公司專利,在德高行全球?qū)@麛?shù)據(jù)庫(kù)中,關(guān)于google的AR眼鏡專利,中國(guó)專利43件,包括發(fā)明公開(kāi)21件、發(fā)明授權(quán)7件、外觀設(shè)計(jì)15件。美國(guó)專利124件,包括發(fā)明公開(kāi)60件、發(fā)明授權(quán)57件、外觀設(shè)計(jì)7件。
看了眼谷歌4月底公布的最新智能眼鏡專利,這專利除了賦予眼鏡用戶傳統(tǒng)的所示視圖外,還增加了將信息(例如,數(shù)字圖像)疊加至視場(chǎng)并基于例如光學(xué)頭戴式顯示屏(OHMD)、兼具透明頭戴式顯示屏(HUD)嵌入式無(wú)線眼鏡進(jìn)行AR視圖覆蓋,總而言之,現(xiàn)代智能眼鏡實(shí)際上可以是運(yùn)行獨(dú)立移動(dòng)應(yīng)用程序的可穿戴電腦,并能支持用戶通過(guò)免提、自然語(yǔ)言語(yǔ)音命令以及觸屏功能按鈕與互聯(lián)網(wǎng)通信。
外媒的原話是:谷歌正在開(kāi)發(fā)的智能眼鏡兼具了AR功能,可呈現(xiàn)融合了真實(shí)和虛擬圖像的增強(qiáng)現(xiàn)實(shí)視圖,與谷歌之前推出的智能眼鏡相比,顯然這款眼鏡具有更好的性能,其配置的高質(zhì)量攝像頭模塊和3D傳感模塊將在虛擬圖像與現(xiàn)實(shí)世界的融合中發(fā)揮著關(guān)鍵作用。
至于現(xiàn)實(shí)效果,誰(shuí)用誰(shuí)知道!沒(méi)見(jiàn)過(guò)成品,啥都不說(shuō)!
07視覺(jué)搜索查詢的智能系統(tǒng)
分享個(gè)谷歌AI搜索技術(shù)研發(fā)方面的最新專利,視頻檢索+識(shí)別是它最新發(fā)力點(diǎn)。
一般而言,本公開(kāi)涉及一種計(jì)算機(jī)實(shí)現(xiàn)的視覺(jué)搜索系統(tǒng),可以用于檢測(cè) 和識(shí)別視覺(jué)查詢中的對(duì)象或與視覺(jué)查詢相關(guān)的對(duì)象,然后提供響應(yīng)視覺(jué)查詢 的更個(gè)性化和/或智能的搜索結(jié)果(例如,在增強(qiáng)視覺(jué)查詢的覆蓋中)。
例如, 用戶可以提交包括一個(gè)或多個(gè)圖像的視覺(jué)查詢。在視覺(jué)查詢中或與視覺(jué)查詢 相關(guān),各種處理技術(shù)(諸如光學(xué)字符識(shí)別(OCR)技術(shù))可以用于識(shí)別文本 (例如,在圖像、周圍圖像中等)和/或各種對(duì)象檢測(cè)技術(shù)(例如,機(jī)器學(xué)習(xí) 對(duì)象檢測(cè)模型等)可以用于檢測(cè)對(duì)象(例如,產(chǎn)品、地標(biāo)、動(dòng)物、人類等)。
可以識(shí)別與檢測(cè)的文本或?qū)ο?或多個(gè))相關(guān)的內(nèi)容,并可以將其作為搜索 結(jié)果提供給用戶。因此,本公開(kāi)的方面使得視覺(jué)搜索系統(tǒng)能夠更智能地處理視覺(jué)查詢以提供改進(jìn)的搜索結(jié)果,包括更個(gè)性化和/或考慮情境信號(hào)的搜索結(jié) 果來(lái)解釋視覺(jué)查詢和/或用戶搜索意圖的隱式特征。
本公開(kāi)的示例方面響應(yīng)于視覺(jué)查詢提供了更智能的搜索結(jié)果。
視覺(jué)查詢 可以包括一個(gè)或多個(gè)圖像。例如,在視覺(jué)查詢中包括的圖像可以是同時(shí)捕獲 的圖像,也可以是先前存在的圖像。
在一個(gè)示例中,視覺(jué)查詢可以包括單個(gè)圖像。在另一示例中,視覺(jué)查詢可以包括來(lái)自大約三秒視頻捕獲的十個(gè)圖像 幀。
在又一示例中,視覺(jué)查詢可以包括圖像的圖像庫(kù),例如,包括在用戶的 照片庫(kù)中的所有圖像。
例如,諸如庫(kù)可以包括用戶最近捕獲的動(dòng)物園動(dòng)物的 圖像、用戶不久前捕獲的貓的圖像(例如,兩個(gè)月前)以及用戶從現(xiàn)有來(lái)源 (例如,從網(wǎng)站或屏幕捕獲)保存到庫(kù)中的老虎的圖像。這些圖像可以代表 用戶的一組高親和力圖像,并體現(xiàn)(例如,通過(guò)圖形)用戶可能對(duì)類似動(dòng)物 的事物具有“視覺(jué)興趣”的抽象想法。
任何給定的用戶都可能有許多這樣的節(jié)點(diǎn)集群,每個(gè)節(jié)點(diǎn)集群代表的是無(wú)法很好地被詞捕獲的興趣。
根據(jù)一個(gè)示例方面,視覺(jué)搜索系統(tǒng)可以構(gòu)建并利用用戶中心視覺(jué)興趣圖 來(lái)提供更個(gè)性化的搜索結(jié)果。在一個(gè)示例使用中,視覺(jué)搜索系統(tǒng)可以使用用 戶興趣圖來(lái)過(guò)濾視覺(jué)發(fā)現(xiàn)通報(bào)、通知或其他機(jī)會(huì)。
因此,在示例性實(shí)施例中, 在搜索結(jié)果在查詢圖像的增強(qiáng)覆蓋中呈現(xiàn)為視覺(jué)結(jié)果通知(例如,在某些情 況下可稱為“閃光(gleams)”)的示例性實(shí)施例中,基于用戶興趣的搜索結(jié) 果的個(gè)性化可能特別有利。
更具體地,在一些實(shí)現(xiàn)中,視覺(jué)搜索系統(tǒng)可以包括或提供增強(qiáng)覆蓋用戶 界面,用于為搜索結(jié)果提供視覺(jué)結(jié)果通知,作為視覺(jué)查詢中包括的圖像的覆 蓋。
例如,視覺(jué)結(jié)果通知可以在和與搜索結(jié)果相關(guān)的圖像部分相對(duì)應(yīng)的位置 提供(例如,視覺(jué)結(jié)果通知可以顯示在與對(duì)應(yīng)搜索結(jié)果相關(guān)的對(duì)象的“頂部”)。因此,響應(yīng)于視覺(jué)搜索查詢,可以識(shí)別多個(gè)候選搜索結(jié)果,并且多個(gè)候選視 覺(jué)結(jié)果通知可以分別與多個(gè)候選搜索結(jié)果相關(guān)聯(lián)。然而,在底層視覺(jué)搜索系 統(tǒng)功能強(qiáng)大且范圍廣泛的情況下,大量候選視覺(jué)結(jié)果通知可能可用,使得所有候選視覺(jué)結(jié)果通知的呈現(xiàn)將導(dǎo)致用戶界面混亂地?fù)頂D或以其他方式不希望 地模糊基礎(chǔ)圖像。
因此,根據(jù)本公開(kāi)的一個(gè)方面,計(jì)算機(jī)視覺(jué)搜索系統(tǒng)可以 構(gòu)建并利用用戶中心視覺(jué)興趣圖來(lái)基于觀察的用戶視覺(jué)興趣對(duì)候選視覺(jué)結(jié)果 通知進(jìn)行排名、選擇和/或過(guò)濾,從而提供更直觀和簡(jiǎn)化的用戶體驗(yàn)。
在一些實(shí)現(xiàn)中,用戶特定興趣數(shù)據(jù)(例如,可以使用圖表示)可以至少 部分地通過(guò)分析用戶過(guò)去參與的圖像隨時(shí)間聚合。
換言之,計(jì)算系統(tǒng)可以通過(guò)分析用戶隨時(shí)間參與的圖像來(lái)嘗試?yán)斫庥脩舻囊曈X(jué)興趣。當(dāng)用戶參與圖像 時(shí),可以推斷圖像的某些方面是用戶感興趣的。因此,可以在用戶特定興趣 數(shù)據(jù)(例如,圖)中添加或以其他方式標(biāo)注包括在此類圖像中或與此類圖像 相關(guān)的項(xiàng)(例如,對(duì)象、實(shí)體、概念、產(chǎn)品等)。