谷歌發(fā)力AI搜索，視覺檢索+識(shí)別會(huì)成主流？AR眼鏡也要東山再起？

時(shí)間：2022-06-22 16:14:52

關(guān)鍵字：全志科技谷歌 AI AR眼鏡

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]在2小時(shí)的主題演講上，谷歌梳理了自己現(xiàn)有AI計(jì)算的進(jìn)度，并演示了關(guān)鍵技術(shù)應(yīng)用。并發(fā)布了谷歌手機(jī)，還提前曝光了谷歌AR眼鏡!

今年的谷歌開發(fā)者大會(huì)(Google I/O 2022)上有什么新玩意、硬科技?

谷歌翻譯、谷歌多重AI搜索、保護(hù)性計(jì)算、Android 13、谷歌硬件。

在2小時(shí)的主題演講上，谷歌梳理了自己現(xiàn)有AI計(jì)算的進(jìn)度，并演示了關(guān)鍵技術(shù)應(yīng)用。并發(fā)布了谷歌手機(jī)，還提前曝光了谷歌AR眼鏡!

有不少最新技術(shù)理念和硬核產(chǎn)品，科技圈媒體已經(jīng)鋪天蓋地報(bào)道了。

01谷歌的邏輯

一家高科技公司總要有句通俗易懂的口號(hào)，方便和用戶直接交流。

曲高和寡、孤芳自賞裝深沉裝睿智是行不通的。

谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)很懂這思路，所以他的口號(hào)從來簡(jiǎn)明扼要。

這次他的口頭禪是：“谷歌的目的，深化用戶對(duì)信息的理解，讓人們無論在哪都能獲得知識(shí)?！?

桑達(dá)爾·皮查伊印度平民家庭出身、買不起新書包的窮學(xué)生，一路爬到谷歌寡頭公司的CEO，皮查伊的成功充滿了勵(lì)志色彩，激勵(lì)著世界許多寒門子弟奮發(fā)前進(jìn)。

Google搜索引擎、谷歌Chrome、Chrome OS、地圖、Gmail、Android都是在他的帶領(lǐng)下壯大的，人稱劈柴哥!

谷歌的工程師文化在他手里被發(fā)揚(yáng)到了極致，一個(gè)重要的行事規(guī)則是——?dú)㈦u要用牛刀，集重兵狂投入優(yōu)化產(chǎn)品功能性到極點(diǎn)。

Chrome瀏覽器就是這個(gè)邏輯的經(jīng)典產(chǎn)品，核心功能細(xì)節(jié)比同行強(qiáng)的時(shí)候，用戶蜂擁而至。

工程師文化，就是這點(diǎn)好，拼產(chǎn)品功效功能細(xì)節(jié)，沒有花哨，比不過別人就是比不過別人，沒有廢話連篇的自我遮羞布。

市場(chǎng)用戶最公平，不管競(jìng)爭(zhēng)是否激烈，不管條件是否艱苦，不管舞臺(tái)大小，不看你演戲演技演給誰看。

就看產(chǎn)品本身實(shí)用性說話。

不行，千萬別浪費(fèi)觀眾時(shí)間，大家都不傻，煩了，人家真會(huì)扔臭雞蛋香蕉皮砸人的。

02谷歌翻譯、谷歌地圖

在翻譯領(lǐng)域，谷歌已經(jīng)要超神!

谷歌宣布，谷歌翻譯增加了對(duì)24種新語(yǔ)言的支持，深度神經(jīng)網(wǎng)絡(luò)算法功不可沒!

大概全世界所有主流語(yǔ)言都能支持翻譯了。

在視頻領(lǐng)域，YouTube視頻已經(jīng)支持了16種語(yǔ)言的實(shí)時(shí)翻譯。YouTube去年已經(jīng)可以自動(dòng)生成章節(jié)分段?，F(xiàn)在通過語(yǔ)音/視頻腳本分析等，讓這種分段更準(zhǔn)確，數(shù)量也會(huì)達(dá)到8千萬段。

在NLP(自然語(yǔ)言處理)領(lǐng)域，谷歌的AI技術(shù)可以對(duì)文字段落進(jìn)行更好的理解、總結(jié)，并幫助用戶快速找到重點(diǎn)信息。

谷歌地圖(Google Maps)，進(jìn)一步完善了地圖數(shù)據(jù)，谷歌的心氣自然是讓全世界都能用谷歌地圖，所以這次人家表態(tài)，已經(jīng)能讓非洲等偏遠(yuǎn)地區(qū)使用了。

有一說一，谷歌地圖的細(xì)節(jié)處理非常優(yōu)秀。據(jù)官方說，已經(jīng)開始大規(guī)模應(yīng)用3D航拍、AI智能等技術(shù)，以此來確保導(dǎo)航、搜索等功能的準(zhǔn)確性。

同時(shí)，3D繪圖和機(jī)器學(xué)習(xí)等+航拍，讓沉浸式實(shí)景地圖更逼真完整。

會(huì)上，谷歌也公布了關(guān)于地圖應(yīng)用的最新數(shù)據(jù)：已在全球范圍內(nèi)繪制超16億座建筑和6000萬公里的道路。

03多重維度AI搜索

谷歌核心產(chǎn)品是搜索引擎。

2022這產(chǎn)品又添加了什么黑科技功能?

在之前，搜索是類似查詢的方式，你輸入文字，它給出一堆相應(yīng)結(jié)果。

現(xiàn)在，用戶的要求多了，也復(fù)雜了。

例如用戶會(huì)上傳一張圖片、一段小視頻，甚至一段鳥叫聲，問圖片里、視頻里的是什么鳥類?

這種問題不再是文字，而是圖片、視頻影音、文字的多維度結(jié)合。

這就是最新的技術(shù)“圖像檢索+識(shí)別”，比傳統(tǒng)文字檢索識(shí)別更難更復(fù)雜。

這屬于多重搜索，也是谷歌這些年發(fā)力的重點(diǎn)。

簡(jiǎn)單的說，“多重搜索”利用AI多模型理解，去理解人們的搜索意圖，并用直觀的方式體現(xiàn)。

一個(gè)實(shí)例來說，在巧克力店去尋找“不含堅(jiān)果黑巧克力”，用戶要做的是采用手機(jī)鏡頭去掃描貨架，找到指定的產(chǎn)品。

鏡頭去識(shí)別物體-加入篩選條件-呈現(xiàn)出結(jié)果。

這是圖像識(shí)別+篩選結(jié)果的過程，仍舊是一種搜索，但已經(jīng)跟之前的搜索引擎體驗(yàn)完全不同。

整個(gè)視頻檢索體驗(yàn)與以往理解傳統(tǒng)文字框搜索很不一樣。

知情郎對(duì)這搜索應(yīng)用技術(shù)嘆為觀止。

在德高行全球?qū)＠麛?shù)據(jù)庫(kù)中，以圖像檢索+識(shí)別為關(guān)鍵詞，在谷歌全球?qū)＠餀z索了相關(guān)專利，以數(shù)量看，中國(guó)專利60件，包括發(fā)明公開32件、發(fā)明授權(quán)28件;美國(guó)專利205件，包括發(fā)明公開83件、發(fā)明授權(quán)122件

下表為9件為谷歌近期公開圖像檢索+識(shí)別領(lǐng)域的專利。

這些專利含金量都非常大，谷歌的目標(biāo)是“用任何方式在任何地方進(jìn)行搜索”，所以研究多維搜索，尤其是通過手機(jī)自帶的攝像頭視頻拍攝識(shí)別這種模式，大概率會(huì)成為主流搜索應(yīng)用之一。

04谷歌AI語(yǔ)音助手Google Assistant

手機(jī)帶AI語(yǔ)音助手，已經(jīng)成了行業(yè)慣例。

國(guó)內(nèi)比較成熟的就是百度語(yǔ)音助手小度，能幫助用戶處理一些簡(jiǎn)單的操作指令。

谷歌的AI語(yǔ)音助手則是Google Assistant，谷歌稱，在AI對(duì)話能力技術(shù)領(lǐng)域，全球每天有7億人都在使用Google Assistant。

在開發(fā)者大會(huì)上，谷歌發(fā)布了“Look and Talk”功能，用戶不再必須通過“Hi Google”喚醒設(shè)備。用戶可以通過注視并直接講話與語(yǔ)音助手進(jìn)行交流。

你只需要看著設(shè)備屏幕上的前置攝像頭，并說出需求，語(yǔ)音助手就會(huì)進(jìn)行應(yīng)答。

另外，用戶可以直接通過一些快捷短語(yǔ)控制語(yǔ)音助手，進(jìn)行一些事項(xiàng)的處理，比如上個(gè)鬧鐘、關(guān)個(gè)燈。

谷歌的核心目的，就是讓用戶可以與語(yǔ)音助手交互的更自然。

值得一提的是，在開放式對(duì)話處理方面，谷歌進(jìn)一步優(yōu)化了神經(jīng)網(wǎng)絡(luò)模型，語(yǔ)音助手甚至可以對(duì)非連續(xù)的對(duì)話進(jìn)行理解。

比如用戶說話的時(shí)候即使磕巴、語(yǔ)句斷斷續(xù)續(xù)，語(yǔ)音助手還是可以聽懂用戶的意思。

▲AI會(huì)去掉語(yǔ)句中的“停頓”和“卡殼”

去年谷歌發(fā)布了生成語(yǔ)言模型LaMDA，谷歌今年將其迭代為L(zhǎng)aMDA 2，并向一些谷歌員工開放測(cè)試。

LaMDA甚至學(xué)會(huì)了“想象”，比如當(dāng)用戶說，“想象世界上最深的海是什么樣子”，LaMDA會(huì)找到馬里亞納海溝。

此外，用戶還可以與LaMDA圍繞某一話題展開討論，LaMDA會(huì)一直圍繞這一話題進(jìn)行回答。

比如討論關(guān)于“狗”的話題，LaMDA的回答都會(huì)圍繞狗來展開。

谷歌在發(fā)布會(huì)上也提到了近期發(fā)布的PaLM大模型，該模型包含5400億參數(shù)，它可以解答數(shù)學(xué)問題，甚至可以解釋一個(gè)笑話。

PaLM可以用沒有訓(xùn)練過的語(yǔ)言回答用戶提出的問題，打破語(yǔ)言的邊界。

谷歌在大會(huì)上宣布，他們將為谷歌云客戶提供全球最大的開放機(jī)器學(xué)習(xí)中心，該數(shù)據(jù)中擁有9 exaFLOPS的算力。

另外，Android 13今年發(fā)布。

05谷歌手機(jī)

大家比較的關(guān)心也是這個(gè)。

首先是谷歌Pixel 6a，它是旗艦Pixel 6的“青春版”，依舊是谷歌自研芯片Tensor ，也依舊支持5G，還有Android 13系統(tǒng)。

外觀設(shè)計(jì)類似，但看起來沒那么高端(應(yīng)該是塑料材質(zhì))，背后是1200萬像素的雙鏡頭系統(tǒng)，價(jià)格更低了只要449美元起，走的是平民廉價(jià)路線。

有一說一，谷歌這思路是挺政治正確的，在中高端市場(chǎng)，蘋果在美國(guó)的統(tǒng)治力過大，死磕沒必要，不如學(xué)當(dāng)年的小米，繼續(xù)走低價(jià)傾銷策略，專注低端市場(chǎng)擴(kuò)銷量是真。

這手機(jī)7月21日預(yù)售，7月28日上市。

這款手機(jī)跟之前所有Pixel手機(jī)一樣，是Android系統(tǒng)和剛才講那一大票AI技術(shù)+算法的硬件體現(xiàn);或者說是谷歌技術(shù)的硬件軀殼。

06新款A(yù)R眼鏡

在開發(fā)者大會(huì)末尾，公司透露，它正在開發(fā)一副新的增強(qiáng)現(xiàn)實(shí)智能眼鏡，旨在“打破溝通障礙”。

外形和普通眼鏡類似，減少了佩戴者的突兀感。

功能方面，谷歌AR眼鏡可以直接看到翻譯在眼前的語(yǔ)言，非?？?。相當(dāng)于直接給你加字幕解讀外文影視劇!

但谷歌沒有透露該設(shè)備的具體名稱，也沒有說什么時(shí)候會(huì)向消費(fèi)者發(fā)布。

谷歌AR眼鏡天天在講故事，講了好多年，就是沒看見好的應(yīng)用產(chǎn)品，大家等的黃花菜都涼了。

這行業(yè)競(jìng)爭(zhēng)也激烈，Meta、蘋果、三星、微軟等科技巨頭都陸續(xù)透露正在研究或者即將推出AR眼鏡產(chǎn)品。

不過，據(jù)媒體報(bào)道，谷歌之前收購(gòu)了Raxium，這是一家專注于開發(fā)針對(duì)AR/VR/MR設(shè)備應(yīng)用的單片集成式RGB Micro LED微顯示器公司，很明顯，谷歌收購(gòu)這家公司也是為了提高AR設(shè)備的適用性，看來，這次人家有備而來。

知情郎專門查了下公司專利，在德高行全球?qū)＠麛?shù)據(jù)庫(kù)中，關(guān)于google的AR眼鏡專利，中國(guó)專利43件，包括發(fā)明公開21件、發(fā)明授權(quán)7件、外觀設(shè)計(jì)15件。美國(guó)專利124件，包括發(fā)明公開60件、發(fā)明授權(quán)57件、外觀設(shè)計(jì)7件。

看了眼谷歌4月底公布的最新智能眼鏡專利，這專利除了賦予眼鏡用戶傳統(tǒng)的所示視圖外，還增加了將信息(例如，數(shù)字圖像)疊加至視場(chǎng)并基于例如光學(xué)頭戴式顯示屏(OHMD)、兼具透明頭戴式顯示屏(HUD)嵌入式無線眼鏡進(jìn)行AR視圖覆蓋，總而言之，現(xiàn)代智能眼鏡實(shí)際上可以是運(yùn)行獨(dú)立移動(dòng)應(yīng)用程序的可穿戴電腦，并能支持用戶通過免提、自然語(yǔ)言語(yǔ)音命令以及觸屏功能按鈕與互聯(lián)網(wǎng)通信。

外媒的原話是：谷歌正在開發(fā)的智能眼鏡兼具了AR功能，可呈現(xiàn)融合了真實(shí)和虛擬圖像的增強(qiáng)現(xiàn)實(shí)視圖，與谷歌之前推出的智能眼鏡相比，顯然這款眼鏡具有更好的性能，其配置的高質(zhì)量攝像頭模塊和3D傳感模塊將在虛擬圖像與現(xiàn)實(shí)世界的融合中發(fā)揮著關(guān)鍵作用。

至于現(xiàn)實(shí)效果，誰用誰知道!沒見過成品，啥都不說!

07視覺搜索查詢的智能系統(tǒng)

分享個(gè)谷歌AI搜索技術(shù)研發(fā)方面的最新專利，視頻檢索+識(shí)別是它最新發(fā)力點(diǎn)。

一般而言，本公開涉及一種計(jì)算機(jī)實(shí)現(xiàn)的視覺搜索系統(tǒng)，可以用于檢測(cè) 和識(shí)別視覺查詢中的對(duì)象或與視覺查詢相關(guān)的對(duì)象，然后提供響應(yīng)視覺查詢的更個(gè)性化和/或智能的搜索結(jié)果(例如，在增強(qiáng)視覺查詢的覆蓋中)。

例如，用戶可以提交包括一個(gè)或多個(gè)圖像的視覺查詢。在視覺查詢中或與視覺查詢相關(guān)，各種處理技術(shù)(諸如光學(xué)字符識(shí)別(OCR)技術(shù))可以用于識(shí)別文本 (例如，在圖像、周圍圖像中等)和/或各種對(duì)象檢測(cè)技術(shù)(例如，機(jī)器學(xué)習(xí) 對(duì)象檢測(cè)模型等)可以用于檢測(cè)對(duì)象(例如，產(chǎn)品、地標(biāo)、動(dòng)物、人類等)。

可以識(shí)別與檢測(cè)的文本或?qū)ο?或多個(gè))相關(guān)的內(nèi)容，并可以將其作為搜索結(jié)果提供給用戶。因此，本公開的方面使得視覺搜索系統(tǒng)能夠更智能地處理視覺查詢以提供改進(jìn)的搜索結(jié)果，包括更個(gè)性化和/或考慮情境信號(hào)的搜索結(jié) 果來解釋視覺查詢和/或用戶搜索意圖的隱式特征。

本公開的示例方面響應(yīng)于視覺查詢提供了更智能的搜索結(jié)果。

視覺查詢可以包括一個(gè)或多個(gè)圖像。例如，在視覺查詢中包括的圖像可以是同時(shí)捕獲的圖像，也可以是先前存在的圖像。

在一個(gè)示例中，視覺查詢可以包括單個(gè)圖像。在另一示例中，視覺查詢可以包括來自大約三秒視頻捕獲的十個(gè)圖像幀。

在又一示例中，視覺查詢可以包括圖像的圖像庫(kù)，例如，包括在用戶的照片庫(kù)中的所有圖像。

例如，諸如庫(kù)可以包括用戶最近捕獲的動(dòng)物園動(dòng)物的圖像、用戶不久前捕獲的貓的圖像(例如，兩個(gè)月前)以及用戶從現(xiàn)有來源 (例如，從網(wǎng)站或屏幕捕獲)保存到庫(kù)中的老虎的圖像。這些圖像可以代表用戶的一組高親和力圖像，并體現(xiàn)(例如，通過圖形)用戶可能對(duì)類似動(dòng)物的事物具有“視覺興趣”的抽象想法。

任何給定的用戶都可能有許多這樣的節(jié)點(diǎn)集群，每個(gè)節(jié)點(diǎn)集群代表的是無法很好地被詞捕獲的興趣。

根據(jù)一個(gè)示例方面，視覺搜索系統(tǒng)可以構(gòu)建并利用用戶中心視覺興趣圖來提供更個(gè)性化的搜索結(jié)果。在一個(gè)示例使用中，視覺搜索系統(tǒng)可以使用用戶興趣圖來過濾視覺發(fā)現(xiàn)通報(bào)、通知或其他機(jī)會(huì)。

因此，在示例性實(shí)施例中，在搜索結(jié)果在查詢圖像的增強(qiáng)覆蓋中呈現(xiàn)為視覺結(jié)果通知(例如，在某些情況下可稱為“閃光(gleams)”)的示例性實(shí)施例中，基于用戶興趣的搜索結(jié) 果的個(gè)性化可能特別有利。

更具體地，在一些實(shí)現(xiàn)中，視覺搜索系統(tǒng)可以包括或提供增強(qiáng)覆蓋用戶界面，用于為搜索結(jié)果提供視覺結(jié)果通知，作為視覺查詢中包括的圖像的覆蓋。

例如，視覺結(jié)果通知可以在和與搜索結(jié)果相關(guān)的圖像部分相對(duì)應(yīng)的位置提供(例如，視覺結(jié)果通知可以顯示在與對(duì)應(yīng)搜索結(jié)果相關(guān)的對(duì)象的“頂部”)。因此，響應(yīng)于視覺搜索查詢，可以識(shí)別多個(gè)候選搜索結(jié)果，并且多個(gè)候選視覺結(jié)果通知可以分別與多個(gè)候選搜索結(jié)果相關(guān)聯(lián)。然而，在底層視覺搜索系統(tǒng)功能強(qiáng)大且范圍廣泛的情況下，大量候選視覺結(jié)果通知可能可用，使得所有候選視覺結(jié)果通知的呈現(xiàn)將導(dǎo)致用戶界面混亂地?fù)頂D或以其他方式不希望地模糊基礎(chǔ)圖像。

因此，根據(jù)本公開的一個(gè)方面，計(jì)算機(jī)視覺搜索系統(tǒng)可以構(gòu)建并利用用戶中心視覺興趣圖來基于觀察的用戶視覺興趣對(duì)候選視覺結(jié)果通知進(jìn)行排名、選擇和/或過濾，從而提供更直觀和簡(jiǎn)化的用戶體驗(yàn)。

在一些實(shí)現(xiàn)中，用戶特定興趣數(shù)據(jù)(例如，可以使用圖表示)可以至少部分地通過分析用戶過去參與的圖像隨時(shí)間聚合。

換言之，計(jì)算系統(tǒng)可以通過分析用戶隨時(shí)間參與的圖像來嘗試?yán)斫庥脩舻囊曈X興趣。當(dāng)用戶參與圖像時(shí)，可以推斷圖像的某些方面是用戶感興趣的。因此，可以在用戶特定興趣數(shù)據(jù)(例如，圖)中添加或以其他方式標(biāo)注包括在此類圖像中或與此類圖像相關(guān)的項(xiàng)(例如，對(duì)象、實(shí)體、概念、產(chǎn)品等)。