科技改變生活將會貫穿科技發(fā)展的整個過程,不同的技術(shù)會給生活帶來不同程度的變化,并且不同的群體在相同的時間也會感受到不一樣的變化。如今,不少人正在期待VR和AR技術(shù)帶來的不一樣的視覺體驗以及AI技術(shù)帶來的便利生活。但對于部分特殊人群而言,他們因為聽說看的障礙離科技有著遙遠的距離。
不過,國內(nèi)外的科技巨頭們都在努力通過無障礙科技改變他們的世界。更讓人興奮的是,騰訊和Facebook已經(jīng)用上了AI技術(shù),這將有何不一樣?
科技巨頭們跨越兩個時代的無障礙科技
在手機成為人們活中不可缺少的一部分之前,PC的普及改變了我們獲取信息、工作和生活的方式。Windows作為全球使用最廣泛的PC操作系統(tǒng),微軟也早已在系統(tǒng)中加入了不少針對視覺、顏色識別、聽覺、讀寫能力等人群的輔助功能,主要是為鍵盤交互和屏幕閱器提供支持,為用戶自定義(如文字、縮放設(shè)置、顏色和高對比度)提供支持,為UI某些部分提供替換選項或候補選項。
最新的操作系統(tǒng)Windows10中,微軟針對視覺障礙人群有屏幕閱讀器、高對比度主題、放大器等功能;聽力障礙的人群可以借助字幕了解試聽媒體內(nèi)容;行動障礙人群可以通過語音識別技術(shù)來解決使用問題。體驗方面,從微軟展示的視頻看,語音對屏幕內(nèi)容的描述速度對視覺障礙的用戶可能有些快,對沒有視覺障礙的人來說描述有顯得有些簡單。
移動互聯(lián)網(wǎng)時代,Android和iOS統(tǒng)治著市場,因此谷歌和蘋果也都在自家的系統(tǒng)中加入了輔助功能。Android的無障礙功能有屏幕閱讀器,通過觸目和語音反饋實現(xiàn)與設(shè)備的互動;還有顯示的更改設(shè)置,包括字體大小、放大功能以及顯示的對比度和顏色;互動控件則是借助語音打開應(yīng)用和進行導航及修改文字;還可以通過藍牙將可刷新的盲文顯示屏連接到Android設(shè)備;也能為Android設(shè)備開啟字幕顯示功能及指定的字幕。當然,基于原生Android系統(tǒng)的無障礙功能,手機廠商和OEM也能再做無障礙功能的改進和創(chuàng)新。
有意思的是,iPhone上的無障礙功能曾被廣泛使用。由于早期iPhone Home鍵容易發(fā)生失靈的情況,不少iPhone用戶都開啟了輔助功能中的AssistiveTouch,這其實是蘋果為有肢體障礙的人群設(shè)計的功能,也是蘋果多個的無障礙功能之一。據(jù)了解,蘋果在iOS系統(tǒng)中加入針對殘障人群的功能可以追溯到2009年iPhone 3GS中的顏色反轉(zhuǎn),后來系統(tǒng)中又增加了專門為視障人士開發(fā)的屏幕閱讀技術(shù)VoiceOver、放大鏡等功能。如今的iOS系統(tǒng)針對視力、聽力、肢體與活動能力、學習與讀寫能力有障礙的人群都加入了輔助功能。
我們知道,蘋果在PC、移動領(lǐng)域都取得了不錯的成績,所以除了iOS系統(tǒng),蘋果PC使用的macOS系統(tǒng)中也包含屏幕和光標放大、全功能屏幕閱讀器、可視閃爍提醒、隱藏式字幕支持等輔助功能。還有值得一提的是,除了軟件方面的設(shè)計,蘋果在iPhone7和Apple Watch中內(nèi)置了Taptic引擎,通過振動向用戶提供觸覺反饋,這一設(shè)計結(jié)合Watch OS 3.0能為視覺障礙用戶報時。
社交巨頭融合AI的無障礙技術(shù)
可以看到,微軟、谷歌、蘋果都在自家系統(tǒng)中增加了輔助功能,為的是人數(shù)占比不大的殘障人士也能享受到科技帶來的便利,這些系統(tǒng)中的無障礙技術(shù)有諸多相似之處也各有一些差異,體驗也存在差別。
當然,僅有系統(tǒng)層面的無障礙技術(shù)還遠遠不夠,不同的應(yīng)用想要實現(xiàn)更好的體驗需要更有針對性的無障礙技術(shù)。值得注意的是,發(fā)現(xiàn)美國科技巨頭Facebook和中國社交巨頭騰訊都是率先將AI技術(shù)融入到無障礙科技的公司。
Facebook在打造的是無障礙環(huán)境的過程中,除了在應(yīng)用上兼容不同系統(tǒng)的無障礙功能,F(xiàn)acebook還將反饋融入AI系統(tǒng),讓視覺障礙的人群也能“讀懂”照片內(nèi)容。Facebook希望借助自家的Automatic Alt-Text (AAT)技術(shù),讓屏幕閱讀器用戶也能夠理解新聞推送中大部分甚至全部的圖像內(nèi)容。
國內(nèi)的社交巨頭騰訊同樣也在兼容PC和手機設(shè)備系統(tǒng)的基礎(chǔ)上,用AI技術(shù)幫助視障用戶“看到”圖片,破除他們的社交障礙。據(jù)悉,在QQ空間獨立版7.7安卓版的新功能中,有一個是用AI技術(shù)對圖片進行描述并自動朗讀。具體來說,使用安卓系統(tǒng)的視障用戶可以在QQ空間APP點擊圖片,讀屏軟件會朗讀出AI生成的一句圖片描述,借助科技可以“看到”網(wǎng)友分享的圖片,更深層參與到社交場景中。
QQ空間無障礙版本“圖片語音即時描述功能”
了解到,具備上述功能的QQ空間APP融入了來自騰訊AI Lab的圖像描述生成技術(shù),這項技術(shù)是騰訊AI Lab自主研發(fā)的強化學習算法,在國際頂級大賽MS COCO的該類別挑戰(zhàn)賽上排名第一,超越微軟和谷歌等公司。
或許在沒有視覺障礙的人群看來這個技術(shù)不夠“黑科技”,但從學術(shù)研究的角度來看,圖像描述生成的研究不僅僅需要理解圖像,更需要理解自然語言,這是一個跨學科跨模態(tài)的交叉研究課題,也是對深度神經(jīng)網(wǎng)絡(luò)的學習能力向多個數(shù)據(jù)域擴展的一步重要的探索。
騰訊 AI Lab 研發(fā)了新的強化學習算法(Reinforcement Learning)以進一步提高圖像描述生成的模型能力(原理如圖),相應(yīng)的圖像描述生成模型,采用了編碼器-解碼器(encoder-decoder)的框架,同時引入了注意力(attention)的機制。在解碼的過程中,AI Lab 創(chuàng)新性地使用了多階段的注意力機制,除了引入多階段的注意力機制,AI Lab 所研發(fā)的強化學習算法能進一步提升構(gòu)建的網(wǎng)絡(luò)模型的訓練效果,另外,針對此不可微的問題,AI Lab 使用強化學習算法訓練網(wǎng)絡(luò)模型以優(yōu)化這些衡量指標。
圖像描述生成(image captioning)
除了圖片描述,QQ還和優(yōu)圖團隊合作推出了OCR圖片文字提取功能。具體來說,只要打開手機QQ,長按對話框中的圖片選擇“提取圖中文字”,或是點擊“掃一掃”中的“文字提取”,就可以將圖片上的文字內(nèi)容智能識別成為可編輯的文本,讓視障用戶可以很方便地提取好友發(fā)的圖片上的文字。同時,OCR圖片文字提取功能可以實現(xiàn)多場景應(yīng)用落地,幫助視覺障礙用戶閱讀書籍、食品、藥品說明書等。
OCR圖片文字提取功能的背后是優(yōu)圖實驗室世界領(lǐng)先的深度學習技術(shù),它可以在任意版面下識別出整圖的文字,包括中英文、字母、數(shù)字、標點等共1000種標簽,并覆蓋到數(shù)十種字體,滿足生活中大部分場景的讀圖識字需求。
手機QQ OCR識別功能
在AI技術(shù)的加持下,視障用戶的社交痛點正在被解決。一位體驗了QQ空間自動識別圖片后“說出”文字描述的視障用戶說:“醫(yī)學不能讓我們復明,但或許科技可以?!绷硗猓晃缓弦曊嫌脩粢驗樽x屏軟件讀取QQ表情為空信息而困擾,為此手機QQ開發(fā)出表情讀取功能讓他不僅能與外界順暢溝通也能用表情表達內(nèi)心的想法。認為,隨著AI技術(shù)的加持,未來QQ將能夠更生動地讀取更多的表情包,讓視障人群能夠更好地使用表情包。
QQ表情讀取
用無障礙技術(shù)改變世界
騰訊用AI技術(shù)讓更多的視障用戶能夠更容易地進行社交,其實早在2009年騰訊就開始關(guān)注視障用戶使用情況,在PC中推動無障礙技術(shù)的改造,使QQ成為國內(nèi)盲人群體最主要的網(wǎng)絡(luò)社交平臺。2013年,手機QQ作為國內(nèi)首批支持無障礙特性的APP。2014年1月,騰訊公益慈善基金與致力推動信息無障礙的NGO一起組建了“視障信息無障礙工程師”團隊。
2017年,手機QQ共適配1934個無障礙特性,技術(shù)上推出OCR圖片文字提取功能、QQ表情讀取、安卓平臺安全支付、聲紋加好友、有效識別多條鏈接等無障礙功能。2018年3月,在中國殘疾人聯(lián)合會、中國盲人協(xié)會、中國互聯(lián)網(wǎng)協(xié)會信息無障礙工作委員會的支持下,QQ空間啟動“無障礙AI技術(shù)”對外開放項目,通過“多媒體AI平臺”小程序上的“無障礙AI”入口,首批開放包括OCR文字識別、語音合成、圖片轉(zhuǎn)語音三大無障礙AI 技術(shù)。
目前,騰訊旗下的QQ、QQ空間、微信、騰訊網(wǎng)、騰訊新聞、應(yīng)用寶、企鵝FM等大部分產(chǎn)品已針對殘障用戶實現(xiàn)專門優(yōu)化。值得一提的是,QQ和QQ空間相關(guān)功能在2018年使用量超過1.6億次,已經(jīng)成為國內(nèi)視障群體最主要的網(wǎng)絡(luò)社交平臺。
騰訊在這一領(lǐng)域的持續(xù)付出也得到了認可,法國當?shù)貢r間2018年12月3日,聯(lián)合國教科文組織(UNESCO)在巴黎頒發(fā)“數(shù)字技術(shù)增強殘疾人權(quán)能獎”,該獎項表彰“促進殘疾人包容發(fā)展,通過數(shù)字技術(shù)為殘疾人生活創(chuàng)造合理便利條件做出杰出貢獻”的個人和組織。需要指出的是,騰訊是亞洲首個獲獎的組織,也是全球范圍內(nèi)首家獲獎的企業(yè)。
小結(jié)
殘障人群數(shù)量只占全球人口總數(shù)的很小比例,但是我們欣慰的看到無論是主宰PC時代的Windows系統(tǒng)還是統(tǒng)治手機時代的Android和iOS都為殘障人群增加了輔助功能,社交巨頭騰訊和Facebook更是率先將AI技術(shù)應(yīng)用到自家的產(chǎn)品中,提升殘障人士的使用體驗,破除他們的社交障礙,讓所有人都能感受到科技改變生活,更是科技巨頭們用技術(shù)改變世界的一個舉動。
現(xiàn)在,我們不僅看到有越來越多公司的產(chǎn)品開始加入針對殘障人群的設(shè)計,也看到了騰訊早在2009年就開始關(guān)注視障用戶,希望用極致的產(chǎn)品體驗滿足所有人的社交需求,并且這個努力也得到了聯(lián)合國教科文組織的認可。