當(dāng)前位置:首頁 > 芯聞號(hào) > 充電吧
[導(dǎo)讀]前不久,百度大腦推出了包括語音技術(shù)、視覺技術(shù)、自然語言處理、知識(shí)圖譜等在內(nèi)的通用AI能力,以及開源深度學(xué)習(xí)框架方面的優(yōu)化升級(jí)。與此同時(shí),人工智能已經(jīng)連續(xù)三年進(jìn)入政府報(bào)告、“智能+”成為2019年行業(yè)的

前不久,百度大腦推出了包括語音技術(shù)、視覺技術(shù)、自然語言處理、知識(shí)圖譜等在內(nèi)的通用AI能力,以及開源深度學(xué)習(xí)框架方面的優(yōu)化升級(jí)。與此同時(shí),人工智能已經(jīng)連續(xù)三年進(jìn)入政府報(bào)告、“智能+”成為2019年行業(yè)的新命題。

了解到,百度大腦自2016年啟動(dòng)開放以來,目前已經(jīng)是服務(wù)規(guī)模最大的AI開放平臺(tái)。共計(jì)開放了158項(xiàng)AI能力,24小時(shí)快速集成,開發(fā)者數(shù)量超過100萬。面向廣泛的企業(yè)和開發(fā)者提供最先進(jìn)、最全面的AI能力,不斷降低AI應(yīng)用落地的門檻。

語音方面

在今年1月的百度輸入法探索版發(fā)布會(huì)上,首次發(fā)布了領(lǐng)先國際的語音技術(shù):在線語音領(lǐng)域全球首創(chuàng)的流式多級(jí)截?cái)嘧⒁饬δP蚐MLT「Streaming trancated multi-layer attention」。值得注意的是,這是首次在大規(guī)模語音識(shí)別工業(yè)界采用注意力(attention)模型。

提升識(shí)別率的同時(shí)大幅優(yōu)化了解碼速度?!罢Z音識(shí)別極速版”,擁有更快的響應(yīng)速度,相對(duì)識(shí)別準(zhǔn)確度提升15%。此項(xiàng)語音能力在API調(diào)用方式下,實(shí)時(shí)率小于0.1,意味著5s的音頻不到500ms即可完成識(shí)別過程,減少了識(shí)別音頻所需的耗時(shí),提升語音交互的響應(yīng)體驗(yàn)。

在近距離安靜環(huán)境下,識(shí)別準(zhǔn)確率可達(dá)到98%,同時(shí)支持略帶口音、童聲、耳語的識(shí)別,使語音識(shí)別應(yīng)用更加廣泛。多平臺(tái)的SDK也即將推出,使APP、服務(wù)器端更可實(shí)時(shí)識(shí)別,應(yīng)用這一領(lǐng)先技術(shù)。目前,每個(gè)開發(fā)者賬戶將贈(zèng)送5W次免費(fèi)調(diào)用量,針對(duì)新能力的使用者,也即將推出一系列贈(zèng)送及優(yōu)惠活動(dòng)。

同時(shí),近場語音識(shí)別升級(jí)了預(yù)置語義解析。預(yù)置場景由35個(gè)升級(jí)為51個(gè),包括天氣、航班、電話、電影播放、頁面屏幕控制、電視劇、美食、手機(jī)設(shè)置、通用錄、提醒、短信、故事等,語義解析效果全面優(yōu)化,80%優(yōu)于原有解析結(jié)果。

百度大腦稱以下新品也將推出,例如:語音識(shí)別自訓(xùn)練平臺(tái),支持自動(dòng)評(píng)估選出最好的基線模型,僅上傳業(yè)務(wù)場景文本語料即可訓(xùn)練語言模型,零代碼自助訓(xùn)練專屬的語音識(shí)別模型,極大地方便語音開發(fā)者提升所在業(yè)務(wù)場景的識(shí)別準(zhǔn)確率,滿足業(yè)務(wù)上的語音識(shí)別需求。

另外,遠(yuǎn)場語音開發(fā)套件,可快速進(jìn)行遠(yuǎn)場識(shí)別開發(fā)評(píng)估,此套件應(yīng)用于機(jī)器人、兒童故事機(jī)、家電、車載設(shè)備等硬件。同時(shí)還將開放離線合成,以及推出更多音庫。

視覺方面

首先,在OCR方面:

新增了卡證OCR 4個(gè)新能力:戶口本OCR、出生醫(yī)學(xué)證明OCR、港澳通行證OCR、臺(tái)灣通行證OCR,總數(shù)達(dá)到9種;

新增票據(jù)OCR 4個(gè)新能力:行程單OCR、保單識(shí)別OCR、通用機(jī)打發(fā)票O(jiān)CR,定額發(fā)票O(jiān)CR,總數(shù)達(dá)到9種;

汽車場景3個(gè)新能力:車輛VIN OCR、機(jī)動(dòng)車銷售發(fā)票O(jiān)CR、車輛合格證OCR,總數(shù)達(dá)到6種。這些OCR新能力在關(guān)鍵字段的準(zhǔn)確率均在90%以上,并有多項(xiàng)是業(yè)界首次平臺(tái)化開放。至此,OCR產(chǎn)品全系列共34款,實(shí)現(xiàn)卡證、票據(jù)、文檔、汽車全場景覆蓋。

對(duì)已有的OCR能力也進(jìn)行了功能升級(jí):表格識(shí)別:支持合并單元格、無表格線等復(fù)雜樣式;iOCR 自定義模版文字識(shí)別:支持列寬不固定、有合并單元格的表格樣式的定制識(shí)別;駕駛證識(shí)別:支持駕駛證副頁的識(shí)別。

其次,在車輛分析方面,推出包括車輛檢測、車流統(tǒng)計(jì)、車輛屬性分析和外觀損傷識(shí)別。

車輛檢測,通過識(shí)別圖像中的所有機(jī)動(dòng)車輛(包含小汽車、卡車、巴士、摩托車、三輪車),返回每輛車的類型和坐標(biāo)位置,并對(duì)每類車輛分別計(jì)數(shù),可應(yīng)用于違章停車監(jiān)測和智能停車場。

車流統(tǒng)計(jì),則根據(jù)視頻抓拍圖片序列,進(jìn)行車輛檢測和追蹤,識(shí)別各類車輛(包括小汽車、卡車、巴士、摩托車、三輪車)在指定區(qū)域內(nèi)的駛?cè)?駛出情況,實(shí)現(xiàn)動(dòng)態(tài)車流統(tǒng)計(jì),可應(yīng)用于實(shí)時(shí)監(jiān)控交通道路、卡口的車流量,自動(dòng)統(tǒng)計(jì)不同時(shí)段各類車輛的進(jìn)出數(shù)量,分析路口、路段的交通狀況,為交通調(diào)度、路況優(yōu)化提供精準(zhǔn)參考依據(jù)。

車輛屬性分析和外觀損傷識(shí)別兩項(xiàng)服務(wù),也即將開放。

最后,在人臉人體識(shí)別方面,新發(fā)布了情緒識(shí)別,可以準(zhǔn)確識(shí)別7類情緒:生氣、害怕、厭惡、高興、悲傷、驚訝、無情緒。

此項(xiàng)技術(shù)可應(yīng)用于幼兒園安全監(jiān)控等場景,通過監(jiān)控孩子的心理狀態(tài),判斷教師和幼兒是否有異常狀況,從而保障幼兒安全、及時(shí)預(yù)警并參與輔導(dǎo)等。

同時(shí),人臉融合以及手部關(guān)鍵點(diǎn)將在3月推出。此外還有2項(xiàng)功能全新升級(jí),包括:人臉檢測快速檢測人臉并返回人臉框位置、定位五官與輪廓關(guān)鍵點(diǎn)數(shù)量,從72個(gè)增加至150個(gè);新增2種手勢,共24種常見手勢,整體識(shí)別率在90%以上,使得手勢識(shí)別更豐富、更準(zhǔn)確;而即將上線的更高進(jìn)精度的人像分割,可應(yīng)用于人像美圖、影視后期等場景。

圖像識(shí)別方面,新增紅酒識(shí)別和地標(biāo)識(shí)別這2個(gè)新能力。通過紅酒識(shí)別,用戶只需要對(duì)著紅酒標(biāo)簽拍照,系統(tǒng)就能自動(dòng)識(shí)別紅酒的品牌和名稱,目前可識(shí)別數(shù)十萬種國內(nèi)外紅酒,識(shí)別準(zhǔn)確率98%以上,從法國波爾多到中國張?jiān)#唐沸畔⒍寄艿玫綔?zhǔn)確關(guān)聯(lián)。

地標(biāo)識(shí)別則能夠精準(zhǔn)識(shí)別約5萬中外著名地標(biāo)、景點(diǎn),準(zhǔn)確率高達(dá)94%以上。用戶只需要拍攝包含國內(nèi)外著名景點(diǎn)、地標(biāo)的照片,系統(tǒng)就能自動(dòng)生成足跡、圖文博客等有意思的交互內(nèi)容。

百度大腦還宣布即將上線邀測錢幣識(shí)別功能。該功能可以精準(zhǔn)識(shí)別中外錢幣,支持?jǐn)?shù)百類幣種、數(shù)千種面額,識(shí)別準(zhǔn)確率98%以上,不僅能夠提升金融機(jī)構(gòu)貨幣兌換的效率,也能讓“外幣騙局”無處藏身。目前,百度大腦的圖像識(shí)別種類已經(jīng)多達(dá)11種。

語言及知識(shí)方面

了解到,百度大腦語言及知識(shí)方向能力集,共包括語言處理應(yīng)用平臺(tái)、語言處理應(yīng)用技術(shù)、語言處理基礎(chǔ)技術(shù)、知識(shí)理解以及知識(shí)圖譜。

語言處理應(yīng)用技術(shù)方面,推出新能力:

文本糾錯(cuò),識(shí)別文本中有錯(cuò)誤的片段,進(jìn)行錯(cuò)誤提示并給出正確的建議文本內(nèi)容;

新聞?wù)瑢?duì)新聞內(nèi)容進(jìn)行全面的語義理解與分析,自動(dòng)抽取新聞文本中的關(guān)鍵信息并按指定長度生成摘要,可應(yīng)用于熱點(diǎn)新聞聚合、新聞推薦、語音播報(bào)、APP消息Push等場景;

智能寫詩,用戶只需要輸入任意主題詞(如公司名、節(jié)氣名),機(jī)器便可自動(dòng)生成融合了該主題詞的詩詞;

智能春聯(lián),用戶輸入任意主題詞(如自己的名字),機(jī)器可自動(dòng)生成融合了該主題詞的春聯(lián),可以應(yīng)用在企業(yè)互動(dòng)營銷、APP春節(jié)互動(dòng)活動(dòng);

對(duì)話情緒識(shí)別,可以針對(duì)一段對(duì)話文本,自動(dòng)識(shí)別出當(dāng)前會(huì)話者所表現(xiàn)出的情緒類別。

在知識(shí)理解方面,推出新能力:

作文檢索,有數(shù)萬篇作文范文,可支持按文體、字?jǐn)?shù)、年級(jí)、常見主題等進(jìn)行查詢檢索,可應(yīng)用在少兒教育產(chǎn)品(如學(xué)習(xí)機(jī))、圖書館等場景;

知識(shí)問答,可提供娛樂、人物、教育、影視、綜藝、動(dòng)漫、小說、文學(xué)作品等垂類的問答能力,以及日期歷法、年齡差、算數(shù)、時(shí)間時(shí)區(qū)差等推理計(jì)算能力,可應(yīng)用于智能音箱、兒童故事機(jī)、泛娛樂產(chǎn)品等場景。

不久后,智能寫作平臺(tái)也將上線,將從素材上為創(chuàng)作者提供工具、幫助找到靈感,提升創(chuàng)作者的寫作效率和產(chǎn)出質(zhì)量,降低寫作成本。

深度學(xué)習(xí)

了解到,2016年,百度開源了深度學(xué)習(xí)框架PaddlePaddle。近期,百度大腦對(duì)PaddlePaddle進(jìn)行了更新:

視頻分類模型庫:核心框架Paddle Fluid v1.3新增視頻模型庫,提供5個(gè)視頻分類經(jīng)典模型以及適合視頻分類任務(wù)的通用骨架代碼,用戶可一鍵式高效配置模型完成訓(xùn)練和評(píng)測。視頻理解權(quán)威競賽ActivityNet - Kinetics視頻動(dòng)作識(shí)別任務(wù)冠軍方法stNet的resnet50版本開源實(shí)現(xiàn)。

基于PaddlePaddle的BERT多機(jī)多卡和混合精度訓(xùn)練,新增支持NLP語義表示BERT模型,支持多機(jī)多卡訓(xùn)練,支持混合精度訓(xùn)練,訓(xùn)練速度對(duì)比主流實(shí)現(xiàn)提升50%+,提供完整部署示例。

提升分布式訓(xùn)練性能:大規(guī)模稀疏參數(shù)服務(wù)器Benchmark發(fā)布,CPU多機(jī)異步訓(xùn)練發(fā)布顯著提升點(diǎn)擊率預(yù)估任務(wù)IO吞吐的built-in reader,多機(jī)多卡訓(xùn)練性能多方面提升。

推出深度強(qiáng)化學(xué)習(xí)框架PARL1.0,支持可定制的并行擴(kuò)展,覆蓋DQN、DDPG、PPO、A3C等主流強(qiáng)化學(xué)習(xí)算法。通過8塊GPU拉動(dòng)近20000個(gè)CPU節(jié)點(diǎn)運(yùn)算,將近5個(gè)小時(shí)迭代一輪的PPO算法加速到不到1分鐘。


本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉