雪湖科技FPGA服務器,“顛覆”傳統(tǒng)芯片參數
90年代末21世紀初,高性能計算還是一個陽春白雪的行業(yè),項目看起來都十分前沿和酷炫,但很難創(chuàng)造商業(yè)價值。張強回憶,“要從科研機構、政府機構手上項目并從中賺錢,一直到回款,整個過程非常艱難?!?/p>
另一方面,民用市場已經成為英特爾奔騰多核處理器的天下,計算能力是完全溢出的,滿世界的聲音都是——“沒有必要買i7,買個i3、i5就夠用了”?!霸谶@種背景下,在民用市場上根本是找不到計算的需求。”張強談道,“所以盡管案例都很有開創(chuàng)性,但項目仍然沒法支撐下去。”
隨后,張強便投身熱鬧的C端市場。在2014年,和朋友等人一起創(chuàng)辦樂蝸VR,推出基于虛擬現實技術的頭盔及軟件應用。該公司在2016年年中被華人文化旗下的微鯨收購。在微鯨,張強遇到了同為半導體行業(yè)背景,此前在日本富士通擔任亞太區(qū)市場總經理的王韻。
回顧過去十余年的同構計算發(fā)展路線,工藝與應用規(guī)模高速發(fā)展,核心架構卻沒有發(fā)生太大變化。與此同時,CPU發(fā)展所主要依賴的半導體工藝紅利卻在消失?!澳柖墒Ш驝PU的發(fā)展路線將會平緩,算力將會出現缺口,需要GPU、FPGA、ASIC等異構芯片去填補?!被谕粋€判斷,張強和王韻開始了異構計算的創(chuàng)業(yè)征途,并找了曾經在超算領域一同打拼的伙伴。
雪湖科技核心團隊,從左往右依次是創(chuàng)始人兼CEO 張強、COO 王韻、系統(tǒng)專家 趙小吾、算法專家 楊付收
張強認為,基于數十年的研發(fā)經驗,雪湖團隊對FPGA的理解更為深刻?!拔覀兪欠浅T缙谝慌完P注到FPGA應用的人,我們了解將算法本身固化到硬件電路將會對其執(zhí)行效率帶來的巨大潛力。并且我們通過早期的大量案例證明了這個觀點?!?/p>
對于以ASIC為主的另一條AI芯片路線,張強認為ASIC芯片面臨的巨大痛點在于攤銷的成本太大。比如,7nm的研發(fā)高達投入3億美金,至少要百萬片的銷量才能攤銷掉高昂的成本。
基于王韻此前在富士通的工作經驗和資源,雪湖團隊首先從云端計算應用需求強烈的手機客戶切入。 2017年年中的一次機會,雪湖團隊向美圖CTO張偉介紹了其基于FPGA的AI算法加速技術。張偉頗感興趣,次日便從廈門飛到上海與雪湖團隊當面交流。
為應對美圖10億級的在線用戶的實時需求,美圖近年來重點投入研發(fā)力量在神經網絡計算加速領域,特別設立美圖影像實驗室MT Lab,在算法層面取得一定突破。但如何將算法以較低成本移植到芯片上是當時面臨的一大難題。
在了解到美圖的具體需求后,雪湖團隊開始全力投入推進CNN加速接解決方案。與此同時,雪湖科技的公司設立和團隊組建等工作也開始有條不紊地展開。今年6月,美圖的FPGA加速神經網絡計算項目正式落地。
雪湖科技FPGA服務器
該方案正在逐步替代美圖云計算中心的昂貴且大功耗的GPU服務器。張強介紹,“英偉達的數據中心GPU平均在1萬美金左右,算力約為35T;我們即將要升級的服務器1U算力能達到400T,成本只要3000美金?!?/p>
目前,雪湖團隊規(guī)模約為20人左右,定位于為上下游賦能,上游對接FPGA芯片廠商,同時連接下游的應用廠商。年初,雪湖獲得美圖天使輪數百萬投資,正在推進Pre-A輪融資階段。
“顛覆”傳統(tǒng)芯片參數
“算力只是一個間接指標,”張強說道。
在算力堪比“石油”燃料的AI時代,一款芯片的算力指標顯然已經成為最核心的參考因素。算力,即單位時間內芯片所能提供浮點計算能力的峰值。理論上看,當芯片設計完,算力就已經固定,不會根據應用場景發(fā)生變化。
但在張強團隊看來,一顆芯片在不同應用場景下提供的算力有所不同,比如計算密集型,I/O密集型的不同需求下數值差異很大。 “現在大部分AI芯片公司都在偷換概念,對外宣傳的都是算力峰值”,王韻談道,就像是眼睛一閉油門踩到底能跑出的最快速度,但是缺少實際參考價值。通常來說,由于實際部署下的各種原因,芯片遠不能達到其計算能力的最高理論值。
對于雪湖團隊而言,他們更看重芯片的資源利用率。對于一顆FPGA而言,在核心計算單元運行算法時,如果從啟動一直到運算結束的每個使用周期都在不停的工作即芯片的理論值,相當于100%的工作狀態(tài),也就是說把該芯片所有的功力都發(fā)揮出來了。
“我們能將這個理論率提升到98%,換句話說,100個計算周期里只有兩個周期在休息?!睆垙娬f道 “這顛覆了芯片行業(yè)里的一個標志性參數。除了雪湖,沒有任何一家公司可以做到。”王韻形象地將描述為“完美地榨干芯片性能?!?/p>
“98%資源利用率”所能帶來的實際價值是——“通常需要賽靈思最高端、售價超過1萬美金的芯片才能實現復雜的算法。雪湖可以采用10到20元美金的中低端芯片實現同樣算法。”張強表示,1萬美金與20美金的核心指標差異就在其內部可利用的資源數目。
長久以來,開發(fā)難度大、開發(fā)周期長,開發(fā)者稀缺、培養(yǎng)周期長是橫亙在FPGA發(fā)展和應用推廣道路上的難題?!癋PGA工程師的培養(yǎng)成本很高,要培養(yǎng)一名真正具備獨立做FPGA開發(fā)的工程師通常需要五年的時間。”張強談道。
為此,雪湖團隊研發(fā)了一套私有的開發(fā)環(huán)境和框架PteroTool,以實現更簡潔的芯片工具鏈條,抽象度更高的應用層。
“這是基于我們十幾年的積累,里邊包括了大量高效穩(wěn)定、占用資源很少的庫?!睆垙娊榻B,基于Ptero系統(tǒng)抽象層,能夠將系統(tǒng)抽象出來,類似于芯片操作系統(tǒng),以實現算法快速移植,可以從一顆芯片快速移植到另一顆FPGA芯片。“這套工具體系很容易上手。按照我們的經驗,經過三個月培訓,一個剛畢業(yè)的大學生就上手成為FPGA算法開發(fā)工程師?!?/p>
為了對開發(fā)工作進行更加細致地分工,雪湖對開發(fā)過程進行了系統(tǒng)化地分解。在雪湖的技術架構下,工程師不再需要同時掌握FPGA開發(fā)、寫算法和代碼等全鏈條工作,“每人掌握一個環(huán)節(jié),通過多人合作,以實現更高效地開發(fā)?!?/p>
預 判
“我們目前集中私有云、公有云、車載三大塊市場。模塊市場優(yōu)先級被調低了,因為目前AI在C端市場仍然缺少應用推動?!睆垙娬劦馈?/p>
在云計算中心市場,雪湖主要通過私有云GPU替代、FPGA公有云加速兩條路徑推動。對于圖像與語音數據調用頻繁的AI公司而言,相較于公有云數據可能面臨的安全性問題,搭建一套高性價比的私有云方案正在成為核心訴求。
隨著5G落地步伐的加速,張強認為,云上的計算需求和市場會會變得更加龐大。受到4G的傳輸速率和網絡承受力限制,目前很多計算主要在手機端/在端測完成。但是5G來臨之后,傳輸速率提升十倍以上,手機本地的計算能力會弱化,存儲會變大;通信能力會變強。
在雪湖團隊與OPPO、美圖等主流手機廠商交流過程中,比較一致的觀點認為,5G時代云端的數據中心計算需求,特別是人工智能運算需求將呈現井噴趨勢。相應地,將AI芯片塞到手機的潮流可能弱化。
此外,正處于窗口期的汽車智能化也是雪湖現階段押下重注的市場?!拔覀兊膬?yōu)勢在于技術方案能夠更快地落地,以幫助車廠或者自動駕駛團隊搶奪時間窗口”,張強認為,相比ASIC的AI芯片公司開發(fā)和流片通常需要一到兩年時間,快速落地是雪湖當下最顯著的優(yōu)勢。
此外,一個更為隱形的優(yōu)勢還在于,FPGA具備現成的車規(guī)級芯片可供選擇,而無需等待遙遙無期的AI芯片通過車規(guī)級芯片認證。
目前,雪湖團隊正在幫助一家自動駕駛公司實現前端的視覺數據識別與分析,以取代昂貴和高功耗的GPU服務器方案。張強表示,該自動駕駛公司近期再次提速研發(fā)節(jié)奏,“年初方案一旦能夠落地,將成為開創(chuàng)性的自動駕駛解決方案?!?em class="backsohu">