123,123,123

隨著DeepSeek效應(yīng)持續(xù)讓AI產(chǎn)業(yè)巨震，其在提供出色性能的基礎(chǔ)上，降低了對于算力的需求，可使AI更高效、更低成本地部署在端側(cè)設(shè)備，既而推動AIoT從“萬物互聯(lián)”邁向“萬物智聯(lián)”的同時，也為邊緣AI“主力軍”AI PC的端側(cè)部署大模型提供了全新的解題思路。

據(jù)IDC預(yù)測，AI PC在中國PC市場中新機(jī)的裝配比例將在未來幾年中快速攀升，將于2027年達(dá)到85%，成為PC市場主流。市場總規(guī)模將從2023年的3900萬臺增至2027年的5000萬臺以上，增幅接近28%。

眾所周知，端側(cè)大模型的快速演變對AI芯片性價比和適配能力提出了更高的要求，AI PC中的AI生成任務(wù)對計(jì)算資源和處理能力的要求不盡相同，需要從以通用計(jì)算為核心的計(jì)算架構(gòu)向更加高性能的異構(gòu)AI計(jì)算架構(gòu)升級，讓CPU、GPU和NPU等不同的計(jì)算單元“各司其職”協(xié)同作戰(zhàn)，賦能AI PC增強(qiáng)的生成式AI體驗(yàn)。在這一過程中，AI芯片重任在肩，而究竟哪類芯片能擔(dān)當(dāng)重任呢？

芯動力與聯(lián)想攜手打造獨(dú)立加速器（dNPU）解決方案，賦能AI PC浪潮

作為PC界的龍頭，聯(lián)想給出了自己的答案。在2025年3月3日在西班牙巴塞羅那的MWC Barcelona2025盛會上，聯(lián)想展示了全面升級的AI PC。新款A(yù)I PC首次采用國內(nèi)珠海市芯動力科技有限公司基于可重構(gòu)并行處理器RPP的AzureBlade M.2加速卡，并將其命名為dNPU，不僅顯著提升了推理速度和整體性能，讓系統(tǒng)運(yùn)行更加流暢，而且還顯著降低了系統(tǒng)整體功耗，實(shí)現(xiàn)了高效運(yùn)行和節(jié)能降耗的雙重目標(biāo)和雙重優(yōu)化。

“dNPU代表了未來大模型在PC等本地端推理的技術(shù)方向和趨勢?！鄙鲜鲐?fù)責(zé)人強(qiáng)調(diào)。

端側(cè)AI算力追求極致性價比 GPGPU站上舞臺中央

隨著大模型為主的生成式AI技術(shù)取得快速發(fā)展，各大PC廠商不僅在積極探索全新的AI PC形態(tài)，為推動大模型推理快速高效實(shí)現(xiàn)也在積極采納和部署強(qiáng)勁的AI芯片。

傳統(tǒng)AI PC解決方案是在CPU中嵌入iNPU，在運(yùn)行大語言模型時，通常依賴GPU進(jìn)行加速，iNPU只有在特定的場景中才能被調(diào)用。然而，GPU在處理大模型時可能會面臨一些性能瓶頸，如GPU的架構(gòu)雖然適合并行計(jì)算，但在處理深度學(xué)習(xí)任務(wù)時，會導(dǎo)致資源利用率不足或延遲較高。此外，GPU在推理階段的功耗相對較高。

而且在群雄逐鹿的通用GPU市場中，面臨著英偉達(dá)、英特爾、AMD等巨頭的強(qiáng)大競爭，國內(nèi)廠商要在重重壁壘中開辟自己的天地，需要獨(dú)辟蹊徑，打造全生態(tài)。芯動力敏銳地觀察到，高性價比是邊緣計(jì)算核心要求，且性能與TOPS不直接掛鉤，不同計(jì)算階段對性能要求不同，采用探索創(chuàng)新型的計(jì)算機(jī)架構(gòu)的GPGPU是解決通用高算力和低功耗需求的必由之路，并已成為業(yè)界共識。

芯動力與聯(lián)想攜手打造獨(dú)立加速器（dNPU）解決方案，賦能AI PC浪潮

基于這一深刻洞察，芯動力推出了可重構(gòu)并行處理器（RPP）架構(gòu)，通過底層創(chuàng)新RPP架構(gòu)，解決了高性能與通用性難兼以得的矛盾，利用數(shù)據(jù)流結(jié)構(gòu)來避免了數(shù)據(jù)反復(fù)調(diào)用帶來的效率損失。并且芯動力具有編譯器、運(yùn)行時環(huán)境、高度優(yōu)化的RPP庫，可全面兼容CUDA的端到端完整軟件棧，從而實(shí)現(xiàn)邊緣AI應(yīng)用的快速高效部署。

基于上述架構(gòu)和設(shè)計(jì)創(chuàng)新，芯動力開發(fā)了AzureBlade M.2加速卡集成的AE7100芯片，作為一款高能效GPGPU，相比傳統(tǒng)GPU，針對神經(jīng)網(wǎng)絡(luò)的計(jì)算特點(diǎn)進(jìn)行了優(yōu)化，通過集成大量專用的計(jì)算單元（如矢量內(nèi)核或神經(jīng)加速器）和片上內(nèi)存，可高效處理矩陣乘法和卷積等操作，從而在通用性、低時延、低功耗、低成本和快速部署等方面展現(xiàn)出顯著優(yōu)勢，成為解鎖端側(cè)各大模型的關(guān)鍵，并成為聯(lián)想AI PC落地的新動能。

芯動力與聯(lián)想攜手打造獨(dú)立加速器（dNPU）解決方案，賦能AI PC浪潮

（AI NOW不做大模型推理：右側(cè) GPU usage 和 dNPU 占用率均為 0%）

芯動力與聯(lián)想攜手打造獨(dú)立加速器（dNPU）解決方案，賦能AI PC浪潮

（AI NOW進(jìn)行大模型推理：右側(cè) GPU usage 仍為 0%，dNPU 在 40% 上下波動）

“一是系統(tǒng)運(yùn)行更絲滑。dNPU 在執(zhí)行深度學(xué)習(xí)任務(wù)時，無需占用CPU、顯存或GPU資源，這種設(shè)計(jì)不僅最大限度地減少了對傳統(tǒng)GPU和顯存的依賴，還通過dNPU的高效計(jì)算能力，顯著提升了推理速度和整體性能，讓系統(tǒng)運(yùn)行更加絲滑流暢，大幅提升用戶體驗(yàn)。二是低功耗優(yōu)勢。通過實(shí)測，在未啟用AI NOW推理時，CPU的功耗僅為 7.52W，而推理時功耗上升至14.88W。dNPU的架構(gòu)設(shè)計(jì)賦予其低功耗的特性，同時釋放了原本由GPU占用的高功耗資源，進(jìn)一步優(yōu)化了系統(tǒng)能效，不僅實(shí)現(xiàn)了推理任務(wù)的高效執(zhí)行，更顯著降低了系統(tǒng)整體功耗，為用戶帶來性能與能效的雙重優(yōu)化體驗(yàn)?！甭?lián)想工作人員介紹dNPU在處理大模型時的顯著優(yōu)勢時表示，“因而，聯(lián)想AI PC在AI計(jì)算、AI擴(kuò)展、多模態(tài)交互、智能化等層面，均實(shí)現(xiàn)了顯著的提升?！?

憑借芯動力的底層創(chuàng)新、深厚積淀和積極拓展，不僅在AI PC領(lǐng)域取得了開門紅，在同樣廣闊的泛安防/邊緣服務(wù)器、工業(yè)影像/機(jī)器視覺、信號處理/醫(yī)療影像、機(jī)器人等邊緣AI應(yīng)用市場都已有眾多應(yīng)用落地，并與眾多重要企業(yè)達(dá)成了戰(zhàn)略合作。

這些市場的廣闊發(fā)展前景也在徐徐展開，以安防IPC芯片市場為例，2026年全球規(guī)模將達(dá) 10.9億美元，2025全球3D視覺識別芯片市場規(guī)模將達(dá)27億美元；在工業(yè)影像/機(jī)器視覺市場，芯動力RPP架構(gòu)GPU可對標(biāo)英偉達(dá)AI算力顯卡+高端FPGA；針對泛安防/邊緣服務(wù)器市場，國產(chǎn)邊緣算力芯片之外提供新的選擇；在信號處理市場，更是可直接替代國外高端DSP，而更多的客戶合作和應(yīng)用落地。

AI芯片實(shí)現(xiàn)高能效低功耗加速卡成就“全武行”

芯動力開發(fā)的AzureBlade M.2加速卡被PC巨頭聯(lián)想成功合作，無疑再次佐證了芯動力RPP芯片的硬核實(shí)力。

芯動力與聯(lián)想攜手打造獨(dú)立加速器（dNPU）解決方案，賦能AI PC浪潮

具象來看，AE7100芯片作為此款M.2加速卡的核心，是芯動力基于RPP架構(gòu)自主研發(fā)的AI芯片，其尺寸僅為17mm×17mm，堪稱業(yè)界最小、最薄的GPU。它不僅可以輕松放入標(biāo)準(zhǔn)M.2卡，還具備強(qiáng)大的計(jì)算能力，支持32Tops算力。

集成了耀眼AE7100芯片的AzureBlade M.2加速卡，更是將高性能、低功耗、小體積的優(yōu)勢發(fā)揮到極致。它的尺寸僅為22mm×80mm，大約半張名片大小，卻擁有高達(dá)32TOPs的算力以及60GB/s的內(nèi)存帶寬，功耗也可以做到動態(tài)控制。

值得一提的是，為將芯片融入筆記本電腦，芯動力還革新了封裝技術(shù)，采用扇出型封裝，實(shí)現(xiàn)了無基板的FC-BGA，實(shí)現(xiàn)了低成本先進(jìn)封裝。此封裝方式提升了線密度至5微米，通過三層金屬線設(shè)計(jì)減小了芯片面積，降低了芯片的厚度。優(yōu)化了散熱與電氣性能，封裝后的M.2卡為AI PC提供了dNPU解決方案。

眾所周知，無生態(tài)不AI。而在軟件層面，AE7100實(shí)現(xiàn)了從底層指令集到上層驅(qū)動的全面兼容，巧妙沿用英偉達(dá)軟件棧，并進(jìn)行了SIMT指令集、驅(qū)動層和開發(fā)庫的優(yōu)化，極大地提升了開發(fā)效率與邏輯實(shí)現(xiàn)的直觀性。由于該加速卡兼容CUDA和ONNX，能夠滿足各類AI應(yīng)用的多樣化需求，其高算力和出色的內(nèi)存帶寬確保了數(shù)據(jù)的高效穩(wěn)定處理與傳輸。

對于AI PC 來說，依靠本地算力能夠推動更大參數(shù)規(guī)模的模型推理亦是AI PC功能實(shí)現(xiàn)的關(guān)鍵。而芯動力的M.2加速卡已可完美支撐大模型在AI PC等設(shè)備上的流暢運(yùn)行，并且適配了Deepseek、Llama3-8B、Stable Diffusion、通義千問等開源模型。

在聯(lián)想將芯動力RPP架構(gòu)GPGPU命名為dNPU之際，也表明dNPU正成為推動AI PC蓬勃發(fā)展的關(guān)鍵驅(qū)動力，不僅能夠提升AI模型的推理速度、降低功耗與提升能效，還可支持多樣化的AI應(yīng)用，推動AI PC的創(chuàng)新與落地。有判斷稱，未來dNPU極有可能如同當(dāng)下的GPU一般，成為電腦的一項(xiàng)常規(guī)可選配置，一旦電腦配備dNPU，用戶便能在終端設(shè)備上自由地提出問題，它會憑借強(qiáng)大的運(yùn)算能力迅速給出精準(zhǔn)解答。

從成本角度來看，傳統(tǒng)做法是將dNPU集成到CPU中，這會導(dǎo)致成本大幅增加。以某大廠處理器為例，采用3NM工藝制造，其研發(fā)與生產(chǎn)成本極高，導(dǎo)致產(chǎn)品價格居高不下，而大多消費(fèi)者對這種高成本的配置并沒有強(qiáng)烈需求。與之相比，將dNPU作為獨(dú)立的標(biāo)準(zhǔn)化插件，具有更高的性價比和靈活性。

屆時，dNPU將作為標(biāo)準(zhǔn)化插件，廣泛出現(xiàn)在市面上所有可選擇配置的電腦機(jī)型中。無論是追求極致性能的專業(yè)人士，還是日常使用電腦的普通用戶，都能從中受益。它將為各類用戶提供強(qiáng)大的AI運(yùn)算支持，極大地提升電腦在如智能語音交互、圖像識別處理、數(shù)據(jù)分析預(yù)測等豐富多樣的人工智能應(yīng)用場景下的性能表現(xiàn)，為用戶帶來更為高效、智能的使用體驗(yàn) 。

持續(xù)精進(jìn)RPP和適配大模型邁向芯征程

所謂眾行者遠(yuǎn)。芯動力作為聯(lián)想AI PC產(chǎn)品dNPU方案的合作伙伴，不僅是對芯動力GPGPU創(chuàng)新性架構(gòu)的最佳背書，還為AI PC等端側(cè)設(shè)備提供了革命性支持，解決了大模型在端側(cè)部署的關(guān)鍵技術(shù)難題。這一創(chuàng)新技術(shù)必將加速大模型在端側(cè)設(shè)備的普及與應(yīng)用，為行業(yè)創(chuàng)造前所未有的價值。

不僅如此，它在工業(yè)自動化、泛安防、內(nèi)容過濾、醫(yī)療影像及信號處理等眾多領(lǐng)域都展現(xiàn)出了廣泛的應(yīng)用潛力，為邊緣AI的智能化發(fā)展提供了強(qiáng)大的動力。

展望未來，隨著大語言模型向支持多模態(tài)、多專家系統(tǒng)的復(fù)雜模型轉(zhuǎn)變，對存儲能力和計(jì)算靈活性要求更高，可重構(gòu)芯片以其低功耗和高靈活性將成為極具潛力的解決方案。

而且，算力產(chǎn)品與各類模型的適配將成為標(biāo)準(zhǔn)化的流程，模型適配程度將直接影響應(yīng)用了算力產(chǎn)品的AI PC在模型推理方面的表現(xiàn)。同時，算力廠商不能只針對特定的應(yīng)用進(jìn)行調(diào)優(yōu)，鑒于AI PC中應(yīng)用將主要以插件的形式被大模型調(diào)用，對各類大小模型以及其調(diào)用的應(yīng)用進(jìn)行綜合適配才最為重要。因而，AI算力廠商還要持續(xù)深入建立通用、兼容的AI開發(fā)框架，并降低大模型和應(yīng)用開發(fā)適配門檻。

芯動力還觀察到，邊緣計(jì)算作為云端算力有效補(bǔ)充，是AI大模型落地的必然趨勢。未來邊緣AI時代加速到來，將滲透至物理世界各個角落，持續(xù)打造高性價比dNPU、適配DeepSeek等新型大模型等是AI芯片廠商的“馬拉松”。芯動力將繼續(xù)秉承創(chuàng)新精神，基于RPP架構(gòu)實(shí)現(xiàn)算力及性價比的持續(xù)提升，還將推出基于RPP集成Chiplet的8nm R36 GPU，2027年將推出更高性能的3nm R72 GPU。同時，深入提升軟件適配能力，強(qiáng)化對更大規(guī)模模型的支持，擴(kuò)展智算生態(tài)合作圈，全面推動邊緣AI技術(shù)的部署與落地。

DeepSeek的技術(shù)突破，使AI更高效、更低成本地部署在端側(cè)設(shè)備，推動AIoT持續(xù)邁向“萬物智聯(lián)”。我們有理由相信，基于RPP架構(gòu)的GPU及后續(xù)更高性能的迭代芯片不僅是AIPC加速處理器的理想選擇，在對延遲、功耗和體積有著極高要求的邊緣應(yīng)用中也將持續(xù)綻放光芒。