&

GPU之后，AI算力加速找到新方向

來源：深圳市嘉銘偉業(yè)科技有限公司人氣：117 發(fā)表時間：2024/03/15 10:09:01 【小中大】

早在2015年，面向音頻和語音AI用例而設(shè)計的NPU就誕生了，這些用例基于簡單卷積神經(jīng)網(wǎng)絡(luò)(CNN)并且主要需要標(biāo)量和向量數(shù)學(xué)運算。從2016年開始，拍照和視頻AI用例大受歡迎，出現(xiàn)了基于Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)和更高維度的卷積神經(jīng)網(wǎng)絡(luò)(CNN)等更復(fù)雜的全新模型。這些工作負(fù)載需要大量張量數(shù)學(xué)運算，因此NPU增加了張量加速器和卷積加速，讓處理效率大幅提升。

到了2023年，大語言模型(LLM)一比如Llama 2-7B，和大視覺模型(LVM)一比如 StableDiffusion賦能的生成式AI使得典型模型的大小提升超過了一個數(shù)量級。除計算需求之外，還需要重點考慮內(nèi)存和系統(tǒng)設(shè)計，通過減少內(nèi)存數(shù)據(jù)傳輸以提高性能和能效。未來預(yù)計將會出現(xiàn)對更大規(guī)模模型和多模態(tài)模型的需求。

AI PC將NPU推上競爭新高地

2024年被普遍視為AI PC元年，根據(jù)Canalys預(yù)測，到2027年，AI PC出貨量將超過1.7億臺，其中近60%將部署在商用領(lǐng)域。為了順應(yīng)PC行業(yè)的發(fā)展潮流，并顯著提高端側(cè)AI能力，英特爾、AMD、高通等頭部芯片廠商也正努力將專用NPU集成到CPU中，相關(guān)產(chǎn)品及路線圖已經(jīng)得到公布。

盡管AI PC實際市場表現(xiàn)取決于生態(tài)系統(tǒng)的協(xié)作水平，但毫無疑問的是，集成了NPU的中央處理器將驅(qū)動新一輪AI PC的發(fā)展。與此同時，如何在電腦處理器中發(fā)揮出NPU的最大功效，也成為了業(yè)內(nèi)熱議的話題。

2023年12月，AMD率先發(fā)布銳龍8040系列處理器，其最核心的變化之一就是新增了AI計算單元。根據(jù)AMD的說法，得益于NPU的加入，銳龍8040系列處理器的AI算力從10TOPS提升到了16TOPS，性能提升幅度達(dá)到了60%。這讓銳龍8040系列處理器在LLM等模型性能更加突出，例如Llama 2大語言模型性能提升40%，視覺模型提升40%。

一周之后，英特爾新一代酷睿Ultra移動處理器正式發(fā)布，這是其40年來第一個內(nèi)建NPU的處理器，用于在PC上帶來高能效的AI加速和本地推理體驗，被業(yè)界視作英特爾客戶端處理器路線圖的轉(zhuǎn)折點。英特爾方面將NPU與CPU、GPU共同作為AI PC的三個底層算力引擎，預(yù)計在2024年，將有230多款機(jī)型搭載酷睿Ultra。

來自Trendforce的消息稱，微軟計劃在Windows12中為AI PC設(shè)置最低門檻，需要至少40TOPS算力和16GB內(nèi)存。也就是說，PC芯片算力跨越40TOPS門檻將成為首要目標(biāo)，這也將進(jìn)一步推進(jìn)NPU的升級方向，比如：提升算力、提高內(nèi)存、降低功耗，芯片持續(xù)進(jìn)行架構(gòu)優(yōu)化、異構(gòu)計算優(yōu)化和內(nèi)存升級。

再來看一下高通的思路。高通是不打算從一開始就只依賴NPU實現(xiàn)移動設(shè)備AI體驗的，而是將Hexagon NPU、Adreno GPU、Kryo或Oryon CPU、傳感器中樞和內(nèi)存子系統(tǒng)“打包”，組成“高通AI引擎”。這意味著高通NPU的差異化優(yōu)勢在于系統(tǒng)級解決方案、定制設(shè)計和快速創(chuàng)新。通過定制設(shè)計NPU并控制指令集架構(gòu)(ISA)，高通能夠快速進(jìn)行設(shè)計演進(jìn)和擴(kuò)展，以解決瓶頸問題并優(yōu)化性能。目前，高通NPU從2015年初次被集成到SoC至今，在9年左右的時間里其實已經(jīng)更迭了四代不同的基礎(chǔ)架構(gòu)。

本土NPU企業(yè)持續(xù)發(fā)力

在國內(nèi)廠商當(dāng)中，2017年，華為最先將NPU處理器集成到手機(jī)CPU中，使得CPU單位時間計算的數(shù)據(jù)量和單位功耗下的AI算力得到顯著提升，讓業(yè)內(nèi)看到了NPU應(yīng)用于終端設(shè)備的潛力。OPPO曾經(jīng)的自研NPU馬里亞納X，在拍照、拍視頻等大數(shù)據(jù)流場景下實現(xiàn)了更好的運算效率，拉開了高端智能手機(jī)的體驗差距。

2018年11月，作為安謀科技成立后第一款正式對外發(fā)布的本土研發(fā)IP產(chǎn)品，“周易”Z1 NPU在烏鎮(zhèn)舉辦的第五屆世界互聯(lián)網(wǎng)大會上公開亮相；兩年后的2020年10月，能夠在單顆SoC中實現(xiàn)128TOPS強(qiáng)大算力的“周易”Z2 NPU面世；2023年推出的“周易”X2 NPU則主要面向智能汽車產(chǎn)業(yè)和邊緣計算，支持多核Cluster，以及大模型基礎(chǔ)架構(gòu)Transformer，可提供最高320TOPS的算力。商業(yè)化落地方面，目前“周易”NPU已和全志科技、芯擎科技、芯馳科技等多家本土芯片廠商實現(xiàn)了合作。

“周易”X2 NPU主要功能升級（來源：安謀科技）

另一家企業(yè)芯原則在近日宣布，集成其NPU IP的AI芯片在全球范圍內(nèi)出貨超過1億顆，已被72家客戶用于128款A(yù)I芯片中，用于物聯(lián)網(wǎng)、可穿戴設(shè)備、智慧家居、安防監(jiān)控、汽車電子等10個市場領(lǐng)域。其最新推出的VIP9000系列NPU IP結(jié)合芯原的Acuity工具包支持含PyTorch、ONNX和TensorFlow在內(nèi)的所有主流框架。此外，它還具備4位量化和壓縮技術(shù)，以解決帶寬限制問題，便于在嵌入式設(shè)備上部署生成式人工智能和大型語言模型算法，如Stable Diffusion和Llama 2。

作為人工智能視覺感知芯片研發(fā)及基礎(chǔ)算力平臺公司，愛芯元智在2023年正式推出的第三代高算力、高能效比的SoC芯片AX650N，也為行業(yè)探索Transformer在端側(cè)、邊緣側(cè)落地方面做出了有益的嘗試。實測數(shù)據(jù)顯示，目前大眾普遍采用的Transformer網(wǎng)絡(luò)SwinT，在愛芯元智AX650N平臺上獲得了361 FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的極易部署能力。

生成式AI與多樣化處理器

與我們之前談?wù)摰腁I不同的是，生成式AI用例需求在有著多樣化要求和計算需求的垂直領(lǐng)域不斷增加。高通在《通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI》的白皮書中，將這些用例分為三類：

1. 按需型用例由用戶觸發(fā)，需要立即響應(yīng)，包括照片/視頻拍攝、圖像生成/編輯、代碼生成、錄音轉(zhuǎn)錄/摘要和文本(電子郵件、文檔等)創(chuàng)作/摘要。這包括用戶用手機(jī)輸入文字創(chuàng)作自定義圖像、在PC上生成會議摘要，或在開車時用語音查詢最近的加油站。

2. 持續(xù)型用例運行時間較長，包括語音識別、游戲和視頻的超級分辨率、視頻通話的音頻/視頻處理以及實時翻譯。這包括用戶在海外出差時使用手機(jī)作為實時對話翻譯器，以及在PC上玩游戲時逐幀運行超級分辨率。

3. 泛在型用例在后臺持續(xù)運行，包括始終開啟的預(yù)測性AI助手、基于情境感知的AI 個性化和高級文本自動填充。例如手機(jī)可以根據(jù)用戶的對話內(nèi)容自動建議與同事的會議、PC端的學(xué)習(xí)輔導(dǎo)助手則能夠根據(jù)用戶的答題情況實時調(diào)整學(xué)習(xí)資料。

白皮書指出，這些AI用例面臨兩大共同的關(guān)鍵挑戰(zhàn)：第一，在功耗和散熱受限的終端上使用通用CPU和GPU服務(wù)平臺的不同需求，難以滿足這些AI用例嚴(yán)苛且多樣化的計算需求；第二，這些AI用例在不斷演進(jìn)，在功能完全固定的硬件上部署這些用例不切實際。

例如CPU和GPU是通用處理器，它們?yōu)殪`活性而設(shè)計，非常易于編程，前者擅長順序控制和即時性，后者適合并行數(shù)據(jù)流處理。但在運行操作系統(tǒng)、游戲和其他應(yīng)用時，會隨時限制他們運行AI工作負(fù)載的可用容量；NPU是以AI為中心定制設(shè)計的，擅長標(biāo)量、向量和張量數(shù)學(xué)運算，雖然易編程性有所降低，但以此換得了更高的峰值性能、能效和面積效率，從而能夠運行機(jī)器學(xué)習(xí)所需的大量乘法、加法和其他運算。

因此，只有支持處理多樣性的異構(gòu)計算架構(gòu)，才能夠發(fā)揮每個處理器的優(yōu)勢。正如在工具箱中選擇合適的工具一樣，選擇合適的處理器取決于諸多因素，將增強(qiáng)生成式AI體驗。換句話說，就是通過使用合適的處理器，異構(gòu)計算能夠?qū)崿F(xiàn)最佳應(yīng)用性能、能效和電池續(xù)航，以最大化發(fā)揮生成式AI終端用戶體驗。

端側(cè)AI，千帆競渡

如前文所述，無論是國際還是國內(nèi)企業(yè)，盡管他們在NPU的技術(shù)和路線選擇上各有側(cè)重，但端側(cè)AI是顯而易見的競爭大市場和新市場，無論是AI手機(jī)、XR、AI PC等消費類產(chǎn)品，還是物聯(lián)網(wǎng)、智慧家居、汽車電子領(lǐng)域，都是如此。

究其原因，還是自2023年起，大模型參數(shù)量出現(xiàn)顯著分化，輕量化模型的出現(xiàn)逐步推動AI向端側(cè)場景落地。以谷歌發(fā)布的開源輕量化大模型Gemma為例，該模型與多模態(tài)大模型Gemini采用相同的研究和技術(shù)構(gòu)建，有2B和7B兩個版本，可以直接在筆記本和臺式機(jī)部署。

近幾年大有取代CNN之勢的Transformer也值得多說幾句。由于它可以獲取全局特征，有一定的知識遷移性，能夠很好地適應(yīng)各種場景，不僅在COCO榜單上處于霸榜狀態(tài)，很多以CNN為主的框架也已經(jīng)切換到了Transformer。目前來看，Transformer大模型在云端主要還是通過GPU部署，在邊緣側(cè)、端側(cè)硬件支撐方面，則更多依賴NPU實現(xiàn)對神經(jīng)網(wǎng)絡(luò)的加速。

這倒不是指CPU不能運行Transformer模型，只是它的運行速度無法滿足實際應(yīng)用落地需求。另一方面，盡管CNN和Transformer都屬于神經(jīng)網(wǎng)絡(luò)，但Transformer的計算訪存比比CNN低，精度和靈活度高，而此前市面上的一些NPU主要針對CNN網(wǎng)絡(luò)做了一些過擬合的設(shè)計，導(dǎo)致在部署Transformer網(wǎng)絡(luò)時遇到了功耗、效率等諸多問題，現(xiàn)在需要找到合適的新算力平臺，并在算法側(cè)找到能降低大參數(shù)模型帶寬的新途徑。

此外，輕量化AI大模型面世之后，場景應(yīng)用的AI智能邊際成本會大幅降低，因為它不太需要再為這些長尾的場景做專門的適配，預(yù)訓(xùn)練的大模型憑借“足夠強(qiáng)的學(xué)習(xí)和推理能力”、“足夠?qū)挼闹R領(lǐng)域”，一經(jīng)部署就能達(dá)到比較好的效果，從而推動AI在端側(cè)和邊緣側(cè)更大范圍內(nèi)的普及和提升。

結(jié)語

多模態(tài)AI的興起，使得AI系統(tǒng)能夠更全面地理解和處理現(xiàn)實世界中的復(fù)雜信息。除傳統(tǒng)的語言以及圖像間的交互作用，其結(jié)合聲音、觸覺以及動作等多維度信息進(jìn)行深度學(xué)習(xí)，從而形成更準(zhǔn)確、更具表現(xiàn)力的多模態(tài)表示。這也是AI模型走向多模態(tài)的必然因素：跨模態(tài)任務(wù)需求+跨模態(tài)數(shù)據(jù)融合+對人類認(rèn)知能力的模擬。因此，端側(cè)AI越“卷”，越代表著NPU將快速迎來市場拐點。

上一篇：資金短缺，傳美國電動汽車初創(chuàng)公司Fisker正為破產(chǎn)申請做準(zhǔn)備下一篇：搭載1000瓦GPU的服務(wù)器要來了，AI耗電已超普通人類家庭上萬倍

行業(yè)新聞

GPU之后，AI算力加速找到新方向

AI PC將NPU推上競爭新高地

本土NPU企業(yè)持續(xù)發(fā)力

生成式AI與多樣化處理器

端側(cè)AI，千帆競渡

結(jié)語

相關(guān)新聞

產(chǎn)品中心

關(guān)于我們

新聞中心

聯(lián)系我們

友情鏈接

行業(yè)新聞

GPU之后，AI算力加速找到新方向

AI PC將NPU推上競爭新高地

本土NPU企業(yè)持續(xù)發(fā)力

生成式AI與多樣化處理器

端側(cè)AI，千帆競渡

結(jié)語

相關(guān)新聞

產(chǎn)品中心

關(guān)于我們

新聞中心

聯(lián)系我們

友情鏈接

微信在線

關(guān)注公眾號