国产在线美女I黄是免费网站I伊人看片I91av在线视频免费观看I久久免费视频5I狠狠色丁香婷婷综合久小说久I日韩一区二区三区高清在线观看I激情久久伊人I国产成人精品999I欧美一级日韩三级I久久99久久精品国产I色婷avI五月天视频网站I国产剧情一区I在线黄色免费I色婷婷啪啪免费在线电影观看I中文字幕资源在线I久久一区国产

GPU之后,AI算力加速找到新方向

來源: 深圳市嘉銘偉業(yè)科技有限公司 人氣:117 發(fā)表時間:2024/03/15 10:09:01
GPU之后,AI算力加速找到新方向

早在2015年,面向音頻和語音AI用例而設(shè)計的NPU就誕生了,這些用例基于簡單卷積神經(jīng)網(wǎng)絡(luò)(CNN)并且主要需要標(biāo)量和向量數(shù)學(xué)運算。從2016年開始,拍照和視頻AI用例大受歡迎,出現(xiàn)了基于Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)和更高維度的卷積神經(jīng)網(wǎng)絡(luò)(CNN)等更復(fù)雜的全新模型。這些工作負(fù)載需要大量張量數(shù)學(xué)運算,因此NPU增加了張量加速器和卷積加速,讓處理效率大幅提升。

到了2023年,大語言模型(LLM)一比如Llama 2-7B,和大視覺模型(LVM)一比如 StableDiffusion賦能的生成式AI使得典型模型的大小提升超過了一個數(shù)量級。除計算需求之外,還需要重點考慮內(nèi)存和系統(tǒng)設(shè)計,通過減少內(nèi)存數(shù)據(jù)傳輸以提高性能和能效。未來預(yù)計將會出現(xiàn)對更大規(guī)模模型和多模態(tài)模型的需求。

AI PCNPU推上競爭新高地

2024年被普遍視為AI PC元年,根據(jù)Canalys預(yù)測,到2027年,AI PC出貨量將超過1.7億臺,其中近60%將部署在商用領(lǐng)域。為了順應(yīng)PC行業(yè)的發(fā)展潮流,并顯著提高端側(cè)AI能力,英特爾、AMD、高通等頭部芯片廠商也正努力將專用NPU集成到CPU中,相關(guān)產(chǎn)品及路線圖已經(jīng)得到公布。

盡管AI PC實際市場表現(xiàn)取決于生態(tài)系統(tǒng)的協(xié)作水平,但毫無疑問的是,集成了NPU的中央處理器將驅(qū)動新一輪AI PC的發(fā)展。與此同時,如何在電腦處理器中發(fā)揮出NPU的最大功效,也成為了業(yè)內(nèi)熱議的話題。

2023年12月,AMD率先發(fā)布銳龍8040系列處理器,其最核心的變化之一就是新增了AI計算單元。根據(jù)AMD的說法,得益于NPU的加入,銳龍8040系列處理器的AI算力從10TOPS提升到了16TOPS,性能提升幅度達(dá)到了60%。這讓銳龍8040系列處理器在LLM等模型性能更加突出,例如Llama 2大語言模型性能提升40%,視覺模型提升40%。

一周之后,英特爾新一代酷睿Ultra移動處理器正式發(fā)布,這是其40年來第一個內(nèi)建NPU的處理器,用于在PC上帶來高能效的AI加速和本地推理體驗,被業(yè)界視作英特爾客戶端處理器路線圖的轉(zhuǎn)折點。英特爾方面將NPU與CPU、GPU共同作為AI PC的三個底層算力引擎,預(yù)計在2024年,將有230多款機(jī)型搭載酷睿Ultra。

來自Trendforce的消息稱,微軟計劃在Windows12中為AI PC設(shè)置最低門檻,需要至少40TOPS算力和16GB內(nèi)存。也就是說,PC芯片算力跨越40TOPS門檻將成為首要目標(biāo),這也將進(jìn)一步推進(jìn)NPU的升級方向,比如:提升算力、提高內(nèi)存、降低功耗,芯片持續(xù)進(jìn)行架構(gòu)優(yōu)化、異構(gòu)計算優(yōu)化和內(nèi)存升級。

再來看一下高通的思路。高通是不打算從一開始就只依賴NPU實現(xiàn)移動設(shè)備AI體驗的,而是將Hexagon NPU、Adreno GPU、Kryo或Oryon CPU、傳感器中樞和內(nèi)存子系統(tǒng)“打包”,組成“高通AI引擎”。這意味著高通NPU的差異化優(yōu)勢在于系統(tǒng)級解決方案、定制設(shè)計和快速創(chuàng)新。通過定制設(shè)計NPU并控制指令集架構(gòu)(ISA),高通能夠快速進(jìn)行設(shè)計演進(jìn)和擴(kuò)展,以解決瓶頸問題并優(yōu)化性能。目前,高通NPU從2015年初次被集成到SoC至今,在9年左右的時間里其實已經(jīng)更迭了四代不同的基礎(chǔ)架構(gòu)。

本土NPU企業(yè)持續(xù)發(fā)力

在國內(nèi)廠商當(dāng)中,2017年,華為最先將NPU處理器集成到手機(jī)CPU中,使得CPU單位時間計算的數(shù)據(jù)量和單位功耗下的AI算力得到顯著提升,讓業(yè)內(nèi)看到了NPU應(yīng)用于終端設(shè)備的潛力。OPPO曾經(jīng)的自研NPU馬里亞納X,在拍照、拍視頻等大數(shù)據(jù)流場景下實現(xiàn)了更好的運算效率,拉開了高端智能手機(jī)的體驗差距。

2018年11月,作為安謀科技成立后第一款正式對外發(fā)布的本土研發(fā)IP產(chǎn)品,“周易”Z1 NPU在烏鎮(zhèn)舉辦的第五屆世界互聯(lián)網(wǎng)大會上公開亮相;兩年后的2020年10月,能夠在單顆SoC中實現(xiàn)128TOPS強(qiáng)大算力的“周易”Z2 NPU面世;2023年推出的“周易”X2 NPU則主要面向智能汽車產(chǎn)業(yè)和邊緣計算,支持多核Cluster,以及大模型基礎(chǔ)架構(gòu)Transformer,可提供最高320TOPS的算力。商業(yè)化落地方面,目前“周易”NPU已和全志科技、芯擎科技、芯馳科技等多家本土芯片廠商實現(xiàn)了合作。

“周易”X2 NPU主要功能升級(來源:安謀科技)

另一家企業(yè)芯原則在近日宣布,集成其NPU IP的AI芯片在全球范圍內(nèi)出貨超過1億顆,已被72家客戶用于128款A(yù)I芯片中,用于物聯(lián)網(wǎng)、可穿戴設(shè)備、智慧家居、安防監(jiān)控、汽車電子等10個市場領(lǐng)域。其最新推出的VIP9000系列NPU IP結(jié)合芯原的Acuity工具包支持含PyTorch、ONNX和TensorFlow在內(nèi)的所有主流框架。此外,它還具備4位量化和壓縮技術(shù),以解決帶寬限制問題,便于在嵌入式設(shè)備上部署生成式人工智能和大型語言模型算法,如Stable Diffusion和Llama 2。

作為人工智能視覺感知芯片研發(fā)及基礎(chǔ)算力平臺公司,愛芯元智在2023年正式推出的第三代高算力、高能效比的SoC芯片AX650N,也為行業(yè)探索Transformer在端側(cè)、邊緣側(cè)落地方面做出了有益的嘗試。實測數(shù)據(jù)顯示,目前大眾普遍采用的Transformer網(wǎng)絡(luò)SwinT,在愛芯元智AX650N平臺上獲得了361 FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的極易部署能力。

生成式AI與多樣化處理器

與我們之前談?wù)摰腁I不同的是,生成式AI用例需求在有著多樣化要求和計算需求的垂直領(lǐng)域不斷增加。高通在《通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI》的白皮書中,將這些用例分為三類:

1. 按需型用例由用戶觸發(fā),需要立即響應(yīng),包括照片/視頻拍攝、圖像生成/編輯、代碼生成、錄音轉(zhuǎn)錄/摘要和文本(電子郵件、文檔等)創(chuàng)作/摘要。這包括用戶用手機(jī)輸入文字創(chuàng)作自定義圖像、在PC上生成會議摘要,或在開車時用語音查詢最近的加油站。

2. 持續(xù)型用例運行時間較長,包括語音識別、游戲和視頻的超級分辨率、視頻通話的音頻/視頻處理以及實時翻譯。這包括用戶在海外出差時使用手機(jī)作為實時對話翻譯器,以及在PC上玩游戲時逐幀運行超級分辨率。

3. 泛在型用例在后臺持續(xù)運行,包括始終開啟的預(yù)測性AI助手、基于情境感知的AI 個性化和高級文本自動填充。例如手機(jī)可以根據(jù)用戶的對話內(nèi)容自動建議與同事的會議、PC端的學(xué)習(xí)輔導(dǎo)助手則能夠根據(jù)用戶的答題情況實時調(diào)整學(xué)習(xí)資料。

白皮書指出,這些AI用例面臨兩大共同的關(guān)鍵挑戰(zhàn):第一,在功耗和散熱受限的終端上使用通用CPU和GPU服務(wù)平臺的不同需求,難以滿足這些AI用例嚴(yán)苛且多樣化的計算需求;第二,這些AI用例在不斷演進(jìn),在功能完全固定的硬件上部署這些用例不切實際。

例如CPU和GPU是通用處理器,它們?yōu)殪`活性而設(shè)計,非常易于編程,前者擅長順序控制和即時性,后者適合并行數(shù)據(jù)流處理。但在運行操作系統(tǒng)、游戲和其他應(yīng)用時,會隨時限制他們運行AI工作負(fù)載的可用容量;NPU是以AI為中心定制設(shè)計的,擅長標(biāo)量、向量和張量數(shù)學(xué)運算,雖然易編程性有所降低,但以此換得了更高的峰值性能、能效和面積效率,從而能夠運行機(jī)器學(xué)習(xí)所需的大量乘法、加法和其他運算。

因此,只有支持處理多樣性的異構(gòu)計算架構(gòu),才能夠發(fā)揮每個處理器的優(yōu)勢。正如在工具箱中選擇合適的工具一樣,選擇合適的處理器取決于諸多因素,將增強(qiáng)生成式AI體驗。換句話說,就是通過使用合適的處理器,異構(gòu)計算能夠?qū)崿F(xiàn)最佳應(yīng)用性能、能效和電池續(xù)航,以最大化發(fā)揮生成式AI終端用戶體驗。

端側(cè)AI,千帆競渡

如前文所述,無論是國際還是國內(nèi)企業(yè),盡管他們在NPU的技術(shù)和路線選擇上各有側(cè)重,但端側(cè)AI是顯而易見的競爭大市場和新市場,無論是AI手機(jī)、XR、AI PC等消費類產(chǎn)品,還是物聯(lián)網(wǎng)、智慧家居、汽車電子領(lǐng)域,都是如此。

究其原因,還是自2023年起,大模型參數(shù)量出現(xiàn)顯著分化,輕量化模型的出現(xiàn)逐步推動AI向端側(cè)場景落地。以谷歌發(fā)布的開源輕量化大模型Gemma為例,該模型與多模態(tài)大模型Gemini采用相同的研究和技術(shù)構(gòu)建,有2B和7B兩個版本,可以直接在筆記本和臺式機(jī)部署。

近幾年大有取代CNN之勢的Transformer也值得多說幾句。由于它可以獲取全局特征,有一定的知識遷移性,能夠很好地適應(yīng)各種場景,不僅在COCO榜單上處于霸榜狀態(tài),很多以CNN為主的框架也已經(jīng)切換到了Transformer。目前來看,Transformer大模型在云端主要還是通過GPU部署,在邊緣側(cè)、端側(cè)硬件支撐方面,則更多依賴NPU實現(xiàn)對神經(jīng)網(wǎng)絡(luò)的加速。

這倒不是指CPU不能運行Transformer模型,只是它的運行速度無法滿足實際應(yīng)用落地需求。另一方面,盡管CNN和Transformer都屬于神經(jīng)網(wǎng)絡(luò),但Transformer的計算訪存比比CNN低,精度和靈活度高,而此前市面上的一些NPU主要針對CNN網(wǎng)絡(luò)做了一些過擬合的設(shè)計,導(dǎo)致在部署Transformer網(wǎng)絡(luò)時遇到了功耗、效率等諸多問題,現(xiàn)在需要找到合適的新算力平臺,并在算法側(cè)找到能降低大參數(shù)模型帶寬的新途徑。

此外,輕量化AI大模型面世之后,場景應(yīng)用的AI智能邊際成本會大幅降低,因為它不太需要再為這些長尾的場景做專門的適配,預(yù)訓(xùn)練的大模型憑借“足夠強(qiáng)的學(xué)習(xí)和推理能力”、“足夠?qū)挼闹R領(lǐng)域”,一經(jīng)部署就能達(dá)到比較好的效果,從而推動AI在端側(cè)和邊緣側(cè)更大范圍內(nèi)的普及和提升。

結(jié)語

多模態(tài)AI的興起,使得AI系統(tǒng)能夠更全面地理解和處理現(xiàn)實世界中的復(fù)雜信息。除傳統(tǒng)的語言以及圖像間的交互作用,其結(jié)合聲音、觸覺以及動作等多維度信息進(jìn)行深度學(xué)習(xí),從而形成更準(zhǔn)確、更具表現(xiàn)力的多模態(tài)表示。這也是AI模型走向多模態(tài)的必然因素:跨模態(tài)任務(wù)需求+跨模態(tài)數(shù)據(jù)融合+對人類認(rèn)知能力的模擬。因此,端側(cè)AI越“卷”,越代表著NPU將快速迎來市場拐點。

產(chǎn)品中心 在線留言 電話咨詢