來源——硬件世界
最近,兩款國產GPU引發極大關注,一款是摩爾線程MTT S90,另一款則是號稱真自研的礪算科技7G100系列。兩款顯卡在性能上都實現了巨大飛躍,在多個測試項目中逆襲RTX 4060。
首先是摩爾線程新一代顯卡MTT S90遊戲GPU,實測性能展現出與NVIDIA主流產品RTX 4060相當的水平。
據瞭解,MTT S90是摩爾線程在兩年前就計劃推出的產品,與其AI智算卡MTT S4000採用同一芯片架構。知名博主“差評”對摩爾線程S4000的圖形性能進行了實測跑分,考慮它與S90同宗同源,基本可以拿來參照。
實測結果顯示,摩爾線程S4000的魯大師、3DMark Steel Nomad和Unigine Valley得分均超過RTX4060,只在Fire Strike Ultra中稍遜一籌。
不僅是Benchmark,該卡在實際遊戲測試中尤爲亮眼,4K極高畫質設定下的《永劫無間》平均幀率達到了43fps,同樣略高於RTX 4060(42fps)。
據悉,測試版驅動並未針對S4000進行過專門的優化,如果能像S80一樣持續深度優化,S4000很可能在圖形性能上實現對RTX 4060的大幅超越。
摩爾線程S4000於2023年9月正式發佈,與RTX 4060基本屬於同時期發佈,可以說已經追上了同時期NVIDIA主流型號的性能水平。
依照“差評”的測試數據,對比S80在最新驅動下的性能,其跨代性能提升達到了80%以上。考慮到S4000只比S80晚發佈不到一年,這個跨代提升幅度可謂驚人。
另一款是7月26日礪算科技發佈的首款GPU芯片7G100系列。據官方介紹,礪算7G100系列作爲一款全自研高性能圖形GPU,從指令集到計算核心完全由自主設計,基於自研TrueGPU天圖架構,並自研指令集、自研軟件棧(非市場中常見的通過採購Imagination等現成IP授權),多重性能優勢達到國際主流、國內領先水平,完全掌握着GPU架構的自主權。
此外,礪算GPU支持NRSS動態優化渲染畫質,可對標NVIDIA DLSS和AMD FSR技術。
其中,7G106主打消費級顯卡,搭配12GB GDDR6顯存,支持4x DP 1.4a接口,支持8K60Hz HDR FreeSync顯示分辨率,API方面支持的DX12、Vulkan 1.3、OpenGL 4.6、OpenCL 3.0等。
從3DMarK Fire Strike、Steel Nomand基準測試來看,7G106略低於RTX 4060,但二者基本處於同一水平。Geekbench OpenCL基準測試中,7G106表現搶眼,不僅壓了RTX 4060一頭,甚至直逼RTX 5060。
遊戲性能方面,《黑神話 悟空》平均FPS>70(分辨率:1080p 畫質:高)。最新測試顯示,7月24日正式上線的國產第二款3A大作《明末:淵虛之羽》同樣能流暢運行。
雖然兩款國產GPU和NVIDIA高端產品仍有很大差距,但性能已經媲美其主流產品,更意味着國產顯卡從可用變成了好用。
以上也充分說明,國產GPU企業通過技術研發和產品創新,部分產品性能已接近或超越國際同類產品,在市場上具備了一定競爭力,能夠與國際大廠競爭,打破國外企業的壟斷局面,促使全球GPU市場競爭更加充分。
對於國內遊戲玩家,意味着未來將有更多選擇,且國產芯片在價格上可能更具優勢,可降低硬件購置成本。同時,遊戲開發者能更有針對性地對國產GPU進行優化,開發出更貼合國內玩家需求的遊戲。
在2025世界人工智能大會上,沐曦也正式發佈了基於國產供應鏈的旗艦GPU曦雲C600。
沐曦表示,曦雲C600標誌着國產高性能GPU實現歷史性突破。
該芯片基於沐曦自主知識產權核心GPU IP架構,構建從設計、製造到封裝測試的全流程的國產供應鏈閉環,核心技術自主可控。
據介紹,曦雲C600集成大容量存儲與多精度混合算力,支持MetaXLink超節點擴展技術,並內置ECC/RAS多重安全防護模塊。
曦雲C600爲金融、政務等關鍵領域提供高可靠算力基座,滿足下一代生成式AI的訓練和推理需求,性能強勁,全面對標國際旗艦GPU產品。
此外,沐曦聯合創始人、CTO兼首席軟件架構師楊建博士還首次全景披露MXMACA軟件棧技術體系,展現國產GPU的“端到端”能力閉環。
楊建將MXMACA比作“AI領域的Android系統”,單機16卡即可支持百任務毫秒響應的工程實踐,將高性價比算力落地變爲可能。
另外在大會上,華爲首次展出被稱爲“算力核彈”的昇騰384超節點真機,即Atlas 900 A3 SuperPoD。
華爲表示,昇騰384超節點被評選爲本次WAIC 2025鎮館之寶。
昇騰384超節點通過高速互聯總線,突破互聯瓶頸,讓超節點像一臺計算機一樣工作。
相比傳統集羣,主要有以下3大優勢:
超大帶寬
超節點內任意兩個AI處理器之間通信帶寬,相較於傳統架構提升15倍,超節點內單跳時延降低10倍。
超低時延
昇騰超節點支持全局內存統一編址,具備更高效的內存語義通信能力。通過更低時延指令級內存語義通信,可滿足大模型訓練/推理中的小包通信需求,提升專家網絡小包數據傳輸及離散隨機訪存通信效率。
昇騰384超節點是業界唯一突破Decode時延15ms的方案,滿足實時深度思考下的用戶體驗需求。
超強性能
經過實際測試,在昇騰超節點集羣上,LLaMA3等千億稠密模型訓練性能可達傳統集羣的2.5倍以上。
在通信佔比更高的Qwen、DeepSeek等多模態、MoE模型上,可以達到3倍以上的提升。
據瞭解,昇騰384超節點首創將384顆昇騰NPU和192顆鯤鵬CPU通過全新高速網絡MatrixLink全對等互聯,形成一臺超級“AI服務器”,其算力總規模達300Pflops,是英偉達NVL72的1.7倍。
網絡互聯總帶寬達269TB/s,比英偉達NVL72提升107%;內存總帶寬達1229TB/s,比英偉達NVL72提升113%;單卡推理吞吐量躍升到2300 Tokens/s。
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com