英特爾Panther Lake淺析:AI提升50%,18A的絕地反擊

 

回顧酷睿Ultra的成長史,會發現產品誕生到發佈之間,英特爾都承擔着來自各方的多重壓力。而在壓力之下,破釜沉舟的技術革新讓也人印象深刻。從Meteor Lake在架構設計上大改開始,到Lunar Lake的效能、GPU和AI性能大幅更新,兩代酷睿Ultra着實拿出了不少令人驚豔的產品。但無奈成本和市場壓力,讓英特爾以更快的速度進行產品迭代,被反覆提及的Panther Lake終於正式擺上了檯面。

 

 

Panther Lake從誕生之初就自帶很多光環,它即能擁有Lunar Lake長續航與AI性能,也具備比Arrow Lake更好的多線程表現,更重要的是,它是英特爾18A製程的第一款產品,並且用上了NPU 5和Xe3 GPU,將AI性能提升到了180 TOPS,足足提升50%。

 

距離Lunar Lake發佈僅一年時間,就能看到產品力再度大幅提升的Panther Lake,光憑這一點,就讓人覺得很不“英特爾”,一點都不擠牙膏。

 

 

那麼這次擠爆牙膏的性能究竟從何而來?在前段時間,筆者有幸參觀了英特爾位於亞利桑那州的Fab 52晶圓廠,獲取了關於Panther Lake更多細節。這款即將奠定未來筆記本電腦基調的處理器,會發生什麼樣的變化,趁着解禁,慣例奉上一年一度的技術淺析。

 

爲了方便閱讀,筆者將Panther Lake的大致變化和特點放在第一章節,如果時間有限,看完第一章節概覽即可。而如果你對Panther Lake有更多興趣,其餘的章節會向你分享Darkmont E-Core、Cougar Cove P-Core,以及NPU 5、Xe3 GPU的更多細節。

 

 

概覽:來自18A的戰鬥力

 

Panther Lake延續了Meteor Lake以來多個模塊(Tile)和多種製程拼接的設計理念,儘可能小的模塊能夠更好的良率,並通過英特爾自家的Foveros-S 2.5D實現連接,實現效能、成本的最大化利用。這也給Panther Lake架構設計奠定了一個主要基調,即:通過架構創新實現更廣泛的市場適配、全負載性能擴展與每瓦性能提升。

 

圍繞這個基調,Panther Lake實現了三個方向的升級:

 

提升架構靈活性:以滿足更廣泛的市場需求,例如對應遊戲本、輕薄本或者邊緣計算場景,可以在Panther Lake同一架構下提供不同的產品;

全負載性能擴展:覆蓋CPU、GPU、NPU三大關鍵升級,全維度性能提升;

能效優先:持續追求每瓦性能表現,注重性能與功耗平衡。

 

 

藉助架構上的可擴展支持,Panther Lake技能夠實現Lunar Lake上超強的x86能效表現,也可以實現Arrow Lake上諸如多線程的性能擴展能力。更確切的說,英特爾將每一個模塊的IP進行獨立設計,通過成熟且成本可控的Foveros-S 2.5D完成封裝,從而實現第二代可擴展架構(Scalable Fabric Gen 2),滿足不同的細分市場。

 

 

這裏讓我們先說結論。Panther Lake架構根據產品細分目前做成了三個版本,坊間聽到的數個版本多個數量的CPU與GPU以及I/O搭配,均是基於這三個版本而來,它們分別是:

 

8 Core + 4 Xe3

 

計算模塊(Compute Tile)由Intel 18A打造,包含4個P-Core,4個LP E-Core,共計8核。計算模塊內還包含用於攝像頭增強的IPU 7.5,50 AI TOPS算力的NPU 5,8MB內存側緩存,內存最高支持LPDDR5x-6800,DDR5-6400。

 

GPU模塊(GPU Tile)爲4個Xe3核心,包含4個光線追蹤單元。平臺控制模塊(PCD Tile)提供8條PCIe 4.0和4條PCIe 5.0,共計12條PCIe通道,同時最高支持4個Thunderbolt 4,2個USB 3.2,8個USB 2.0,Wi-Fi 7(R2),藍牙6.0。

 

可以看到,這個版本是唯一不帶E-Core的版本,定位於超低電壓版本。在線程管理上與現在的Lunar Lake類似。

 

 

16 Core + 4 Xe3

 

計算模塊(Compute Tile)由Intel 18A打造,包含4個P-Core,8個E-Core,4個LP E-Core,共計16個核心。同時也包含IPU 7.5,50 AI TOPS算力的NPU 5,8MB內存側緩存,內存最高支持LPDDR5x-8533,DDR5-7200。

 

GPU模塊(GPU Tile)爲4個Xe3核心,包含4個光線追蹤單元。平臺控制模塊(PCD Tile)提供8條PCIe 4.0和12條PCIe 5.0,共計20條PCIe通道,同時最高支持4個Thunderbolt 4,2個USB 3.2,8個USB 2.0,Wi-Fi 7(R2),藍牙6.0。

 

這個版本擁有更多的PCIe通道,以及提供了對DDR5內存的多樣化支持,明顯是爲了匹配獨立顯卡版本的遊戲筆記本、移動工作站所準備的。

 

 

16 Core + 12 Xe3

 

計算模塊(Compute Tile)由Intel 18A打造,包含4個P-Core,8個E-Core,4個LP E-Core,共計16個核心。同時也包含IPU 7.5,50 AI TOPS算力的NPU 5,8MB內存側緩存,內存最高支持LPDDR5x-9600。由於更多的連接通道留給了12核Xe3,因此不再額外支持DDR5內存。

 

GPU模塊(GPU Tile)高達12個Xe3核心,包含12個光線追蹤單元,僅憑GPU模塊就能提供120 AI TOPS算力,配合CPU的10 AI TOPS和NPU 5的50 AI TOPS,在XPU的調度協同下,整個處理器可以獲得180 AI TOPS算力,相對上一代Lunar Lake提升了50%。順帶一提,AMD因爲缺乏XPU協同調度能力,不同CPU、GPU、NPU之間的算力是比較難實現協同調度的,因此AMD在宣傳AI性能的時候,會有意規避這一點。

 

平臺控制模塊(PCD Tile)提供8條PCIe 4.0和4條PCIe 5.0,共計12條PCIe通道,同時最高支持4個Thunderbolt 4,2個USB 3.2,8個USB 2.0,Wi-Fi 7(R2),藍牙6.0。

 

在筆者看來,這也是英特爾工程師們對於Panther Lake定義的完全體,也是旗艦級便攜筆記本、Windows遊戲掌機的最終展現形態。

 

 

這樣的架構優勢在於,通過Foveros-S 2.5D,在封裝下就可以滿足應付所有場景的設計,GPU模塊屬於獨立IP,不僅可以交給臺積電製造,還可以根據產品安排提供諸如4核Xe3或者12核Xe3版本,所有的I/O IP都集中在了平臺控制模塊(Platform Controller Tile,PCD Tile)中,主要的計算單元、媒體引擎則聚集在計算模塊(Compute Tile)中。

 

值得注意的是,Panther Lake中採用英特爾18A製程工藝主要是指計算模塊(Compute Tile),GPU模塊(GPU Tile)和平臺控制模塊(PCD Tile)則根據不同的版本使用不同的工藝製程,比如4核Xe3來自於Intel 3製程工藝,12核Xe3則來自於臺積電。

 

三款型號的整體對比圖如下。英特爾在正式推出酷睿Ultra 300系列產品的時候,會根據產品定位對這三個型號進行一定核心刪減,從而細分出不同定位的產品。而文章中提到的IPU 7.5,NPU 5,Xe3核顯以及連接性等細節,文章的後半部分都會提供詳細的解釋。

 

 

所有核心和電源管理通過升級後的Intel Thread Director線程調度器完成,在調度邏輯上,按照LP E-Core,E-Core,再到P-Core進行分配。升級後的線程調度器擴展了實際繁忙的應用範圍,支持跨核心類型的併發執行反饋,因此也可以更好的避免效能核心搶性能核心工作的尷尬。

 

即插即用(PnP)決策從軟件層遷移到了SoC硬件層,以實現更精確的功耗控制,保證在AC/DC電源連接模式、效能/續航模式、Windows/Chrome/Linux跨平臺系統下電源控制的一致性。

 

 

另外,Panther Lake也宣佈正式支持LPCAMM2內存模組,在英特爾DEMO區筆者看到了來自美光英睿達LPCAMM2 8533 MT/s產品展示。

 

 

無論對比酷睿Ultra 200系列的Lunar Lake還是Arrow Lake,Panther Lake的提升都是驚人的。

 

在CPU方面,Panther Lake相比Lunar Lake單線程性能提升高於10%,相同功耗下,Panther Lake相比Lunar Lake、Arrow Lake在多線程性能表現上50%的提升。其中Panther Lake相比Arrow Lake,在相同的多線程性能下,功耗還可以降低30%。

 

GPU部分提升則更爲明顯,12核Xe3可以直觀的帶來50%的性能提升。

 

NPU 5部分則是AI TOPS/面積利用率提升了40%,換而言之,NPU 5雖然僅從Lunar Lake NPU 4的48 TOPS提升到了現在的50 TOPS,但佔用面積小將近一半。

 

從整體來看,Panther Lake相對Lunar Lake降低了10%的功耗,相對Arrow Lake降低了40%的功耗。另外由於IPU 7.5的性能加強,Panther Lake相對Lunar Lake在相同的硬件HDR場景下,功耗可以降低1.5W。

 

 

基本上來說,Panther Lake通過更細的模塊化架構、18A製程工藝、組件升級實現了靈活擴展、性能提升、效能提升的核心目標,因此也不限於CPU、GPU、NPU的加量,還在於線程調度器、電源管理、跨場景應用體驗一致性的提升。在概覽結束後,接下來讓我們進入正題。

 

 

Darkmont E-Core:多線程與節能的主角

 

現在我們知道,Panther Lake的計算模塊(Compute Tile)帶來了兩個全新的IP,分別是Cougar Cove P-Core和Darkmont E-Core,兩款核心都針對18A製程工藝進行優化,無論P-Core還是E-Core都提升了IPC性能,並且在較低的功耗下擁有更好的表現,確保筆記本在離電狀態下擁有相同的性能,以及擁有更長的續航。

 

Panther Lake多線程提升的優勢在於使用了最多12個Darkmont作爲E-Core提供多線程支持,進而讓Panther Lake多線程能力和節能上有顯著提升。

 

值得注意,Darkmont不僅用在E-Core中,也用在LP E-Core中,同時也是至強6+(Xeon 6+)處理器Clearwater Forest的計算核心,幫助至強6+一舉拿下288核壯舉,後續我們會有專門的文章進行詳細說明。

 

 

與Meteor Lake和Lunar Lake的E-Core相似,每4個E-Core爲1個計算集羣,無論哪個型號,E-Core和LP E-Core數量都將是4的倍數。每1個計算集羣E-Core會共享4MB L2緩存。

 

 

E-Core和LP E-Core雖然在架構上相同,但是緩存的訪問策略是不一樣的。LP E-Core不直接與L3緩存(即LLC末級緩存)直接連接,而是通過一致性代理(Coherency Agent,CA)實現跨集羣的數據同步與仲裁。

 

E-Core則是由L3緩存(即LLC末級緩存)上的一致性代理(Coherency Agent,CA)進行統一調度。

 

 

這裏有一個小彩蛋。Lunar Lake的E-Core實際上也是不與LLC末級緩存環(L3緩存環)連接,如果按照Panther Lake的定義,Lunar Lake的E-Core應該屬於LP E-Core,這樣也正好與Panther Lake的8 Core版本類似。實際上由於一致性代理(Coherency Agent,CA)的存在,兩者在溝通的邏輯層不存在任何阻礙,主要還是根據能耗策略對核心進行命名,方便了解。而事實上,在最新的Roadmap中,英特爾也是這麼定義的。

 

 

現在我們把關注點放到核心微架構上。這次E-Core架構代號爲Darkmont,不僅應用在Panther Lake上,至強6+處理器同樣使用Darkmont E-Core作爲核心,進而構建出288核的強力產品。

 

 

Darkmont可以看成上一代酷睿Ultra 200系列中E-Core的Skymont的進階,例如在執行引擎(Execution Engine)中增加多項式乘法單元(CLMUL)硬件單元,同時亂序引擎的退役(Retirement)也提升至16寬,比Crestmont的8寬和Skymont的12寬都要高。

 

 

這裏英特爾使用的是上一代至強E-Core Crestmont與Darkmont進行對比,主要圍繞前端、亂序引擎、執行引擎、內存子系統、性能與能效提升的維度展開。

 

 

先是前端(Front-End)設計提升了指令處理效率。Darkmont擁有64KB指令緩存,結合增強型分支預測期,能夠減少指令獲取延遲。指令帶寬支持3x 32bit並行,對比Crestmont提升50%,並採用3個3寬亂序解碼器(3-wide out-of-order decoders),解碼能力對比Crestmont從6寬提升至9寬,以此獲得更好的指令解碼並行度。

 

Darkmont與Skymont一樣,微操作隊列(μOP)容量從Crestmont的64項擴展至96項,減少指令在隊列中的阻塞。

 

亂序引擎(Out-of-Order Engine)用於增強並行處理能力。Darkmont支持8寬分配(Allocation/Rename),相比Crestmont的6寬分配有所提升。由於處理器流水線中,指令的執行是一個多階段的過程,當一條指令完成了其所需的所有操作後,它就會從亂序引擎中退役(Retirement),以便爲下一條指令騰出空間。這裏英特爾將Crestmont的8寬退役(Retirement)增加到16寬,也相對於Skymont的12寬退役有所提升。

 

另外Darkmont亂序執行窗口容量達到416項目,遠超Crestmont的256項,能更充分地發現程序中的數據並行性,減少指令依賴導致的等待。調度端口從Crestmont的17個增加至26個,可同時調度更多操作至執行單元。

 

接下來是執行引擎(Execution Engine)針對計算與向量處理進行優化,在執行引擎中分爲標量引擎(Scalar engine)和向量引擎(Vector engine)。標量引擎包括8個整數ALU(Scalar ALU)、3個跳轉端口(JMP),向量引擎包括4個128b向量FMA(浮點乘加)單元、4個向量/浮點ALU、2個向量/浮點存儲數據端口,地址生成包括4個AGU(地址生成單元)、2個整數存儲數據端口。

 

值得注意的是,多項式乘法(Carry-Less Multiplication, CLMUL)是此次在執行引擎中新增的單元,Skymont中是沒有的。

 

接下來是核心內存子系統(Core Memory Subsystem),主要聚焦低延遲、高帶寬與高容錯。包括32KB支持ECC的L1數據緩存,4MB L2共享緩存。L2緩存帶寬從Crestmont的64B/cycle提升至128B/cycle,數據吞吐量翻倍,相對於Skymont持平。

 

在內存訪問優化方面,提供3路加載(Load)、2路存儲(Store),配備深度加載/存儲緩衝,支持128個未完成的L2缺失(Outstanding L2 Misses),減少內存等待導致的性能損耗。現在全緩存層級集成高級預取器,能識別多種數據流模式,提前加載數據。在容錯方面,支持數據污染防護(Data Poisoning)、可恢復機器檢查(Recoverable Machine Check)、核心鎖步(Core Lockstep),併兼容52位物理地址。

 

這裏放出Crestmont與Darkmont的對比:

 

 

從能效表現上,Darkmont相對Crestmont有着明顯優勢,得益於前端帶寬、亂序窗口和執行端口擴容,IPC(每時鐘週期指令數)顯著提升。同時Darkmont也幫助英特爾至強6+性能相比至強6780E提升1.9倍性能,全負載範圍內能效提升23%,服務器整合比達到8:1,這對歐美供電不平均地區而言很有吸引力。可以這麼說,Darkmont無論在至強還是Panther Lake上,都發揮了很重要的作用。

 

 

Cougar Cove P-Core:18A的高光時刻

 

Panther Lake的18A製程工藝可以總結爲4個關鍵技術點,即:

 

庫與陣列啓用(Library and array enabling):確保核心IP在18A工藝下穩定運行

密度優化(Density):提升芯片單位面積的晶體管密度

供電設計(Power delivery):適配先進工藝的低功耗供電需求

信號完整性(Signal integrity):減少高頻信號干擾,保障核心穩定運行

 

 

在18A的條件下,Cougar Cove P-Core主打單線程性能與高吞吐,並且在架構上有所優化。包括配備18個執行端口(Execution ports),深度指令窗口(Deep Instruction Window)爲576條,支持8寬解碼(Decode)、8寬分配(Allocation/Rename)。同時TLB(Translation Lookaside Buffer)容量提升1.5倍,內存消歧(Memory disambiguation)減少內存訪問衝突,也使得流水線更爲穩定靈活。

 

 

Cougar Cove在架構上繼承自Lion Cove,因此多層緩存設計中包含了1個具備4週期延遲的48KB L0D緩存,1個9週期延遲的192KB L1D緩存,以及1個17週期的3MB L2緩存。這意味着在9個時鐘週期內,可以獲得L0D+L1D的240KB緩存。同時數據轉換後備緩衝區(DTLB)爲128項,以提升命中率。

 

Cougar Cove還會通過3個地址生成單元(Address Generation Unit,AGU)以進一步提升存儲性能。負載單元和存儲單元管道數量均達到3個,在英特爾早年的架構設計中,負載單元通常多於存儲單元。可以看到,CPU中投入更多緩存設計,以應對CPU系統愈發複雜的問題已經變成未來趨勢。

 

此外,Cougar Cove還具備AI電源管理,AI能夠以自適應方式動態響應實際的實時操作條件,以實現更高的持續性能。以往的固定檔位調節只能以100MHz進行調整,現在更細的時鐘粒度可以做到16.67MHz爲一個間隔,從而獲得更好的功耗管理。

 

 

此外,Cougar Cove還包括6個整數ALU單元(Arithmetic Logic Unit),3個跳轉單元(Jump Units),3個移位單元(Shift Units),3個64乘法單元。Cougar Cove與Lion Cove一樣,注重構建大規模分區(Partition)以減少物理邊界,一次提升硅片面積利用率,降低設計成本和複雜度。

 

另外分支預測(BPU)也是Cougar Cove的關鍵模塊,主要集中提升效率,提升容量減少BPU延遲,同時結合I-TLB和I-CACHE協同工作,確保分支預測後指令快速獲取,提升整體執行效率。

 

 

緩存和線程調度

 

在進入GPU模塊章節之前,這裏有必要額外開個小章節來說明緩存系統和線程調度。主要圍繞內存側緩存(Memory-Side Cache)和新版的線程調度器(Intel Thread Director)展開。

 

內存側緩存(Memory-Side Cache)是Panther Lake處理器中用於優化內存訪問效率的關鍵組件,核心作用是幫助處理器改善延遲、提升帶寬、降低功耗。無論任何版本的Panther Lake,都增加了單獨的8MB內存側緩存(Memory-Side Cache)。

 

 

內存側緩存可做作爲DRAM內存與計算模塊、I/O模塊之間的中間緩存,可將高頻訪問的數據暫存於本地,以減少核心直接訪問DRAM內存的次數,從而顯著降低數據讀取延遲,同時提升單位時間內的數據傳輸帶寬,保障多任務、高負載下的性能穩定。

 

同時內存側緩存還可以答覆減少計算模塊與DRAM內存的數據交互量,降低DRAM Traffic。由於DRAM功耗與數據交互頻率直接相關,內存側緩存的出現能夠進一步幫助Panther Lake降低功耗,提升每瓦性能。

 

除此之外,內存側緩存還可以給I/O、GPU、IPU和媒體引擎體統緩存支持,優化不同組件之間內存交互效率,避免諸如視頻編解碼、圖形渲染時密集I/O任務導致的內存訪問瓶頸。

 

內存側緩存是多模塊組合之下必然且創新型的產物,能夠很好的提升全平臺協同性能。

 

這時候 Panther Lake的緩存一致性與系統協同也成爲內存側緩存和共享緩存都需要解決的問題。針對這一情況,Panther Lake在緩存系統中設置了一致性代理(Coherency Agent,CA)和歸屬代理(Home Agent,HA)作爲協同。

 

其中一致性代理(Coherency Agent,CA)存在於L3共享緩存和LP E-Core的L2共享緩存中,主要作用是實現集羣內及跨集羣的數據同步與仲裁,並且作爲末級緩存(LLC),即L3共享緩存、P-Core、E-Core與第二代可擴展架構(Scalable Fabric Gen 2)的接口。主要用於監測集羣內核心對緩存數據的訪問請求(如讀、寫、修改),避免多個核心同時操作同一數據導致的不一致問題。

 

 

不同集羣之間的一致性代理(Coherency Agent,CA)還通過第二代可擴展架構(Scalable Fabric Gen 2)實現跨集羣的緩存數據同步,確保全處理器範圍內的數據準確性。並從而簡化核心、緩存、GPU模塊、平臺控制模塊(PCD Tile)之間數據交互流程,減少延遲,進而提升數據訪問效率。

 

 

內存測緩存(Memory-Side Cache)則採用的是歸屬代理(Home Agent,HA),需要承擔內存訪問管理與系統級一致性保障,協調全處理器的DRAM內存操作。包括對所有DRAM訪問請求的排序,確保內存操作按邏輯順序執行,避免因併發訪問導致的內存數據混亂。管理內存地址映射,定位數據在內存或緩存中的存儲位置,優化數據讀取路徑。

 

歸屬代理(Home Agent,HA)還會與一致性代理(Coherency Agent,CA)協同工作,當緩存中無目標數據時,歸屬代理(Home Agent,HA)負責發起內存訪問請求,並將獲取的數據分發至對應的核心或緩存,同時更新系統一致性狀態,保障數據在緩存與內存間的同步。

 

從整體上來看。一致性代理(Coherency Agent,CA)注重集羣內部、跨集羣之間的緩存數據一致性維護,歸屬代理(Home Agent,HA)注重DRAM全系統訪問排序與管理,從而實現多核心、多模塊架構下的高效協同能力。

 

在Darkmont E-Core章節中,我們解釋了Lunar Lake E-Core不接入L3緩存環,在物理上更像Panther Lake的LP E-Core。因此在Panther Lake配置中,每個P-Core擁有3MB L2緩存,每4個E-Core共享L2緩存,LP E-Core的L2緩存對比Meteor Lake和Arrow Lake在容量上是翻倍的。

 

 

線程調度器(Intel Thread Director)一直是處理器中調度不同核心工作的重要模塊,特別是從Meteor Lake混合核心開始,調度功能變得愈發重要。

 

 

在調度理念上,Panther Lake線程調度器(Intel Thread Director)遵循LP E-Core、E-Core、P-Core的順序,並進行了關鍵性增強。比如針對P-Core和E-Core優化分類模型,擴展繁忙的場景應用。

 

同時PC軟件和遊戲已經呈現出集中化的趨勢,大部分軟件和遊戲已經能夠被輕鬆識別,因此線程調度器(Intel Thread Director)能夠更好的對正在運行的應用進行識別,增強跨場景線程表現,自動適配辦公軟件、遊戲、渲染等應用的不同負載。另外線程調度器也會協同軟件系統OS實現效能、混合、無分區多種模式調度,針對性的匹配Team、Cinebench、DirectX 12遊戲線程調度優化。

 

 

伴隨着線程調度器(Intel Thread Director)升級,Panther Lake也打通了IP到OS垂直整合的鏈路,從Cougar Cove和Darkmont IP的架構優化,到線程調度,再到軟件層的電源管理策略,都可以更好實現。

 

例如OEM自定模式中可以提供更精密的性能、功耗調整,動態的提供電源分配,提供能效比。在現場,英特爾展示了Panther Lake在CINEBENCH 2024單線程場景和UL Procyon Office中,基準性能提升19%。

 

另外,用戶也可以通過Intel Intelligent Experience Optimizer自動優化Windows電源管理模式,自動獲得續航與性能上的動態調節。原本筆記本模式調整可能只有2-3檔模式調整,比如省電-平衡-性能,現在通過Intel Intelligent Experience Optimizer,筆記本自己就可以擁有數百檔的動態自能調節,這個過程無需用戶手動。

 

 

Xe3 GPU與XeSS-MFG多幀生成

 

即便是獲得了NVIDIA的投資,英特爾Xe3 GPU從目前來看仍有着自己的野心。如果不出意外,正式發佈的時候,搭配12核Xe3 GPU的產品很可能會是市面上的最強核顯,遊戲掌機和輕薄筆記本處理能力再向上提升一個層級,這也是筆者最爲期待的。

 

 

在現場,英特爾還大方展示了更強悍的Xe3P GPU的存在,至於用在什麼地方,英特爾表示以後再告訴我們,但可以確定的是,Battlemage獨顯已經箭在弦上。

 

 

Xe3 GPU會根據不同配置給與4核到12核的配置,製程工藝包括Intel 3和臺積電N3E,這也從側面展示了Panther Lake極強的擴展能力。

 

 

Xe3作爲英特爾新一代圖形加速核心,展現了極強的紙面性能,相對上一代Lunar Lake GPU可以獲得50%的圖形性能提升,50%的AI TOPS提升,相較於Arrow Lake H GPU有40%的能效比提升。

 

 

在底層架構上,Xe3依然沿用了渲染切片(Render Slice)設計,包括4Xe和12Xe兩種變體。每一個Xe3 Core內都包含8個512-bit向量引擎(XVE),8個2048-bit矩陣加速引擎(XMX)。每個Xe3內海擁有1個光線追蹤單元(RTU),以及用於光線追蹤的BVH緩存,支持動態光線管理與異步光線追蹤。

 

 

在緩存系統上,Xe3擁有16MB L2緩存,12個採樣器(samplers)和12個像素後端(pixel backends)。

 

每個Xe3 Core還會匹配1個XMX引擎,單個XMX引擎現在可以在每個時鐘週期內處理1024次TF32運算、2048次FP16/BF16運算、4096次INT8運算、8192次INT4/INT2運算,相比Xe2提升33%。整體GPU AI算力達120TOPS,進而讓XeSS2和XeSS-MFG多幀生成提供AI砝碼,同時也能更好的滿足AI創作的任務。

 

 

在功能上,Xe3與微軟合作,支持DirectX Cooperative Vectors,將矩陣乘法加速引入着色器,提供2倍各向異性過濾速率、2倍模板測試速率,同時命令前端(Command Front End)提升25%現成,支持可變寄存器分配與FP8反量化。

 

 

Xe3架構相比Xe2有明顯優勢,例如在無SIMD32溢出+可變寄存器的場景中,性能可以達到Xe2的7.4倍,計算着色器可達2.7倍,計算與像素着色器、異步計算調用場景中,Xe3性能也普遍在Xe2的1.5倍到3.1倍之間。

 

Panther Lake在單幀延遲上也有明顯提升。同樣場景下,12核Xe3單幀延遲可以從45.44ms降低至22.84ms。

 

AI的增強讓XeSS也進階到超分辨率(XeSS-SR)搭配XeSS-MFG多幀生成(Multi-Frame Generation)的形式。在邏輯上與DLSS-MFG多幀生成類似,無需藉助硬件光流加速器,通過深度、運動向量(Motion Vectors),讓1幀原始畫面獲得最高4幀的畫面輸出,配合超分XeSS-SR,效果可以獲得成倍的提升。

 

 

在現場,英特爾通過DEMO演示了第一人稱射擊遊戲,雖然看不到實際幀率,實際效果已經與獨顯旗鼓相當了。

 

 

AI增強遊戲畫質並非沒有缺點。爲了避免生成畫面導致的畫質劣化,英特爾會通過Presentmon增強工具監控原生畫面與生成畫面的動畫誤差,確保流暢度穩定性。同時生成幀會結合光流投影、運動向量、深度差值等多個維度,確保生成畫面與原生畫面風格轉一致,進而減少僞影和卡頓。另外與NVIDIA DLSS 4一樣,在遊戲中也會提供2X到4X幀生成,允許用戶自行調節。

 

降低系統延遲和加載時間也是Panther Lake的關注點。英特爾提出了雲端預編譯着色器概念。即在雲端收集遊戲着色器後,通過預編譯優化和圖形分發服務推送到終端,在遊戲安裝的同時就會直接加載優化後的着色器,以降低首次啓動遊戲的等待時間。

 

 

另外Panther Lake還引入了Intelligent Bias Control v2防止遊戲幀率驟降,通過固件啓發式算法(Firmware Heuristics),提供 GPU 時鐘頻率提示(Hinting)與平衡(Balancing),優先保障GPU遊戲性能,自動爲Xe Core配置更多功耗預算,避免因功耗不足導致的性能瓶頸。

 

 

在英特爾的展示中,12核Xe3在17W TDP、1080p中等畫質下,表現遠超Xe2的Intel Arc 140V GPU,包括《黑神話:悟空》《戰神:諸神黃昏》《賽博朋克 2077》平均FPS提升10%,99% Low FPS提升25%,卡頓大幅減少。

 

 

需要注意的是,Xe媒體引擎獨立於GPU模塊,內置在計算模塊中,提供了AVC、H.265(HEVC)、VP9、XAVC-H/S/HS支持,新增10-bit AVC編解碼,這也使得Panther Lake更爲專業。

 

 

NPU 5:原生支持FP8

 

Panther Lake中的NPU 5相比Lunar Lake NPU 4進行了大幅更新,首次原生支持FP8,在面積更小的情況下獲得更高的性能。同時NPU 5也很剋制的將AI算力控制在了50 TOPS,如果按照NPU 4的面積,NPU 5是有機會做到性能成倍提升的。

 

 

NPU 5同樣使用了模塊化設計,包含3個神經計算引擎(NCE),多個數字信號處理器(SHAVE DSP)。其中每個神經計算引擎(NCE)包含MAC陣列(矩陣乘法與卷積陣列),支持INT8、FP8和FP16,單週期可處理4096次INT8/FP8運算、2048次FP16運算。

 

NPU 5內還包含4.5MB Scratchpad RAM作爲臨時存儲,256KB L2緩存,是NPU 4的兩倍。

 

 

由於NPU 5原生支持FP8,使得在處理BF8/E4M3、HF8/E5M2等FP8數據類型時,內存佔用可以減少50%,吞吐量提升2倍,在Stable Diffusion任務中,能耗上會有更好的表現。同時NPU 5還支持ReLU、PReLU、GELU、Tanh等非線性激活函數,重構數據轉換流水線,原生支持FP32/FP16/BF16/FP8/INT8/INT4精度轉換。

 

 

NPU 5帶來的50 TOPS算力主要用於AI PC場景中本地LLM推理、AI助手、實時圖像增強等工作。CPU的10 TOPS則用來完成VNNI和AVX輕量AI任務,GPU的120 TOPS則是用來支持遊戲和內容創作AI重載任務。

 

在XPU的統一調度下,Panther Lake總計可以做到180 TOPS的AI算力,相對於Lunar Lake提升50%。

 

 

在DEMO現場,英特爾展示了諸多基於Panther Lake平臺實現的AI應用,以證明產品對現有AI應用已經提供了很好的兼容性。

 

 

IPU 7.5:AI之外的圖像增強

 

不是所有的場景處理都需要AI硬件進行增強的,例如攝像頭和屏幕HDR增強,實際上都可以通過IPU完成。Panther Lake IPU 7.5作爲最新版本的IPU,主要圍繞視頻會議、智能邊緣視覺場景展開,這也是Panther Lake可以應用於邊緣計算的關鍵核心之一,在工控領域,自動駕駛系統、醫療患者監測、安全防護監測、工業質量控制,都可以依賴於IPU 7.5來完成。

 

 

這也是英特爾在整合部門之後,Panther Lake還將承擔起PC領域之外的業務擴展工作。

 

 

IPU 7.5作爲圖像信號處理器(ISP)的核心,被用於解決場景、光學元件和傳感器帶來的成像問題,處理流程涉及場景、光學元件、傳感器,並最終輸出包運動、光照、色彩、深度等圖像信息。具有處理速度快,節能,專職專用的特點。自從英特爾在2014年推出IPU 2開始,十年期間IPU升級沒有間斷過。

 

 

Panther Lake IPU 7.5最高支持3個攝像頭併發,核心處理模塊包含傳感器與光學引擎(鏡頭與色彩補償、高畫質去馬賽克等)、噪聲與紋理引擎(空間降噪、AI 降噪等)、色彩處理引擎(自適應色彩還原、裁剪縮放等),還具備相機 3A 統計(自動曝光、自動白平衡、自動對焦)與防抖功能。

 

 

得益於8MB內存側緩存中歸屬代理(Home Agent,HA)可以對所有模塊的換從調動,IPU 7.5還可以與CPU、GPU、NPU產生聯動,進而實現AI增強圖像處理,突破本地SRAM對時間域處理(Temporal Processing)的限制。

 

IPU 7.5可實現最高500萬像素攝像頭在弱光環境下的圖像清晰度,提升幀率與銳度,優化色調映射。另外還可以獲得AI色調映射可增強對比度,避免光暈、色彩失真,保證時間域行爲穩定。

 

 

在播放4K HDR視頻時,IPU 7.5通過協同多個傳感器,通過雙曝光與自適應曝光控制,保留高光與陰影細節,同等畫質下,幫助筆記本節省1.5W功率。

 

 

另外IPU 7.5還支持最高1600萬像素靜態圖像,實現零快門延遲。可拍攝1080P 120幀慢動作視頻。

 

 

Wi-Fi 7 R2與藍牙Core 6.0

 

最後是無線性能。Panther Lake提供了Intel Wi-Fi 7 BE211 CRF模塊,對應Intel Killer 1775,支持Wi-Fi 7 R2標準,CNVio 3接口支持11Gbps速率,相比CNVio 2的5Gbps提升了120%。另外藍牙模塊支持藍牙Core 6.0和LE Audio。

 

 

Wi-Fi 7 R2主要集中在效率與穩定性上,增強動態管理活躍鏈路的資源分配、IoT設備優先級分配,單射頻客戶端實現MLO,避免P2P流量干擾設備。爲特定設備分配固定時間片,實現可預測的延遲與可靠性,適配AI推理、實時協作等場景。

 

 

藍牙Core 6.0則注重音頻體驗和功能升級,包括LE Audio低功耗音頻,Auracast廣播,提升助聽器兼容性,支持多組音頻流同步,實現不同設備之間無縫切換等等。

 

 

寫在最後:新希望

 

無論性能還是能耗,英特爾Panther Lake給人的第一印象都非常深刻。按照計劃,Panther Lake的實際搭載產品將會在CES2026正式展出,英特爾還有幾個月的時間調試18A性能,以確保最終表現。

 

如果一切順利,Panther Lake綜合性能無疑會有大幅度提升,輕薄本在成本可控的前提下向長續航和高性能進發,高性能本的多線程和遊戲性表現也會更爲突出。英特爾18A製程工藝已經給我們留足懸念,接下來只需要給點耐心,把舞臺交給下一代酷睿Ultra。

 

 

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com