8G3的核心簇也就是众所周知,大家都知道的是1322,1+3+2+2设计非常反直觉
简单而言就是
2-4和7 共用缓存(高频A720和X4)
5-6和7 共享电压(低频A720和X4)
而两颗小核则是核心复合体,共享L2缓存(A520)
‼‼‼而如所说——重点‼‼‼
5-6的实际频率(Cycles),是被7影响的
56或7的 实际电压 总会被 更高电压档位 的那一组覆盖
综上所述
建议5-6不给重负载,锁低频的意义就在于
不让5-6核心吃到负载后升频,
因5-6和7共电压,
5-6升频会让7 被动 的跑在 更高的电压 上
功耗会增加
同时7在游戏中给负载后跑在更高频率,
会带动56的实际频率动态提升,
此时可以给56分一部分低负载过去,
而无需单独动态调整56的频率
————————————————————
(题外话)
而我们亲爱的高通,给这个全处理器频率最高的X4超大核塞了一颗密度库😅😅😅😅
要知道超大核就是用来跑高频负载的,而密度库会导致高频能效飞天
同时图1也可以很清楚的看到核心部分有非常多的空位,作为一个寸土寸金的核心区域,设计不可能留出如此多的结构空位,可以说8g3的出生就是个“废案”(依旧暴论)
接下来我将详细说一下X4有多么逆天(纯手打,未使用AI,所以排版可能有点乱了 )
前端10宽度解码,比后端大太多了
典型的arm核心,各种奇奇怪怪的“特征”,极其“独特”重命名逻辑,严格到姥姥家的数据转发,拉胯的缓存“物理延迟”,粗看,值得称道的也就分支预测和预取。arm的前端可以,重命名逻辑奇怪,访存稀烂,后端又朴素又贫穷,很容易前后不匹配损失性能,arm一直是这样的,X4非常有“arm味”,最大的特点就是抠,从头抠到尾,但是只有分支预测和预取不敢扣,这个我认为也代表了arm的野心,设计重心完全偏向高吞吐,做服务器高性能计算,才是它在有限的成本下的设计偏向,其他什么嵌入式等方向,都是顺带“吃红利”
但是这种设计放在移动端就是一坨,又臭又硬,预取是强,预取发力之后缓存延迟能压到非常低,但是物理延迟做的稀烂,一碰到对预取器不友好的应用,直接暴露原始延迟,移动端最忌变化,延迟跳舞,也正是因为这个原因(最主要是这个原因),在“绝区零”里面,能够完美体现这点,公版架构那个帧数曲线完全是在跳舞,哈哈。用的都是平板性能,释放都很激进,线程调度没有问题
还有公版架构a76是一次“飞跃”,x925又是一次飞跃,这两个都是大幅改进了store to load fowarding(缓解 store-load数据依赖导致延迟上升的问题)逻辑,a76是引入了这个机制,但是限制非常多, 有严格的对齐要求,能触发这个机制的场景少之又少,X925大幅放宽了这个限制,和zen5 lion cove差不多了
如果抛开其他因素的话,arm设计功底是在上升的,因为a76一直小修小改到x4(除了分支预测和预取)大幅放宽数据转发限制之后,speedometer3终于冲上25分,泪目了。之前x3-x4在这里,实测只有skylake水平,哈哈,speedometer3就是访存子系统(消费级方向)的很有参考性的试金石,而且我觉得能效曲线这东西有点扯淡(严谨来说),趋势应该是没错的,就从内存来说(还有总线等其他因素),一个核心,不同的内存频率都能跑出来不一样的能效,测试能效曲线的时候能保证内存频率上,是最佳表现吗?
我这只是说了一个不严谨的点,实际上应该控制变量的点非常多,这还是单核,多核那就更离谱了,就拿核心频率来说,这么多个核心,你猜猜有多少种频率搭配能跑出这个分数?制程,是第一生产力 ,而且苹果架构做得很好,全封闭生态,优化方面也是杠杠的,而且成本限制小,缓存,封装,都能猛猛堆料,成本直接被iPhone iPad 等设备吞掉,不过,我认为oryon3 (8eg5)也算一个消费级超强的架构, 安卓生态烂,优化差,开发者摆烂,怎么办?
超强的soc硬抗,高通这个自研架构在内存缓存性能上丝毫没马虎,“物理延迟”,非常低,超大容量的情况下,冲超高频率的情况下,还保留住了指针追逐优化,这些是高通在speedometer3浏览器性能测试能这么强的根本原因,也是最重要的原因,一切为了更低延迟,官方的宣传标语都是“唯快不破”,哈哈。用架构硬实力硬扛所有拉优化。oryon2(8至尊),也很不错了,只是oryon3,优化了oryon2的一些缺点和bug,加强了“超高压”场景的表现。
说回x4,看似10宽,一测前端吞吐几乎到不了10条指令,执行单元堆的老多,实战基本发挥不出来 你看像不像A715 double mop微指令缓存去除了,只能加宽前端维持吞吐量,bp进步了mop没啥用,主要是虽然是10宽,但是取指最多9条,堆规模如堆了笑死了,一次最多9条啊,真没招,看呆了,如堆了属于是,就算去掉了mop cache,x3是6宽,加到8宽就差不多了,而且缓冲区384也不够完全撑起来,x925还是10宽,ooo翻倍了,那你x4就加到10宽是为了什么 ,,,,战略性加宽来了,明显水平不如x3,性能+14%,功耗+45%,太逆天了,X4加到10宽太夸张了,X3才6宽,如果X4能8宽或者9宽,能效会进一步提升,x4是最离谱的产物,我感觉,10宽解码,l1i也能提供10条指令,结果重命名宽度只有九(疑似),前面做这一切都白费,哈哈实际前端吞吐被严重限制,吃了面基,吃了功耗,又不提供对应性能,哈哈,不过arm重命名做得差是祖传的“下毒点”,连最基本的假依赖消除都吃不满理论带宽,x925对比x4提升448/384=1.166667,其实只有17%,实测c1u对比x925数据是608/448=1.357143,35% 36%,已经大得离谱了,就是不知道issue queue有没有加码,是不是还像之前一样抠的离谱?说回x4,x4的翻车对比x2完全是不逞多让的,但是好歹是性能和功耗不对比,最多是ppa三角失衡,前端说完了说后端,为了配合10取指的前端,后端单元也增加了,多到令人恐惧:8 ALU、3 BRU。这样的配置是否有必要我们暂且搁置,但是Arm总能在这里做出许多令人百思不得其解的操作。
例如8G3 X4去年的X3配备了6个ALU,但是经过我的测试dispatch级并不能每周期分派6条简单ALU指令,而是4条!也就是说多出的ALU仅仅提供了burst性能而不是sustained throughput。Damn Arm,what are you doing? 恐怕是出于重命名部分的限制?能不能改改你们那万年不动的rename逻辑,再下去快赶不上新时代本科毕业水准了 可能很多人会吐槽MCQ(ROB)的容量增长幅度太小,但是Arm的ROB并不是一个完全传统的ROB,直接将容量和Intel、AMD之流对比不甚科学。
它能在某些情况下容纳两条指令,而且还要考虑Arm的“early deallocation”方面的优化,因此实际等效容量会大一些。slice powerdown非常拉胯,因为不支持1/2的容量。每次变slice power mode还需要flush l3,延迟很高。实测基本不可用。ram powerdown虽然支持1/2但是无法关闭victim cache很多厂商也是摒弃。 arm其实发现问题了下一版的dsu加了1/2的slice powerdown
还有处理器 实际频率 比 目标频率 高这件事也很常见,我没记错的话有人发布过一篇关于cycles的帖子,里面有具体提到过这个情况,不过和温度相关,是cycles的影响因素
欢迎各位评论区讨论,保持疑惑和学习的态度
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
更多游戏资讯请关注:电玩帮游戏资讯专区
电玩帮图文攻略 www.vgover.com
