此文写给还在坚持使用8G3的玩机人，可能是8G3全网最全解析

8G3的核心簇也就是众所周知，大家都知道的是1322，1+3+2+2设计非常反直觉

简单而言就是

2-4和7 共用缓存（高频A720和X4）

5-6和7 共享电压（低频A720和X4）

而两颗小核则是核心复合体，共享L2缓存（A520）

‼‼‼而如所说——重点‼‼‼

5-6的实际频率(Cycles)，是被7影响的

56或7的实际电压总会被更高电压档位的那一组覆盖

综上所述

建议5-6不给重负载，锁低频的意义就在于

不让5-6核心吃到负载后升频，

因5-6和7共电压，

5-6升频会让7 被动的跑在更高的电压上

功耗会增加

同时7在游戏中给负载后跑在更高频率，

会带动56的实际频率动态提升，

此时可以给56分一部分低负载过去，

而无需单独动态调整56的频率

————————————————————

（题外话）

而我们亲爱的高通，给这个全处理器频率最高的X4超大核塞了一颗密度库😅😅😅😅

要知道超大核就是用来跑高频负载的，而密度库会导致高频能效飞天

同时图1也可以很清楚的看到核心部分有非常多的空位，作为一个寸土寸金的核心区域，设计不可能留出如此多的结构空位，可以说8g3的出生就是个“废案”（依旧暴论）

接下来我将详细说一下X4有多么逆天（纯手打，未使用AI，所以排版可能有点乱了）

前端10宽度解码，比后端大太多了

典型的arm核心，各种奇奇怪怪的“特征”，极其“独特”重命名逻辑，严格到姥姥家的数据转发，拉胯的缓存“物理延迟”，粗看，值得称道的也就分支预测和预取。arm的前端可以，重命名逻辑奇怪，访存稀烂，后端又朴素又贫穷，很容易前后不匹配损失性能，arm一直是这样的，X4非常有“arm味”，最大的特点就是抠，从头抠到尾，但是只有分支预测和预取不敢扣，这个我认为也代表了arm的野心，设计重心完全偏向高吞吐，做服务器高性能计算，才是它在有限的成本下的设计偏向，其他什么嵌入式等方向，都是顺带“吃红利”

但是这种设计放在移动端就是一坨，又臭又硬，预取是强，预取发力之后缓存延迟能压到非常低，但是物理延迟做的稀烂，一碰到对预取器不友好的应用，直接暴露原始延迟，移动端最忌变化，延迟跳舞，也正是因为这个原因（最主要是这个原因），在“绝区零”里面，能够完美体现这点，公版架构那个帧数曲线完全是在跳舞，哈哈。用的都是平板性能，释放都很激进，线程调度没有问题

还有公版架构a76是一次“飞跃”，x925又是一次飞跃，这两个都是大幅改进了store to load fowarding（缓解 store-load数据依赖导致延迟上升的问题）逻辑，a76是引入了这个机制，但是限制非常多，有严格的对齐要求，能触发这个机制的场景少之又少，X925大幅放宽了这个限制，和zen5 lion cove差不多了

如果抛开其他因素的话，arm设计功底是在上升的，因为a76一直小修小改到x4（除了分支预测和预取）大幅放宽数据转发限制之后，speedometer3终于冲上25分，泪目了。之前x3-x4在这里，实测只有skylake水平，哈哈，speedometer3就是访存子系统（消费级方向）的很有参考性的试金石，而且我觉得能效曲线这东西有点扯淡（严谨来说），趋势应该是没错的，就从内存来说（还有总线等其他因素），一个核心，不同的内存频率都能跑出来不一样的能效，测试能效曲线的时候能保证内存频率上，是最佳表现吗？

我这只是说了一个不严谨的点，实际上应该控制变量的点非常多，这还是单核，多核那就更离谱了，就拿核心频率来说，这么多个核心，你猜猜有多少种频率搭配能跑出这个分数？制程，是第一生产力，而且苹果架构做得很好，全封闭生态，优化方面也是杠杠的，而且成本限制小，缓存，封装，都能猛猛堆料，成本直接被iPhone iPad 等设备吞掉，不过，我认为oryon3 （8eg5）也算一个消费级超强的架构，安卓生态烂，优化差，开发者摆烂，怎么办？

超强的soc硬抗，高通这个自研架构在内存缓存性能上丝毫没马虎，“物理延迟”，非常低，超大容量的情况下，冲超高频率的情况下，还保留住了指针追逐优化，这些是高通在speedometer3浏览器性能测试能这么强的根本原因，也是最重要的原因，一切为了更低延迟，官方的宣传标语都是“唯快不破”，哈哈。用架构硬实力硬扛所有拉优化。oryon2（8至尊），也很不错了，只是oryon3，优化了oryon2的一些缺点和bug，加强了“超高压”场景的表现。

说回x4，看似10宽，一测前端吞吐几乎到不了10条指令，执行单元堆的老多，实战基本发挥不出来你看像不像A715 double mop微指令缓存去除了，只能加宽前端维持吞吐量，bp进步了mop没啥用，主要是虽然是10宽，但是取指最多9条，堆规模如堆了笑死了，一次最多9条啊，真没招，看呆了，如堆了属于是，就算去掉了mop cache，x3是6宽，加到8宽就差不多了，而且缓冲区384也不够完全撑起来，x925还是10宽，ooo翻倍了，那你x4就加到10宽是为了什么，，，，战略性加宽来了，明显水平不如x3，性能+14%，功耗+45%，太逆天了，X4加到10宽太夸张了，X3才6宽，如果X4能8宽或者9宽，能效会进一步提升，x4是最离谱的产物，我感觉，10宽解码，l1i也能提供10条指令，结果重命名宽度只有九（疑似），前面做这一切都白费，哈哈实际前端吞吐被严重限制，吃了面基，吃了功耗，又不提供对应性能，哈哈，不过arm重命名做得差是祖传的“下毒点”，连最基本的假依赖消除都吃不满理论带宽，x925对比x4提升448/384=1.166667，其实只有17%，实测c1u对比x925数据是608/448=1.357143，35% 36%，已经大得离谱了，就是不知道issue queue有没有加码，是不是还像之前一样抠的离谱？说回x4，x4的翻车对比x2完全是不逞多让的，但是好歹是性能和功耗不对比，最多是ppa三角失衡，前端说完了说后端，为了配合10取指的前端，后端单元也增加了，多到令人恐惧：8 ALU、3 BRU。这样的配置是否有必要我们暂且搁置，但是Arm总能在这里做出许多令人百思不得其解的操作。

例如8G3 X4去年的X3配备了6个ALU，但是经过我的测试dispatch级并不能每周期分派6条简单ALU指令，而是4条！也就是说多出的ALU仅仅提供了burst性能而不是sustained throughput。Damn Arm，what are you doing? 恐怕是出于重命名部分的限制？能不能改改你们那万年不动的rename逻辑，再下去快赶不上新时代本科毕业水准了可能很多人会吐槽MCQ（ROB）的容量增长幅度太小，但是Arm的ROB并不是一个完全传统的ROB，直接将容量和Intel、AMD之流对比不甚科学。

它能在某些情况下容纳两条指令，而且还要考虑Arm的“early deallocation”方面的优化，因此实际等效容量会大一些。slice powerdown非常拉胯，因为不支持1/2的容量。每次变slice power mode还需要flush l3，延迟很高。实测基本不可用。ram powerdown虽然支持1/2但是无法关闭victim cache很多厂商也是摒弃。 arm其实发现问题了下一版的dsu加了1/2的slice powerdown

还有处理器实际频率比目标频率高这件事也很常见，我没记错的话有人发布过一篇关于cycles的帖子，里面有具体提到过这个情况，不过和温度相关，是cycles的影响因素

欢迎各位评论区讨论，保持疑惑和学习的态度