四核CPU技术详解内存控制器与预取器(2)

发布时间：2012-08-27 来源：米鼠网

摘要:三、SSE、浮点性能翻倍-全面增至128位 Barcelona一项重要的改进就是AMD反复宣传的128位SSE执行位宽。在K8构架中，AMD虽然做到了双路SSE执行单元，但这两个SSE执行单元位宽仅是64位，这样在处理大量的128位SSE指令时

　　三、SSE、浮点性能翻倍-全面增至128位

　　Barcelona一项重要的改进就是AMD反复宣传的128位SSE执行位宽。在K8构架中，AMD虽然做到了双路SSE执行单元，但这两个SSE执行单元位宽仅是64位，这样在处理大量的128位SSE指令时，K8芯片就需要先把128位SSE、SSE2、SSE3中的矢量指令分解为两个64位宏指令，然后由其64位SSE执行单元分别处理再合并，这对处理器的性能是有较大的损失的。在Barcelona拥有128位的SSE执行位宽后，128位的SSE指令就不再需要分解再合并，而是直接运算，这大约只需要过去的1/3的执行时间，效率大为提高。同样，浮点调度单元也扩展到128 位，在前文中已详细描述，目前可以肯定的是128位的浮点运算单元和调度单元将至少使K8L构架处理器在FPU、向量SSE数据的分派、传输、解码速度三方面同时达到现有K8构架同频率处理器的两倍速度。

　　增强了SSE性能之后，Barcelona拥有了比K8芯片强大2倍的SSE处理性能，同时AMD也发现16位的取指令单元位宽已经成为了一个新的性能瓶颈。于是K8构架的16位取指令单元位宽也适应时代的改进为32位，这样瓶颈问题就得到了解决。在拥有了强大的执行单元后，接下来要做的就是确保及时输入足够的数据，AMD在此将L1缓存至执行单元的位宽由双路64位增强为双路128位。同样L1缓存至L2缓存及内存的位宽也同样增强到128位。

　　128位SSE执行单元的改进与INTEL由Yonah至Merom/CORE的改进相类似。两年前，我们曾在评测中将Yonah芯片和K8芯片运行在同一频率，结果说明Yonah的视频编码性能大幅落后于K8。虽然Yonah相对上一代的Dothan已经在SSE性能上改进了不少，但直到CORE构架的改进完成，Pentium M构架体系才真正在SSE性能方面超越了AMD的K8构架。无论是其128位SSE执行单元位宽、128位的前端接口，CORE构架的解码能力当时都大副超越了K8构架。

　　在前文中，我们已经介绍过AMD在K8L构架的浮点运算器方面进行性能翻倍的改进：FADD、FMUL及SSE等浮点运算器将由64 位扩展到128位。同时，K8L构架的两条浮点数据传输带宽也加宽到128位，使得处理器可以与L1缓存进行128位的高速传输。相比只拥有一条浮点数据传输带的CORE构架，K8L将有一定的优势。同时，K8L构架在浮点FADD和FMUL中也将拥有128位的ADD/MUL块处理能力来面对SSE2数据。在K8构架中FSTORE单元所存在的传输及运算法则缺陷等问题也将在K8L中得到改进。K8L构架的浮点运算能力将至少比K8构架快一倍，甚至比当前最强大的CORE构架处理器还要快10%，尤其在处理没有SSE优化的X87数据时，K8L构架芯片将比CORE构架芯片快50%以上。

　　四、K8软肋不再-分支预测器的重要改进

　　一般而言，CPU采用的分支预测技术的精准性决定着该CPU构架最适合的流水线宽度和级数。分支预测器能够正确预测的数据就相当于CPU能够处理的最佳数据量，只有这部分数据能够成为被准确处理的信息。K8构架的分支预测器与其构架是搭配的十分和谐的，但在对手的Pentium M构架和Pentium 4系列中，也有AMD值得借鉴的长处。由于当时技术的原因，K8构架最重要的软肋就是－没有间接分支预测器。

　　进化到K8L构架时代，AMD在Barcelona中增加了一个512路的间接分支预测器，它的作用是预测间接数据。间接数据是指处理器需要动用到内存里的数据，这是一个相当大的数据量。相对直接分支预测器给予CPU一个精准的地址，间接分支预测器给予了CPU大量的内存中所可能使用的数据。

　　INTEL在Pentium M构架中首次加入了间接分支预测器，INTEL的思路是尽一切可能缩小预测数据的范围，从而最大可能的提升CPU运算效率和降低无意义的能耗。 NetBurst构架的Prescott芯片中同样也加入了间接分支预测器，这对于超长流水线操作的NetBurst构架是十分有益的。Prescott 芯片加入间接分支预测器后，其整体预测错误率降低了12%，最高在253.perlbmk专项性能中降低了55%的错误率。AMD与INTEL的分支预测算法不同，但可以肯定的是：间接分支预测器带给Barcelona芯片的性能提高也是相当的。

　　Barcelona不仅仅加入了新的间接分支预测器，它的返数据存储器也扩大了两倍。当一条编码需要动用到许多子程序时，CPU的返数据存储器就可能超载从而无法满足所有的分支预测任务，AMD此次将返数据存储器扩大了一倍，对性能的提升是十分有益处的。在AMD新返数据存储器的软件招标中，有大量的软件公司参与投标。

　　在分支预测器技术上，AMD还有一项传统的改进-记录更多的历史预测结果。借鉴历史结果，这是一种显而易见的提升正确率的方法。越多的历史预测结果记录，就越能完整的提供此次的结果范围。相比K8构架最初采用的130纳米工艺，K8L构架采用了更精细的65纳米技术，使得K8L构架拥有了两倍于K8构架的预测结果记录器容量。

四核CPU技术详解内存控制器与预取器(2)

相关阅读：

图文推荐

推荐阅读

其他人正在看……

四核CPU技术详解 内存控制器与预取器(2)

相关阅读：

图文推荐

推荐阅读

其他人正在看……

四核CPU技术详解内存控制器与预取器(2)