新农首页 农业新闻 致富信息 农业技术 农业搜索 农药 电脑 网站地图

四核CPU技术详解 内存控制器与预取器(2)

发布时间:2012-08-27  来源:米鼠网
摘要:三、SSE、浮点性能翻倍-全面增至128位 Barcelona一项重要的改进就是AMD反复宣传的128位SSE执行位宽。在K8构架中,AMD虽然做到了双路SSE执行单元,但这两个SSE执行单元位宽仅是64位,这样在处理大量的128位SSE指令时


  三、SSE、浮点性能翻倍-全面增至128位

  Barcelona一项重要的改进就是AMD反复宣传的128位SSE执行位宽。在K8构架中,AMD虽然做到了双路SSE执行单元,但这两个SSE执行单元位宽仅是64位,这样在处理大量的128位SSE指令时,K8芯片就需要先把128位SSE、SSE2、SSE3中的矢量指令分解为两个64位宏指令,然后由其64位SSE执行单元分别处理再合并,这对处理器的性能是有较大的损失的。在Barcelona拥有128位的SSE执行位宽后,128位的SSE指令就不再需要分解再合并,而是直接运算,这大约只需要过去的1/3的执行时间,效率大为提高。同样,浮点调度单元也扩展到128 位,在前文中已详细描述,目前可以肯定的是128位的浮点运算单元和调度单元将至少使K8L构架处理器在FPU、向量SSE数据的分派、传输、解码速度三方面同时达到现有K8构架同频率处理器的两倍速度。 

  增强了SSE性能之后,Barcelona拥有了比K8芯片强大2倍的SSE处理性能,同时AMD也发现16位的取指令单元位宽已经成为了一个新的性能瓶颈。于是K8构架的16位取指令单元位宽也适应时代的改进为32位,这样瓶颈问题就得到了解决。在拥有了强大的执行单元后,接下来要做的就是确保及时输入足够的数据,AMD在此将L1缓存至执行单元的位宽由双路64位增强为双路128位。同样L1缓存至L2缓存及内存的位宽也同样增强到128位。 

  128位SSE执行单元的改进与INTEL由Yonah至Merom/CORE的改进相类似。两年前,我们曾在评测中将Yonah芯片和K8芯片运行在同一频率,结果说明Yonah的视频编码性能大幅落后于K8。虽然Yonah相对上一代的Dothan已经在SSE性能上改进了不少,但直到CORE构架的改进完成,Pentium M构架体系才真正在SSE性能方面超越了AMD的K8构架。无论是其128位SSE执行单元位宽、128位的前端接口,CORE构架的解码能力当时都大副超越了K8构架。 

  在前文中,我们已经介绍过AMD在K8L构架的浮点运算器方面进行性能翻倍的改进:FADD、FMUL及SSE等浮点运算器将由64 位扩展到128位。同时,K8L构架的两条浮点数据传输带宽也加宽到128位,使得处理器可以与L1缓存进行128位的高速传输。相比只拥有一条浮点数据传输带的CORE构架,K8L将有一定的优势。同时,K8L构架在浮点FADD和FMUL中也将拥有128位的ADD/MUL块处理能力来面对SSE2数据。在K8构架中FSTORE单元所存在的传输及运算法则缺陷等问题也将在K8L中得到改进。K8L构架的浮点运算能力将至少比K8构架快一倍,甚至比当前最强大的CORE构架处理器还要快10%,尤其在处理没有SSE优化的X87数据时,K8L构架芯片将比CORE构架芯片快50%以上。 

  四、K8软肋不再-分支预测器的重要改进

  一般而言,CPU采用的分支预测技术的精准性决定着该CPU构架最适合的流水线宽度和级数。分支预测器能够正确预测的数据就相当于CPU能够处理的最佳数据量,只有这部分数据能够成为被准确处理的信息。K8构架的分支预测器与其构架是搭配的十分和谐的,但在对手的Pentium M构架和Pentium 4系列中,也有AMD值得借鉴的长处。由于当时技术的原因,K8构架最重要的软肋就是-没有间接分支预测器。 

  进化到K8L构架时代,AMD在Barcelona中增加了一个512路的间接分支预测器,它的作用是预测间接数据。间接数据是指处理器需要动用到内存里的数据,这是一个相当大的数据量。相对直接分支预测器给予CPU一个精准的地址,间接分支预测器给予了CPU大量的内存中所可能使用的数据。 

  INTEL在Pentium M构架中首次加入了间接分支预测器,INTEL的思路是尽一切可能缩小预测数据的范围,从而最大可能的提升CPU运算效率和降低无意义的能耗。 NetBurst构架的Prescott芯片中同样也加入了间接分支预测器,这对于超长流水线操作的NetBurst构架是十分有益的。Prescott 芯片加入间接分支预测器后,其整体预测错误率降低了12%,最高在253.perlbmk专项性能中降低了55%的错误率。AMD与INTEL的分支预测算法不同,但可以肯定的是:间接分支预测器带给Barcelona芯片的性能提高也是相当的。 

  Barcelona不仅仅加入了新的间接分支预测器,它的返数据存储器也扩大了两倍。当一条编码需要动用到许多子程序时,CPU的返数据存储器就可能超载从而无法满足所有的分支预测任务,AMD此次将返数据存储器扩大了一倍,对性能的提升是十分有益处的。在AMD新返数据存储器的软件招标中,有大量的软件公司参与投标。 

  在分支预测器技术上,AMD还有一项传统的改进-记录更多的历史预测结果。借鉴历史结果,这是一种显而易见的提升正确率的方法。越多的历史预测结果记录,就越能完整的提供此次的结果范围。相比K8构架最初采用的130纳米工艺,K8L构架采用了更精细的65纳米技术,使得K8L构架拥有了两倍于K8构架的预测结果记录器容量。 

打印 责任编辑:希望