Inter系列CPU里面cache容量计算是多少

当前位置: >>
常用英特尔至强处理器对比
英特尔至强 5600 处理器经典问答集锦
09:47 洪钊峰 IT168跟至强 5500 相比,至强 5600(代号:Westmere-EP)的重要变化在于:32 纳米工艺、6 核心 12 线程设计、3.46GHz 的更高主频、12MB 的更大 L3 缓存,以及在能耗管理方面的增强技术等。本文对至强 5600 进行了详细的介绍。 2010 年,根据英特尔 TICK-TOCK 的策略,至强服务器不仅将延承 Nehalem 架构的诸多优势,还将进入全新的 32 纳米工艺时代。在基于英特尔平台的双路服务器市场,最值得期待的莫过于“采用 32 纳米工艺和 Nehalem 微架 构,代号 Westmere-EP 的新一代至强 5600 系列处理器”。IT168 服务器频道收集整理了关于至强 5600 的一些常 见问题解答,希望能够帮助大家对这一代新产品有更清晰的认识。 问题 1:与上一代至强 5500 相比,至强 5600 有哪些重要不同? 同样针对双路服务器市场,跟至强 5500 相比,至强 5600(代号:Westmere-EP)的重要变化在于:32 纳米工艺、6 核心 12 线程设计、3.46GHz 的更高主频、12MB 的更大 L3 缓存,以及在能耗管理方面的增强技术等。由于决定处 理器最关键的因素有处理器微架构和制造工艺,至强 5600 仍然沿用了至强 5500 的 Nehalem 架构,因此,最重要 的不同就在于 32 纳米工艺。和至强 5500 一样,至强 5600 采用相同的插槽、芯片组,同样具有两个 QPI 通道, 三个内存通道,支持 DDR3 规格内存,主频范围基本相当,也支持超线程、Turbo Boost 等技术。具体如下表所示:英特尔至强 5500 与至强 5600 规格对照表对比 发布时间 代号 制程工艺 晶体管数 架构/芯 片组 内核/线 程 多线程 至强
年 3 月 31 日 Nehalem-EP 45 纳米 7.31 亿 Intel 5520 芯片组 4 核(E5502 是双核) 8 线程 8MB 缓存、6.40 GT/秒 QPI:W GHz) 、 W GHz) 、 X GHz)、 X GHz)、 X GHz) 8MB 缓存、5.86 GT/秒 QPI:E GHz) 、 E GHz) 、 E GHz)、 L GHz)、 L GHz) 4MB 缓存、4.80 GT/秒 QPI:E GHz) 、 L GHz) 、 E GHz)、E GHz) 1.86GHz ~ 3.33GHz 2 4.80 GT/秒,5.86 GT/秒,6.40 GT/秒 4 x 256 KB 4MB/8MB 共享 SSE,SSE2,SSE3,SSE4.2,Intel-VT, VT-d,Turbo Boost,Hyper-Threading 至强
年 3 月 16 日 Westmere-EP 32 纳米 11.7 亿 Intel 5520 芯片组 4核 8 线程 7 款: LGHz) LGHz) EGHz) EGHz) EGHz) XGHz) XGHz) 1.86-3.46GHz 2 6.40 GT/秒 4 x 256 KB 12MB 共享 L5609 不 支 持 超 线 程和睿频加速 6核 12 线程 6 款: WGHz) LGHz) XGHz) XGHz) XGHz) XGHz) 2.26-3.33GHz 2 6.40 GT/秒 6 x 256 KB 12MB 共享 全 部 支 持 Turbo Boost 睿频加速技 术型号主频 QPI 数量 QPI 速率 L2 缓存 L3 缓存 指令集/ 虚拟化 内存控制 器 TDP 功耗集成内存控制器 三通道 DDR3 800/MHz 60W,80W,95W,130W集成内存控制器 三 通 道 DDR3 800/MHz 40W,80W,95W,130W集成内存控制器 三 通 道 DDR3 800/MHz 60W,95W,130WIT168 服务器频道,2009 年 12 月 问题 2:与 45 纳米相比,32 纳米工艺带来了什么样的进步? 英特尔 32 纳米工艺由于采用了第二代高-K 金属栅极晶体管技术,用于高 K 材料的等价氧化物(电介质)的厚度从 45 纳米工艺时的 1 纳米缩小至 0.9 纳米,栅极长度缩小到了 30 纳米,所以单位面积可以集成更多晶体管,处理 器的同比封装尺寸将是 45nm 产品的 70%;同时采用了第 4 代应变硅,电子在晶体管中的流通更顺畅,阻力更小, 耗电更低。因此,相比较于 45 纳米,最新的 32 纳米处理器更小,更快,更强,更高能效。总之,32 纳米工艺进 一步提升了英特尔部署晶体管密度的能力,提升了单位晶体管的性能,降低了单位晶体管的能耗。因此,可以在 相同成本下提高性能,在同样的功耗下提升主频,也可以加入更多内核,把缓存做得更大。比如,得益于工艺进 步,与上一代产品中最高端的 XGHz,95w)相比,L5640(6 核,2.26GHz,60w)的性能相当,但功耗却降低 了 30%。32nm、6 核心 Westmere-EP 核心照 问题 3:英特尔 32 纳米的处理器有哪些? 32 纳米制程工艺会被英特尔用来生产桌面、移动、服务器、嵌入式等面向不同领域的处理器产品。今年 1 月份英 特尔已经发布了 32 纳米 Core i5/i3 处理器(Clarkdale),面向桌面台式机和单路服务器市场。3 月中旬,英特尔 将发布的是 32 纳米的至强 5600 系列(Westmere-EP),针对双路服务器市场。预计明后年,英特尔会推出 32 纳米 的至强 7000 系列(Westmere-EX),针对四路以上的系统。对于四路以上服务器市场,英特尔对新技术的采取相对 缓慢,往往比双路服务器要晚上一年左右,目前最新的进展是 3 月底将要发布的 45 纳米至强 7500 系列 (Nehalem-EX)。 问题 4:什么是英特尔的钟摆模式(Tick-Tock)? 就象钟表发出的滴嗒声一样,英特尔也希望其处理器发展能够象钟摆那样有规律,以协调英特尔内部产品研发、 制造、市场等部门以及与外部软硬件合作伙伴的配套步伐,增强产品的市场竞争力。具体而言,Tick-Tock 摆钟 式的处理器发展战略,就是在奇数年推出新的制程工艺,偶数年推出新的处理器微架构,这样每两年,英特尔就 可以将决定处理器的两大关键核心因素提升到一个新的层次。比如奇数年 2005 年推出 65nm 工艺、2007 年推出 45nm 工艺、2009 年推出 32nm 工艺;偶数年 2006 年推出让 Core 微架构、2008 年推出具有划时代意义的 Nehalem 微架构、2010 年计划推出新一代 Sandy Bridge 微架构。值得注意的是,英特尔的处理器包括桌面、移动、服务 器等多种类型,虽然共享微架构和制程工艺的新技术,但这些处理器的具体发布时间并不相同。问题 5:至强 5600 系列有哪些具体型号,都有什么规格? 3 月 17 日正式发布的首批至强 5600 系列共有 13 款型号,有 6 款 4 核版本和 7 款 6 核版本。 6 核 12 线程的“Xeon X/X/L5640”,主频从 3.33GHz 到 2.26GHz 不等,三级缓存 12MB, 热设计功耗最高端型号 XW、低压版型号 L5640 60W,其它均为 95W,全部支持 Turbo Boost 睿频加速技 术。 4 核 8 线程的“Xeon X/E/E/L5609”,主频从 1.86GHz 到 3.46GHz 不等,三级 缓存容量同样是 12MB,热设计功耗则有 130W、95W、80W、40W 四种,其中两款 Xeon L5600 系列低压版本都是 40W, 但是注意 Xeon L5609 不支持超线程和睿频加速技术。具体如下表所示: 型号 Xeon X5680 Xeon X5670 Xeon X5660 Xeon X5650 Xeon L5640 Xeon W3680 Xeon X5677 Xeon X5667 Xeon E5640 Xeon E5630 Xeon E5620 Xeon L5630 Xeon L5609 核心 6 6 6 6 6 6 4 4 4 4 4 4 4 线程 12 12 12 12 12 12 8 8 8 8 8 8 4 主频 3.33GHz 2.93GHz 2.80GHz 2.66GHz 2.26GHz 3.33GHz 3.46GHz 3.06GHz 2.66GHz 2.53GHz 2.40GHz 2.13GHz 1.86GHz 三级缓存 睿频加速 热设计功耗 12MB 12MB 12MB 12MB 12MB 12MB 12MB 12MB 12MB 12MB 12MB 12MB 12MB + + + + + + + + + + + + 130W 95W 95W 95W 60W 130W 130W 95W 80W 80W 80W 40W 40W问题 6:与以前的处理器相比,至强 5600 的性能提升幅度有多大? 至强 5600 由于采用了更先进的 32 纳米工艺,可以进一步提升主频,增加缓存,同时降低功耗,预计性能会比 45 纳米的至强 5500 高 60%,如果与 2005 年的单核至强处理器相比,性能高达 15 倍之多。换句话说,今天的一台 至强 5600 服务器相当于 5 年前单核服务器的 15 台。更多内容,请关注 IT168 评测中心 3 月 17 日发布的报告。 问题 7:至强 5600 在节能方面有哪些改进? 在自适应能效方面,至强 5600 主要在 4 个方面进行了改进: 一是 CPU 功耗更低,每瓦特性能更高,六核版本至强 5600 的最低功耗为 60W,四核版本至强 5600 的最低功耗 只有 40W。 二是增强了智能节能技术,可以调节六个内核以及 uncore 部分的能耗状态,性能功耗比更接近理想的线性状态。 与 Xeon 5500 一样,至强 5600 芯片还是被分为“Core”和“Uncore”部分。在 Nehalem 微构架中英特尔为每个 核心引入了 Power Gate(功率门限)技术,6 个核心区域具有独立的时钟频率和供电部分。关闭空闲的核心,芯片 的 Uncore 区域保持满功率运行,核心的状态被存储在芯片缓存中,这样可以降低处理器的能耗。L3 缓存和内存 控制器位于芯片的“Uncore”区域,也具有了独立的 Power gate,使得芯片在实际应用中会更加节能。 三是处理器内核的能耗管理算法进行了更新,可以让 Turbo Boost 睿频更高效,同时对内存的能耗管理做到更精 细化。 四是 Westmere-EP 所集成的内存控制器提供了对 1.35v 低电压 DDR3 内存的支持,而标准的 DDR3 电压为 1.5v。 支持低电压内存的实际效果是在不牺牲性能的前提下可以降低 20%的热量。 问题 8:如果用新服务器去整合老旧服务器上的应用,多久能收回投资? 根据 Gartner 统计,去年由于受经济危机影响,全球大约有 100 万台服务器的升级计划受到延缓。2010 年,随着 经济形势转好,服务器更新带来了可观的市场机会。另外,根据 IDC 在去年第三季度发布的统计数据,全球市场 中仍然保有 38%的单核服务器和 42%的双核服务器。由于至强 5600 的性能是单核至强的 15 倍,更新服务器可以 带来维护管理成本、空间成本、电力成本、软件许可证费用的极大节省,因此也有望引发新一轮的服务器更新换 代潮。 如果利用至强 5600 来对这些单核产品进行 15:1 的整合,每年可以节省 95%的电力支出,得益于电力、软件方 面的成本节省,仅 5 个月就可以收回投资。如果实现 1:1 的替换,性能可以提高 15 倍,预计每年电力支出可以 减少 8%。 英特尔、惠普等公司都提供了投资回报率(ROI)的计算器,有兴趣的朋友可以参考使用: 惠普 ProLiant G6 ROI 计算器 英特尔至强服务器更新换代 ROI 计算器 问题 9:从至强 5500 升级到至强 5600 平台,是否方便? 对于至强 5500 服务器用户来说, 至强 5600 的最大好处就在于使用相同的平台――Intel 5520 芯片组, 无须更换主 板,只刷新 BIOS,就可以进行升级,从而获得最高 60%的性能提升。 问题 10:支持至强 5600 的英特尔服务器主板有哪些? 虽然现有的至强 5500 主板可以通过刷新 BIOS 进行升级,但为更好发支持至强 5600,英特尔也会发布新的主板, 预计包括 Intel S5520UR (Urbanna)、S5520HC/S5500HCV (Hanlan Creek)、S5500BC (Bluff Creek)、S5500WB (Willowbrook)和 S5520SC (Shady Cove)等。 问题 11:至强 5600 服务器平台在 I/O 方面有哪些改进? 在一个向上扩展的多核系统中,数据存取的层次是 CPU、缓存、内存、硬盘,越往外层,I/O 越慢,因此,随着 CPU 的核心数量越多,CPU 喂不饱的现象会更加严重,I/O 因此成为多核计算之路上最重要的因素。 从至强 5500 开始,英特尔就已经引入 QPI 总线,集成内存控制器,以满足 CPU 与 CPU 之间、CPU 与内存之间的快 速数据传输,QPI 传输带宽高达 6.4GT/s,以完全取代过去一直制约服务器 I/O 的前端总线架构。 而在至强 5600 中,一方面将 L3 缓存由上一代的 8MB 增加到了 12MB,可以进一步降低内存延迟,同时提升大数据 量计算时处理器的性能;另一方面,英特尔对于整个双路服务器平台的 I/O 方面进行了配套改进,如采用 10GbE 万兆以太网技术、SSD 固态硬盘技术等。在目前处理器核心越来越多、性能越来越强的情况下,大部分服务器系 统却仍然局限在 1Gb 的网络带宽,性能无法得到充分的发挥,如果使用 10GbE 技术,系统的 IO 瓶颈有望得到解 决。 问题 12:至强 5600 在安全性方面有哪些改进? 随着虚拟化、云计算应用的普及,对于底层硬件平台的安全性要求也越来越高。在至强 5600 中,英特尔新增加 了两项技术:AES-NI 加密指令集和 Intel TXT 可信执行技术。 工艺进步让英特尔的设计工程师有了更多晶体管资源预算来增加新的功能,比如在 45 纳米时,在 Penryn 处理器 中增加了 SSE4.1 指令集,而在 32 纳米的 Westmere 中,英特尔又新加了 AES(Advanced Encryption Standard) 指令集,专门用来加密数据。AES 加密处理是对输入的 128 位明文,使用加密的密钥通过有限次的迭代运算(每一 次称为一轮:round)最终得到 128 位的加密块。解密遵循相反的过程,迭代次数一样,但是需要“解密密钥”而 不是加密的“密钥”。在每一轮加密解密中都使用不同的阶段密钥,由原始密钥通过密钥序列算法生成。AES 的 标准密钥分为 128,192 和 256 位,各自对应的迭代次数为 10、12 和 14 轮。 Intel 的 AES 增强指令集包括了下面 7 条指令,分成两部分:Carry-less Multiplication Instruction(无进位 乘法指令):一条单独的无进位乘法指令(Carry-less Multiplication):PCLMULQDQ,一次可以处理两个 64 位宽 度的数据。不进位乘法是实现 GCM(Galois Counter Mode)的重要部分。GCM 是对称加密算法分组密码的一种工作 模式。分组密码工作模式可以分为加密模式、认证模式和认证加密模式等。GCM 模式为认证模式的一种,提供认 证和加密两种功能。GCM 在 IEEE 802.1ae 标准、IPsec(RFC 4106)、P1619 存储标准和 SPoFC(Security Protocols over Fiber Channel,ISO-T11 的一个标准)中都有应用。另一部分是 AES Extension Instructions(AES 扩展指 令),包括两条 AES 加密迭代加速:AESENC 和 AESENCLAST,两条 AES 解密迭代加速:AESDEC 和 AESDECLAST,两 条密钥序列生成:AESIMC 和 AESKEYGENASSIST。 在安全性方面,英特尔还引入了早先就有的 Intel Trusted Execution Technology 可信赖计算技术。Intel TXT 所能够提供的功能主要包括: Protected Execution:在未取得系统授权的情况下无法执行其它软件。Sealed Storage:提供硬件加密及存储序列号,使其无法在其它平台中开启并使用。Protected Input:所有输入端均需 要认证, USB 设备, 如 在无序列号时无法开启使用。 Protected Graphics: 不允许输出画面被非法截取。 Protected Launch:可以控制操作系统及应用软件不会被开始或进行其它动作。 Intel TXT 能 保 护 虚 拟 化 运 算 环 境 下 的 数 据 , 配 合 英 特 尔 新 一 代 的 虚 拟 化 技 术 C Intel Virtualization Technology for Directed I/O 之后,Intel TXT 可确保虚拟机器监控程序 (virtual machine monitor) 更强的 抗攻击能力,可发现目前传统软件信息安全解决方案无法侦测到的攻击。透过这种硬件防护隔离指定的内存,系 统能保护各分隔虚拟环境下的数据,避免其它分隔环境内的软件进行未经授权的存取。 问题 13:英特尔的“智能计算”概念是什么意思? 由于 IT 环境正在快速变化,今天 IT 系统要面对的应用和工作负载的各类非常多,因此整个 IT 基础设施往智能 方向转变是一种必然。无论是数据中心,还是云计算,上面跑的应用负载种类非常多,而不同的工作负载对于底 层计算的需求是不一样的,有的是计算密集型,有的是内存密集型,有的是单线程应用,有的则需要多线程并行。 真正的智能计算就是要让系统感知到它是一种什么样的负载,然后自动地满足负载的计算性能需求,表现为“按 需、自动、可扩展”三大特征。 Intel 至强 Sandy Bridge 处理器首发评测 2011 年 04 月 06 日 00:00 来源:it168 网站 作者:刘策 编辑:刘策 SiSoftware Sandra 是一款很不错的软件,但是对于 Sandy Bridge 平台来说,原来的 2010 版本已经不能使用,而目 前提供免费下载的版本型号为 2011Lite。相比我们之前使用的 Business 版本来说,Lite 版简化了许多的功能,还 好我们常用的测试项目都还在。 在成绩分析前我们必须要清楚,这两个相对比的服务器平台所配的处理器分属于英特尔至强 5500 和 5600 前 后两个不同的系列,虽然二者每个处理器都是 4 个核心,但是二者的工作频率却有比较大的差距,联想万全 R525 G3 采用的至强 E5620 的工作主频为 2.4GHz,是至强 5600 系列中主频最低的,而对比服务器平台所选用的至强 X5570 却是至强 5500 系列中工作主频最高的,为 2.93GHz。接下来的对比也将是两个处理器配置悬殊的服务器 平台间的较量。 SiSoftware Sandra Lite 2011 产品名称 平台类型 Processor Arithmetic Benchmark 处理器算术运算测试 Dhrystone ALU Dhrystone ALU vs SPEED 136.74GIPS 35.98MIPS/MHz 62244MIPS 48.75MIPS/MHz 至强 E3-1275 单路 Sandy Bridge 至强 X3430 单路 Lynnfield Whetstone iSSE3 Dhrystone iSSE3 vs SPEED Processor Multi-Media Benchmark 处理器多媒体测试 Multi-Media Int x16 iSSE4.183.43 GFLOPS29187MFLOPS21.96 MFLOPS/MHz 12.16MFLOPS/MHz201.26MPixel/s106.74MPixel/s 44.48kPixels/s/MHz 81.28MPixel/s 33.87kPixels/s/MHz 42.24MPixel/s 17.60kPixels/s/MHzMulti-Media Int x16 iSSE4.1 vs 78.26 kPixels/s/MHz SPEED Multi-Media Float x8 iSSE2 Multi-Media SPEED Float x8 iSSE2 vs 153MPixel/s 59.48 kPixels/s/MHz 83.54MPixel/sMulti-Media Double x4 iSSE2Multi-Media Double x4 iSSE2 vs 32.49 kPixels/s/MHz SPEED Multi-Core Efficiency Benchmark 处理器效能测试 Inter-Core Bandwidth Inter-Core Bandwidth vs SPEED Inter-Core Latency(越小越好) 16 GB/s 4.29 MB/s/MHz 42.4ns13.27GB/s 5.66MB/s/MHz 60ns 0.03ns/MHzInter-Core Latency vs SPEED(越小越 0.01ns/MHz 好) .NET Arithmetic Benchmark .NET 算术运算测试 Dhrystone .NET Dhrystone .NET vs SPEED Whetstone .NET Whetstone .NET vs SPEED .NET Multi-Media Benchmark .NET 多媒体测试 Multi-Media Int x1 .NET Multi-Media Int x1 .NET vs SPEED Multi-Media Float x1 .NET 37.72 MPixel/s 9.93MPixel/s 13.7MPixel/s 18GIPS 5MIPS/MHz 50.1 GFLOPS 13.92MFLOPS/MHz11567MIPS 4.82MIPS/MHz 26730MFLOPS 11.14MFLOPS/MHz21.93MPixel/s 9.14kPixels/s/MHz 7.26MPixel/s Multi-Media Float x1 .NET vs SPEED 3.61kPixels/s/MHz Multi-Media Double x1 .NET 27.22 MPixel/s3.03kPixels/s/MHz 11.82MPixel/s 4.92kPixels/s/MHzMulti-Media Double x1 .NET vs 7.16 kPixels/s/MHz SPEED依然是一边倒的成绩,我们甚至觉得选择 X3430 作为对比产品有点怠慢了 E3-1275。不过没办法,单路服务 器处理器数量太少,我们手中的数据有较为有限。英特尔在 2009 年至强 5500 服务器发布时引入了“智能计算”这一表概念,其具体技术主要集中在智能性能、智 能节能、虚拟化三个方面,比如智能睿频加速(Turbo Boost)技术可以自动地感知工作负载,采取关闭核心、提 升主频的措施,超线程技术可以针对多线程优化比较好的应用启动多线程并发执行功能,智能节能技术可以对内 核与非内核部分的功耗进行精细化管理,Intel VT 硬件辅助虚拟化技术可以提高虚拟化效率。在至强 5600 中, 英特尔仍然延续智能计算的理念,并有所增强。Intel 至强 Sandy Bridge 处理器首发评测第 1 页:Intel 至强 Sandy Brid 首发评测 ge 处理器 【IT168 评测中心】前不久,Intel 对外发布了最新的基于 Sandy Bridge 微架构的 32nm 至强处理器――E3 系列。 虽然这并非是 Intel 第一次发布基于 Sandy Bridge 微架构的产品, 虽然 E3 仅仅面向单路应用而生, 但不管怎么说, E3 的出现的确标志着 Intel 在至强处理器发展中迈出了重要的一步,也是 Tick-Tock 战略中重要的内容(Tock) 。 IT168 评测中心有幸在第一时间拿到了至强 E3 系列的产品, 接下来我们将为大家展示的是 Sandy Bridge 架构强大 的性能与未来广阔的发展趋势。 Intel 发布 Sandy Bridge 微架构 32nm 至强处理器 得益于桌面级 Sandy Bridge 处理器的成功,许多人对于至强 Sandy Brideg 处理器也充满了期待。虽然对于至 强处理器应用的服务器环境来说,多媒体性能并非是人们应该关注的内容。而每当提到 Sandy Bridge 的技术特点 ――环形总线、AVX 指令集、Turbo Boost2 等内容都是众多报道中频繁出现的内容。究竟这些技术为我们带来了 什么?它们的存在会有哪些的好处。这些还要从 Sandy Brideg 之前的 Nehalem 开始说起。 第 2 页:英特尔 Sandy Bridge 至强处理器路线图 ▲ 按照 Intel 著名的时钟规律――Tick-Tock 来看,Sandy Bridge 明显属于后者,也就是 Tock 范畴。Tock 主要是 指处理器微架构方面的改变, 而核心工艺的上一次升级已经由我们熟悉的 Westmere 完成了, 下一次 22nm 的升级 还要再等等才行。 在进行系统的分析之前, 我们先来看看最新的至强 Sandy Bridge 处理器路线图。 相比以往的产品来说, Sandy Bridge 至强处理器采用了与桌面级酷睿处理器类似的命名规范,分为 E3、E5 和 E7 三个系列。其中,E3 系列是 面向入门级单路服务器的产品,E5 系列则面对了主流的双路服务器平台。唯一有特点的是 E7,这款产品虽然在 型号上采用了新的命名规则,但是在本质上 E7 还是上一代架构的产品,它还有一个大家非常熟悉的名字 ――Westmere-EX 。 至强处理器路线图 本次我们要介绍的至强 E3 系列属于面向单路服务器应用的产品, 使用的是 LGA115 接口, 也就是图中的 Sandy Bridge-DT。按照产品布局分析,Sandy Bridge-DT 主要定位在入门级的单路服务器,虽然同样是单路,但是高端 应用的任务则是由 Sandy Bridge-EN 来承担。 第 3 页:新一代的环形总线,不一样的风景 正如我们刚才提到的,新一代的至强 Sandy Bridge 处理器给我们带来的一个印象就是采用了环形总线架构,这也 是 Intel 在继 Nehalem 和 Westmere 之后继续使用环形总线的架构。Sandy Bridge 核外架构图 Sandy Bridge 处理器使用了新的环形总线设计。事实上从之前的 Nehalem 开始,Intel 就转向了融合核心的理 念。在 Nehalem 当中,Intel 将内存控制器融入其中,而在接下来的 Westmere 当中,GPU 也作为融入的对象而出 现(只是那时候的 GPU 还仅仅使用的是 45nm 工艺) 。在之前的 8 核心 Nehalem-EX 上,我们就看到了环形总线 的身影,不过当时的产品在性能和功耗上并没有表现出明显的优势。 本次 Sandy Bridge 使用的是重新设计的核外结构, 全新的 Ring Bus 环形总线更能够较好的展示出 Sandy Bridge 的真实性能。通过上图大家可以看到,Ring Bus 环形总线连接各个 CPU 核心、LLC 缓存(L3 缓存) 、融合进去 的 GPU 以及 System Agent(系统北桥)等部分。这个图片或许可以更好的说明问题。新的 Ring Bus 环形总线由四条独立的环组成,分别是数据环 Data Ring、 请求环 Request Ring、响应环 Acknowledge Ring 和侦听环 Snoop Ring。借助于环形总线,CPU 与 GPU 可以共享 LLC 缓存,将大幅度提升 GPU 性能。 在这个环形总线上,分布着多个 Ring Stop,也就是俗称的“站台”。这个“站台”在每个 CPU/LLC 块上具有两 个连接点,而之前使用环形总线的产品,也就是 Nehalem-EX 环在每个 CPU/LLC 块上只有一个连接点。 环形总线的存在,可以大大减少核心访问三级缓存的周期。在以往的产品中,多个核心共享一个三级缓存, 需要访问的话必须先经过流水线发送请求,在进行优先级排序之后才能进行。新的环形总线将三级缓存分割成了 若干部分,借助于每个站台,核心可以快速的访问 LLC。LLC 小容量缓存的延迟优势与核心频率一致性在这里也 就体现了出来,这就使得 Sandy Bridge 的周期相比以往产品有所缩减,从原来的 35-40 个缩减到了 26-31 个。同 时,由于每个核心与 LLC 之间可以提供若干带宽,使得 Sandy Bridge 的整体带宽也提升了 4 倍。 第 4 页:全新 System Agent,更快速的北桥 在 Sandy Bridge 处理器中,Intel 使用了一个全新的概念――System Agent(系统助手) 。事实上,System Agent 也 就是我们之前所说的核外架构,只是 Intel 本次给予了其全新的命名,而在以往的名称中,我们亲切的称之为系统 北桥。 系统助手 System Agent 包含了比以往产品更为丰富的功能,包括整合内存控制器、支持 16 条 PCIE2.0 通道的 PCIE 控 制器、图形处理器(GPU) 、电源控制单元(PCU)以及 DMI 总线的 IO 接口。 PCI-E 控制器,可提供 16 条 PCI-E 2.0 信道,支持单条 PCI-E x16 或者两条 PCI-E x8 插槽; 重新设计的双通道 DDR3 内存控制器,内存延迟也恢复了正常水平(Westmere 将内存控制器移出 CPU、放到 了 GPU 上); 此外还有 DMI 总线接口、显示引擎、电源控制单元(PCU)。 系统助手的频率要低于其他部分,有自己独立的电源层。 第 5 页:新加入 AVX 指令集,256 位向量计算在 Sandy Bridge 处理器中,最大的改进要算是增加了全新的 AVX 指令集――Advanced Vector Extensions,高级矢量扩展。这个指令集的增加是 X86 处理器中的重要内容,不仅仅是提供了更为 良好的性能,同时也是对现有指令集的整合与优化。介绍 AVX 指令集之前,先要引入一个向量的概念。所谓向量,就是多个标量的组合,通常意味 着 SIMD(单指令多数据),就是一个指令同时对多个数据进行处理,达到很大的吞吐量。早在 1996 年, Intel 就在 X86 架构上应用了 MMX (多媒体扩展) 指令集, 那时候还仅仅是 64 位向量。 到了 1999 年,SSE(流式 SIMD 扩展)指令集出现了,这时候的向量提升到了 128 位。如今,Sandy Bridge 的 AVX 将向量化宽度扩展到了 256 位,原有的 16 个 128 位 XMM 寄存器扩 充为 256 位的 YMM 寄存器, 可以同时处理 8 个单精度浮点数和 4 个双精度浮点数。 换句话说, Sandy Bridge 的浮点吞吐能力可以达到前代的两倍。不过现在,AVX 的 256 位向量还仅仅能够支持浮点运 算。不过 AVX 的特别之处在于,它可以应用 128 位的 SIMD 整数和 SIMD 浮点路径。AVX 指令集是和 Sandy Bridge 微架构紧密结合的,因此,微架构的浮点寄存器也要从 128 位扩 展到 256 位,此外,Load 单元也要适应一次载入 256 位的能力,Sandy Bridge 没有直接扩展原有 Load 单元的位宽,而是通过增加了一个 Load 单元来达到 256bit Load 的能力。 在进行新性能扩展的同时,AVX 指令集的出现对于原有的 X86 指令集也进行了优化与重新组合 ――这主要源于 AVX 指令集新的操作码编码方式。AVX 指令集的编码方式叫做 VEX(Vector Extension),其主要用途是缩短指令长度,降低无谓的代码冗余,并且也降低了对解码器的压力, 实现的方式也很特别――压缩各式各样的 Prefix 前缀,集中到一个比较固定的字段中,从而达到 了精简指令集的目的。第 6 页:革命性的整合 GPU,32nm 终成正果 既然我们一直在讨论 Sandy Bridge 核心,那么不谈到其特色的整合 GPU 显然是不合适的,虽然对于服务器的应 用来说多媒体性能的确是无足轻重。其实我们在文章最初就提到过,作为 Tioc-Tock 时钟式的重要内容,其实从 Wesrtmere 32nm 处理器开始,Intel 就在处理器中整合了 GPU,不过仅仅是将二者封装在一个 Die 上。因为 45nm 的 GPU 与 32nm 的 CPU 在制程上不一致, 最重要的是关键的内存控制器被放在了 45nm 的 GPU 当中, 造成了 32nm Westmere 性能并没有想象的那么出色。而在 Tock 中,Sandy Bridge 的出现解决了这一问题,特别是将 GPU 整合 在了环形总线之内,实现了二者真正的融合。 SandyBridge GPU 有自己的电源岛和时钟域,也支持 Turbo Boost 技术,可以独立加速或降频,并共享三级缓 存。显卡驱动会控制访问三级缓存的权限,甚至可以限制 GPU 使用多少缓存。将图形数据放在缓存里就不用绕 道去遥远而“缓慢”的内存了,这对提升性能、降低功耗都大有裨益。可编程着色硬件被称为 EU,包含着色器、核心、执行单元等,可以从多个线程双发射时取指令。内部 ISA 映射和绝大多数 DX10.1 API 指令一一对应,架构很像 CISC,结果就是有效扩大了 EU 的宽度,IPC 也显著提升。 抽象数学运算由 EU 内的硬件负责,性能得以同步提高。 Intel 此前的图形架构中,寄存器文件都是即时重新分配的。如果一个线程需要的寄存器较少,剩余寄存器就 会分配给其他线程。 这样虽能节省核心面积, 但也会限制性能, 很多时候线程可能会面临没有寄存器可用的尴尬。 在芯片组集成时代,每个线程平均 64 个寄存器,Westmere HD Graphics 提高到平均 80 个,Sandybridge 则每个线 程固定为 120 个。 第 7 页:无法平滑升级,至强 E3-1270 登场 好了,介绍了这么多,终于轮到我们本次评测的主角――至强 E3 系列登场了。关于至强 E3 系列,一共有 7 款 产品,其中两款为超低功耗版的产品。它们的主频最低为 2.2GHz,最高为 2.5GHz。本次我们拿到的测试产品是 E3 系列中的 E3-1275 和 E3-1220。 前者是 E3 系列中的高端产品, 主频为 3.4GHz, 支持超线程技术,TDP 为 80W;后者是 E3 系列标准版中的最低规格,主频仅为 3.1GHz,不支持超线程技术。其 中,整合 GPU 的处理器命名统一以 5 结尾。至强 E3-1220 处理器 至强 E3-1275 处理器 LGA1155 接口处理器 至强 E3 系列处理器采用的是 LGA1155 接口,从处理器的背面来看其布局与 LGA1156 有非常大的区别,也 就是说用户不可能直接从 LGA1156 平滑升级到 LGA1155 处理器,必须要更换平台。对于桌面级的 Sandy Bridge 处理器来说,6 系列芯片组,包括 P67 和 H67 都是比较好的选择。而在本次测试 中,由于我们暂未难道应用于 E3 系列处理器的主板,因此在测试中我们只能选择 P67 芯片组进行。这次,我们 将针对高端的 E3-1270 处理器进行测试。 第 8 页:测试平台及测试环境介绍 对于至强 E3-1270 处理器的测试,我们搭建了一套专门的平台,具体配置如下: 平台信息服务器 产品名称 平台类型 处理器子系统 处理器型号 处理器架构 代号 处理器封装 核心/线程数量 主频 处理器指令集 Intel Xeon E3-1275 Intel 32nm Sandy Bridge Sandy Bridge Socket 1155 LGA 4/8 3.4GHz MMX,SSE,SSE2,SSE3, SSE4.1,SSE4.2,EM64T,VT-x,AES 2× QPI 2933MHz 6.40GT/s 单向 12.8GB/s(QPI) 双向 25.6GB/s(QPI) 4× 32KB 8 路集合关联 4× 32KB 4 路集合关联 4× 256KB 8 路集合关联 8MB 16 路集合关联 至强 E3-1275 处理器 Intel P67 芯片组外部总线L1 Code Cache L1 Data Cache L2 Cache L3 Cache 服务器主板 主板型号 主板芯片组 北桥芯片特性 内存子系统 内存控制器 内存类型 存储子系统 磁盘控制器Intel DP67BG Intel P67 2× QPI VT-d Gen 2每 CPU 集成双通道 R-ECC DDR3 1333 2GB R-ECC DDR3 1333 SDRAM × 条 4Intel ICH10R SATA AHCI Controller 磁盘控制器规格4x SATA 3Gb/s+2x SATA 6Gb/s AHCI w/ NCQ RAID 0/1/10 Intel Matrix Storage Manager 8.8.0.1009 Seagate Barracuda 7200.12 ST3250318AS 7200RPM 500GB SATA 3Gb/s NCQ 16MB Cache控制器驱动硬盘型号数量硬盘规格网络连通性 网卡控制器 网卡驱动 软件环境 操作系统 Windows Server 2008 R2 Enterprise Edition SP1 x64 Intel 82576EB Port Gigabit Network Controller Intel PRO Set 15.8.76.0本次我们为这款平台搭配的是 Windows Server 2008 R2 操作系统,而且还增加了 SP1 补丁。刚刚我们在介绍 AVX 指令集的时候提到,这个指令集在 SP1 版本下有比较好的表现,因此我们特别安装了 SP1 补丁。平台方面, P67 平台是当下我们的无奈选择,好在这个是 Intel 原厂的主板,还算是比较搭配。出于测试 SPEC CPU 2006 的 考虑,我们为平台搭配了 4 条宇瞻 DDR3 1333 内存,这样系统的内存容量达到了 16GB。 第 9 页:服务器测试方法介绍 对于服务器的测试,我们主要从产品满足用户应用的角度出发,分功能和性能两个方面来考察。其中性能测试 主要体现的是服务器在提供特定服务时的具体的事务处理能力,而在功能上,主要反映的是服务器的可靠性、可 扩展性以及易用性等方面的特征。另外,由于不论是最终用户还是处理器厂商,大家对于服务器的能耗问题都给 以了很高的重视,为此,我们也继续将能耗作为考察服务器使用成本的重要指标。 ▲网络测试环境 贴近应用的性能测试 在实际的应用中,不同的应用条件对于服务器子系统性能的要求也有一定的偏重,因此同一服务器在不同应 用中所表现出的性能状况常会出现较大差异。为了能准确反映出服务器的性能状况,我们选择了 Web、文件服务 器和数据库等三种较为普遍的应用作为测试重点。之所以选用以上三种应用作为性能测试点,这几项应用相对较 为普遍是原因之一,此外我们也考虑到这三种应用对于服务器子系统的要求也各有偏重,这样可以更全面的考察 服务器各子系统的性能状况。 讲求实用的功能测试 可靠性、可扩展性和易用性同样也是用户关心的内容,但不同的用户对这三方面的需求会有所不同。比如一 些中高端服务器产品,在应用中多采用专用机房或托管方式,这时其易用性中的可管理性方面就显得非常重要, 远程管理会让工程师及时了解服务器工作状况,实现及时有效的管理和维护。而对于入门级服务器来说,由于很 多用户会随着业务的增长会对其处理能力、存储容量有进一步的要求,这时其可扩展性就显得更为重要。可靠性 是服务器的一个关键特性, 它反映了服务器在应用过程中系统能否确保长时间正常工作, 这也是服务器与普通 PC 之间的重要区别。对于以上三个方面,我们都制定了详细项目进行逐一考察。 兼顾使用成本的能效测试 服务器的售价反映的它是一次性的购买成本, 而后期的使用成本是一个不容小视的问题, 作为一个要求 7× 24 连续工作的设备,它所产生的电费将是一笔不小的开销。实际上在评判服务器的运算能力时,一定不能将功耗问 题视而不见,性能功耗比是衡量服务器运算效能的一个重要指标,测试中我们利用功率分析仪对服务器在加电关 机、开机空载以及满负载三种状态下的功耗进行测定,为服务器的能效以及使用成本的估算提供数据支持。 第 10 页:服务器测试工具介绍 对于服务器性能方面的考察,我们主要分为子系统测试和应用性能测试。在子系统测试中我们按处理器、内存以 及磁盘等各个子系统进行了分项测试,当然各子系统的测试成绩也是相辅相成,也需要其它子系统的支持,并非 是完全独立的,只是对考察的子系统有所偏重而已。 处理器子系统测试 对服务器处理器子系统的考察, 我们主要采用的是业界公认的 SPEC CPU 2006 测试, 该项测试通过对数十个 典型应用程序的运行,来测试系统处理器子系统在应用中的整、浮点运算效率。SPEC CPU 2006 测试具有很好的 开放性,因此在业界为广大用户所接受,可以利用这一公开的测试结果进行系统间运算性能的比较。 此外 SiSoftware Sandra 也有测试子项可用于处理器运算性能测试,其结果通常以每秒完成的指令数来表现。 也可以用作不同处理器间运算效率的比较。 SPEC CPU
SPEC 是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC 是由计算机厂商、 系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评 估计算机系统的标准。 SPEC CPU 2006 是 SPEC 组织推出的 CPU 子系统评估软件最新版,我们之前使用的是 SPEC CPU 2000。和 上一个版本一样,SPEC CPU 2006 包括了 CINT2006 和 CFP2006 两个子项目,前者用于测量和对比整数性能,后 者则用于测量和对比浮点性能,SPEC CPU 2006 中对 SPEC CPU 2000 中的一些测试进行了升级,并抛弃/加入了 一些测试,因此两个版本测试得分并没有可比较性。 SPEC CPU 测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU 提供的是源代码,并且 允许测试用户进行一定的编译优化)都会影响最终的测试性能,而 I/O(磁盘) 、网络、操作系统和图形子系统对 于 SPEC CPU2006 的影响非常的小。 SPECfp 测试过程中同时执行多个实例(instance) ,测量系统执行计算密集型浮点操作的能力,比如 CAD/CAM、科学计算等方面应用可以参考这个结果。SPECint 测试过程中同时执行多个实例(instances) ,然后 测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和 Web 服务器等基于整数应用的多处理器系统的性能。 我们在被测服务器中安装了 Intel C++ 11.1.034 Compiler、Intel Fortran 11.1.034 Compiler 这两款 SPEC CPU 2006 必需的编译器,通过最新出现的 QxS 编译参数,Intel Compiler 10 版本开始支持对 Intel SSE4 指令集进行优 化(假如只支持 SSE3,则使用 QxT 编译参数) 。我们另外安装了 Microsoft Visual Studio 2003 SP1 提供必要的库 文件。按照 SPEC 的要求我们根据自己的情况编辑了新的 Config 文件,使用了较多的编译选项。我们根据被测系 统选择实际可同时处理的线程数量,最后得到 SPEC rate base 测试结果(基于 base 标准编译,SPEC base rate 测 试代表系统同时处理多个任务的能力) 。 和其它测试部件不同, SPEC CPU 2006 需要大量的系统物理内存, 我们的 SPEC 测试在 64 位的 Windows Server 2008 R2 下完成,对于每个运算核心,最低配置 1.5GB 内存。 内存子系统测试 对于内存子系统的考察,也是利用 SiSoftware Sandra 来实现,在该软件中有相应组件可进行内存带宽、内存 延迟等方面的测试。 SiSoftware Sandra v2011 SiSoftware Sandra 是一款可运行在 32bit 和 64bit Windows 操作系统上的分析软件,这款软件可以对于系统进 行方便、 快捷的基准测试, 还可以用于查看系统的软件、 硬件等信息。 2007 开始, 从 Sandra 的 Arithmetic benchmarks 增加了对 SSE3&SSE4 SSE4 的支持,在 Multi-Media benchmark 中增加了对于 SSE4 的支持,另外还升级了 File System benchmark 和 Removable Storage benchmark 两个子项目。对于新的硬件的支持当然也是该软件每次升级的 重要内容之一, SiSoftware Sandra 2010 对 NUMA 架构以及最新的 Windows 7/Windows Server 2008 R2 提供了更好 的支持,此外测试项目和测试结果也有了略微的变化。SiSoftware Sandra 所有的基准测试都针对 SMP 和 SMT 进 行了优化,最高可支持 32/64 路平台。 第 11 页:CPU-Z 软件检测信息 激动人心的时刻终于到来了。对于一款处理器来说,许多人都喜欢使用 CPU-Z 来观察它的规格。下面我们就 一起来看看至强 Sandy Bridge 处理器给我们带来了什么。 因为测试处理器为 ES 版,所以依然识别为 Core i7 处理器,不过下面一行倒是看得很清楚――E3 12758MB 三级缓存,由 4 个核心共享,每核心分配 2MB 测试主板使用的是 P67 芯片组 我们使用了 4 条宇瞻 4GB DDR3 1333 内存,系统总内存容量为 16GB 第 12 页:Everest 软件检测信息 AIDA64(原 EVEREST)是一个测试软硬件系统信息的工具,它可以详细的显示出 PC 硬件每一个方面的信息。 支持上千种(3400+)主板,支持上百种(360+)显卡,支持对并口/串口/USB 这些 PNP 设备的检测,支持对各式各样 的处理器的侦测。支持查看远程系统信息和管理,结果导出为 HTML、XML 功能。 之前这款软件命名为 AIDA32,后改名为 EVEREST,现在又改名为 AIDA64,真是够折腾的。 E3-1275 支持超线程技术,我们可以看到完整的 8 个线程 P67 主板仅能够支持双通道内存,不过我们刚刚在介绍 System Agent 的说过,这个双通道是经过重新设计的 系统北桥实际上就是 System Agent,因为我们使用的是 P67 而非 H67,所以显示自带的 GPU 已禁用 主板南桥信息 第 13 页:SPEC CPU 2006 浮点运算性能测试 SPEC CPU 2006 的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如 410.bwaves 流体力学、 416.gamess 量子化学、 433.milc 量子力学、 434.zeusmp 物理: 计算流体力学、 435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计 算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共 17 项测试。 首先我们看到的是浮点预算的测试成绩,我们采用的对比处理器为至强 X3430。至强 X3430 是上一代的单路 服务器产品,采用 45nm 工艺,其主频为 2.4GHz,4 核心 4 线程。从这个测试结果来看,E3-1275 大幅度领先于 对比产品,许多项目的性能提升在一倍以上。 这个原因是多方面的。首先从主频上来看,E3-1275 相比 X3430 提升了 1GHz 的主频,差距很明显;其次是 超线程的应用,8 线程相比 4 线程也提升了一倍;第三是处理器微架构的差别,包括整体的设计及制造工艺。因 此,至强 E3-1275 的明显优势也就没什么好奇怪的了。 第 14 页:SPEC CPU 2006 整数运算性能测试 SPEC CPU 2006 整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML 处理等,此外,各种日常操 作也主要是基于整数操作。SPEC CPU 2006 的整数运算包含了 400.perlbench PERL 编程语言、401.bzip2 压缩、 403.gcc C 编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工 智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML 处理共 12 项。刚才我们说过了 E3-1275 在硬件规格及软件设计上的三点优势,这些优势在整数运算中表现更为明显,部分 项目领先了 X3430 达 5 倍之多。 第 15 页:开启超线程 Sisoftware 2011 处理器性能 SiSoftware Sandra 是一款很不错的软件,但是对于 Sandy Bridge 平台来说,原来的 2010 版本已经不能使用, 而目前提供免费下载的版本型号为 2011Lite。相比我们之前使用的 Business 版本来说,Lite 版简化了许多的功能, 还好我们常用的测试项目都还在。 在成绩分析前我们必须要清楚,这两个相对比的服务器平台所配的处理器分属于英特尔至强 5500 和 5600 前 后两个不同的系列,虽然二者每个处理器都是 4 个核心,但是二者的工作频率却有比较大的差距,联想万全 R525 G3 采用的至强 E5620 的工作主频为 2.4GHz,是至强 5600 系列中主频最低的,而对比服务器平台所选用的至强 X5570 却是至强 5500 系列中工作主频最高的,为 2.93GHz。接下来的对比也将是两个处理器配置悬殊的服务器 平台间的较量。 SiSoftware Sandra Lite 2011 产品名称 平台类型 Processor Arithmetic Benchmark 处理器算术运算测试 Dhrystone ALU Dhrystone ALU vs SPEED Whetstone iSSE3 Dhrystone iSSE3 vs SPEED Processor Multi-Media Benchmark 处理器多媒体测试 Multi-Media Int x16 iSSE4.1 201.26MPixel/s 106.74MPixel/s 44.48kPixels/s/MHz 81.28MPixel/s 33.87kPixels/s/MHz 42.24MPixel/s 17.60kPixels/s/MHz 136.74GIPS 35.98MIPS/MHz 83.43 GFLOPS 62244MIPS 48.75MIPS/MHz 29187MFLOPS 至强 E3-1275 单路 Sandy Bridge 至强 X3430 单路 Lynnfield21.96 MFLOPS/MHz 12.16MFLOPS/MHzMulti-Media Int x16 iSSE4.1 vs 78.26 kPixels/s/MHz SPEED Multi-Media Float x8 iSSE2 Multi-Media SPEED Float x8 iSSE2 vs 153MPixel/s 59.48 kPixels/s/MHz 83.54MPixel/sMulti-Media Double x4 iSSE2Multi-Media Double x4 iSSE2 vs 32.49 kPixels/s/MHz SPEED Multi-Core Efficiency Benchmark 处理器效能测试 Inter-Core Bandwidth Inter-Core Bandwidth vs SPEED Inter-Core Latency(越小越好) 16 GB/s 4.29 MB/s/MHz 42.4ns13.27GB/s 5.66MB/s/MHz 60ns 0.03ns/MHzInter-Core Latency vs SPEED(越小越 0.01ns/MHz 好) .NET Arithmetic Benchmark .NET 算术运算测试 Dhrystone .NET Dhrystone .NET vs SPEED Whetstone .NET Whetstone .NET vs SPEED .NET Multi-Media Benchmark .NET 多媒体测试 Multi-Media Int x1 .NET Multi-Media Int x1 .NET vs SPEED Multi-Media Float x1 .NET 37.72 MPixel/s 9.93MPixel/s 13.7MPixel/s 21.93MPixel/s 9.14kPixels/s/MHz 7.26MPixel/s 3.03kPixels/s/MHz 11.82MPixel/s 4.92kPixels/s/MHz 18GIPS 5MIPS/MHz 50.1 GFLOPS 13.92MFLOPS/MHz 11567MIPS 4.82MIPS/MHz 26730MFLOPS 11.14MFLOPS/MHzMulti-Media Float x1 .NET vs SPEED 3.61kPixels/s/MHz Multi-Media Double x1 .NET 27.22 MPixel/sMulti-Media Double x1 .NET vs 7.16 kPixels/s/MHz SPEED依然是一边倒的成绩,我们甚至觉得选择 X3430 作为对比产品有点怠慢了 E3-1275。不过没办法,单路服务 器处理器数量太少,我们手中的数据有较为有限。 第 16 页:开启超线程 Sisoftware 2011 内存性能 SiSoftware Sandra Lite 2011 产品名称 平台类型 Memory Bandwidth Benchmark 内存带宽测试 Int Buff'd iSSE2 Memory Bandwidth Float Buff'd iSSE2 Memory Bandwidth Memory Latency Benchmark 内存延迟测试 Memory(Random Access) Latency (越 73.3ns 小越好) Speed Factor (越小越好) Internal Data Cache 68.20 4clocks 89ns 57.50 4clocks 17.37 GB/s 17.37GB/s 13.78GB/s 13.77GB/s 至强 E3-1275 单路 Sandy Bridge 至强 X3430 单路 Lynnfield L2 On-board Cache L3 On-board Cache Cache and Memory Benchmark 缓存及内存测试 Cache/Memory Bandwidth Cache/Memory Bandwidth vs SPEED Speed Factor (越小越好) Internal Data Cache L2 On-board Cache11clocks 35clocks9clocks 47clocks97.76GB/s 27.06MB/s/MHz 38.10 427.84GB/s 287.5GB/s51.08GB/s 21.79MB/s/MHz 27.10 205.08GB/s 175.49GB/s内存带宽测试中,同样是双路的两款平台在性能上出现了较大的差异,特别是 L3 缓存的项目中差距较大, 这都是环形总线的功劳 第 17 页:开启超线程 CineBench 性能测试 CineBench 是基于 Cinem4D 工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它 可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个 的成绩具有意义。和大多数工业设计软件一样,CineBench 可以完善地支持多核/多处理器,它的显示子系统测试 基于 OpenGL。CineBench R10 产品名称 至强 E3-1275 至强 X3430 平台类型 CPU Benchmark Rendering (1 CPU) Rendering (x CPU) Multiprocessor Speedup OpenGL Benchmark OpenGL Standard 至强 E3-1275 处理器。单路 Sandy Bridge单路 Lynnfield6041 CB-CPU 23643 CB-CPU 3.91x3868 CB-CPU 12964 CB-CPU 3.35x335 CB-GFX7690 CB-GFX第 18 页:关闭超线程 Sisoftware 2011 处理器性能本次测试的至强 E3-1275 是 E3 系列的高端产品,具备了 4 核心 8 线程,性能非常强悍。下面, 我们将关闭 E3-1275 的超线程功能,观察在这个状态下它的性能表现,以便总结超线程技术对于 Sandy Bridge 处理器的影响。 SiSoftware Sandra Lite 2011 产品名称 平台类型 至强 E3-1275 (开启) 至强 E3-1275(关闭) 单路 Sandy Bridge 单路 Sandy BridgeProcessor Arithmetic Benchmark 处理器算术运算测试 Dhrystone ALU 136.74GIPS 106.77GIPS 28.86MIPS/MHz 49.57 GFLOPS 13.40MFLOPS/MHzDhrystone ALU vs SPEED 35.98MIPS/MHz Whetstone iSSE3 Dhrystone SPEED iSSE3 vs 83.43 GFLOPS 21.96 MFLOPS/MHzProcessor Multi-Media Benchmark 处理器多媒体测试 Multi-Media iSSE4.1 Int x16 201.26MPixel/s 163.79MPixel/s 63.69kPixels/s/MHz 111.37 MPixel/s 43.3kPixels/s/MHzMulti-Media Int iSSE4.1 vs SPEEDx16 78.26 kPixels/s/MHzMulti-Media Float x8 153MPixel/s iSSE2 Multi-Media Float x8 59.48 iSSE2 vs SPEED kPixels/s/MHz Multi-Media Double x4 83.54MPixel/s iSSE2 Multi-Media Double x4 32.49 iSSE2 vs SPEED kPixels/s/MHz Multi-Core Efficiency Benchmark 处理器效能测试 Inter-Core Bandwidth Inter-Core vs SPEED Bandwidth 16 GB/s 4.29 MB/s/MHz60.16MPixel/s 23.4kPixels/s/MHz8.84GB/s 2.45MB/s/MHz 40.2ns 0.11ns/MHzInter-Core Latency( 越 42.4ns 小越好) Inter-Core Latency vs 0.01ns/MHz SPEED(越小越好) .NET Arithmetic Benchmark .NET 算术运算测试 Dhrystone .NET 18GIPS15.81GIPS 4.16MIPS/MHz 29.34GFLOPS 7.72MFLOPS/MHzDhrystone .NET vs SPEED 5MIPS/MHz Whetstone .NET 50.1 GFLOPSWhetstone .NET vs SPEED 13.92MFLOPS/MHz .NET Multi-Media Benchmark .NET 多媒体测试 Multi-Media Int x1 .NET 37.72 MPixel/s Multi-Media Int x1 .NET 9.93MPixel/s vs SPEED Multi-Media x1 .NET Float 13.7MPixel/s29.17MPixel/s 7.68kPixels/s/MHz 8.16MPixel/s 2.15kPixels/s/MHz 16.24MPixel/sMulti-Media Float 3.61kPixels/s/MHz x1 .NET vs SPEED Multi-Media x1 .NET Double 27.22 MPixel/sMulti-Media Double 7.16 kPixels/s/MHz 4.27kPixels/s/MHz x1 .NET vs SPEED 对比开启与关闭超线程的测试数据我们发现,处理器计算性能方面,开启超线程之后会有 30%-50%左右的性能提升,多媒体方面的性能提升为 30%左右。而在.NET 测试中,这个数值被缩小 到了 15%-30%, 效能测试的时候两者的差距大约为 40%。 总体而言, 在开启超线程之后, Sandy Bridge 至强处理器在运算性能上会有 30%左右的提升, 这个数值与 Nehalem 与 Westmere 的成绩是差不多的, 事实上我们也没发现 Sandy Bridge 在超线程方面有什么特别大的改动。第 19 页:关闭超线程 Sisoftware 2011 内存性能 接下来同样是开启与关闭超线程下的内存/缓存系统测试。 SiSoftware Sandra Lite 2011 产品名称 平台类型 Memory Bandwidth Benchmark 内存带宽测试 Int Buff'd iSSE2 Memory Bandwidth Float Buff'd Bandwidth iSSE2 Memory 17.37 GB/s 17.37GB/s 17.78GB/s 17.78GB/s 至强 E3-1275 (开启) 至强 E3-1275 (关闭) 单路 Sandy Bridge 单路 Sandy BridgeMemory Latency Benchmark 内存延迟测试 Memory(Random Access) Latency 73.3ns (越小越好) Speed Factor (越小越好) Internal Data Cache L2 On-board Cache L3 On-board Cache Cache and Memory Benchmark 缓存及内存测试 Cache/Memory Bandwidth 97.76GB/s 100.55GB/s 27.09MB/s/MHz 39.10 424.22GB/s 355.42GB/s 68.20 4clocks 11clocks 35clocks 73.2ns 68.30 4clocks 11clocks 35clocksCache/Memory Bandwidth vs SPEED 27.09MB/s/MHz Speed Factor (越小越好) Internal Data Cache L2 On-board Cache 38.10 424.22GB/s 355.42GB/s相对比的两台服务器所作用的处理器都采用了集成内存控制器的设计,由于工作主频的不同,这两款不同处 理器的 QPI 传输并不一样,联想万全 R525 G3 所用处理器的 QPI 带宽为 5.86GT/s,而对比平台的至强 X5570 处 理器的 QPI 为 6.4GT/s。不过这两个服务器平台的内存的实际工作频率却并不一样,虽然在测试中两个平台所使 用的内存条都是 DDR3 1333,联想万全 R525 G3 共安装了 6 条,它的实际工作频率为 1066,而对比平台共装配 了 18 条内存,内存工作频率只能达到 800MHz,也正是以上这一内存安装方式的不同,直接导致了处理器 QPI 频率较低的联想万全 R525 G3 内存带宽成绩占了上风。 第 20 页:关闭超线程 CineBench 性能测试 最后我们进行的是 CineBench 项目的测试。CineBench 测试中有一个处理器核心能效比的内容,我们相信这个项 目更可以看出开关超线程之后的性能差距。 CineBench R10 产品名称 平台类型 CPU Benchmark Rendering (1 CPU) Rendering (x CPU) Multiprocessor Speedup OpenGL Benchmark OpenGL Standard 335 CB-GFX 336 CB-GFX 6041 CB-CPU 23643 CB-CPU 3.91x 6188 CB-CPU 20886 CB-CPU 3.38x 至强 E3-1275(开启) 单路 Sandy Bridge 至强 E3-1275(关闭) 单路 Sandy BridgeCineBench10 所进行测试项目在于考察单核心与多核心的性能对比。我们可以看到,对于 CineBench R10 来 说,开启超线程下的 MS 成绩为 3.91,关闭的时候只有 3.38,相比之下提升了 15.6%。 CineBench R11.5 产品名称 平台类型 CPU Benchmark Rendering (1 CPU) Rendering (x CPU) MP Ratio OpenGL Benchmark OpenGL 1.52 pts 6.84 pts 4.51x 1.42 pts 5.59 pts 3.95x 至强 E3-1275(开启) 单路 Sandy Bridge 至强 E3-1275(关闭) 单路 Sandy Bridge而在最新的 Cinebench R11.5 进行的测试中,两者的成绩差距并没有拉大,依然在 15%左右。因为 CineBench 只考察核心与效能的关系,而之前我们的测试项目更多还依赖于整体平台的性能,因此单纯从提升来说, CineBench 只能看到 15%的提升,但是开启超线程之后,整体平台的提升会更高一些。 第 21 页:IT168 评测中心观点 【IT168 评测中心】Tick-Tock 战略的出现,使 Intel 避免了在同一年更新制程和微架构,有效的规避了新平 台、 新制程出现所带来的商业风险。 而将新品首先试水桌面平台, 进而在推广到服务器平台也是非常明智的举措, 这次 Sandy Bridge 处理器就充分说明了这个问题。事实上,由于配套芯片组的问题,Sandy Bridge 处理器在推广 之初就遭遇挫折,幸好 Intel 的反应够快,在服务器平台上我们并没有发现这样的问题。而随着至强 Sandy Bridge 处理器的推出,也标志着 Intel 在桌面和服务器两个平台上全面转向了新的微架构,Tock 时代终于到来了。 至强 Sandy Bridge 处理器终于现身了 Sandy Bridge 处理器相比上一代的产品有了非常大的改进,包括 AVX 指令集、环形总线架构、全新 System Agent 系统助手、革命性的整合 GPU 等内容。事实上,Sandy Bridge 最大的特征在于全 32nm 整合 CPU 和 GPU, 但对于服务器来说,GPU 作为多媒体工具来说并没有实际的用处,除非可以通过 GPU 加速运算。 我们再来看看性能。相比上一代的至强 3400 系列来说,至强 E3 系列在性能上有了大幅度的提升, 有着至 少 30%的性能优势,部分项目的性能优势得到了翻倍。相比之下,超线程方面自从 Nehalem 开始为至强处理器增 加了这一功能之后,在 Sandy Bridge 上面我们并没有看到明显的革新。 对于至强系列来说,E3 仅仅是低端的入门版本,今年 Intel 主推的依然是面向双路服务器应用的 E5 系列,不 过这个系列要等到下半年才可以看到。今天,Intel 发布了 E7 系列的产品,虽然使用了全新的命名,但是 E7 却是 我们熟知的 Westmere-EX。 我们相信,随着新一代 Sandy Bridge 至强处理器的出现,我们在服务器领域可以看到越来越多的、性能更为 出色的产品出现。我们期待着这一天的早日到来。 新制程新动力 六款至强 5600 服务器横评作者:中关村在线 张桂林 【原创】 CBSi 中国?ZOL 2010 年 12 月 31 日一、至强 5600:双路新霸主 在英特尔 Tick-Tock 处理器发展步调下,2010 年堪称英特尔的一个芯片大年。面向关键任务应用的安腾 9300、 x86 架构的 Nehalem 家族的至强 5600 和 7500 相继问世, 英特尔服务器产品线在今年第二季度就已完成全线升级, 实现新产品的全面布局。 Nehalem 至强的问世让英特尔在 2009 年风光无限,这种优势在新至强发布后更加稳固,具有多项 RAS 特性的 至强 7500 让 x86 首度可以挑战 RISC 的地位,而作为至强 5500 的继任者,至强 5600 将继续扩大英特尔在双路市 场的优势,继续把持住这块出货量最大的市场。 双路新霸主:英特尔至强 5600 至强 5600 工艺进步到 32nm,代号“Westmere-EP”。新的制程工艺让至强 5600 芯片面积更小(240 平方毫米, 至强 5500 为 263 平方毫米) ,从而可以集成更多的晶体管(11.7 亿个,至强 5500 为 7.31 亿个) ,还可以集成更多 的计算核心(最多 6 个,至强 5500 最多 4 个) ,可以集成更大的片上缓存(全线集成 12MB L3 缓存,至强 5500 为最大 8MB) 。 工艺、核心数量、缓存上的进步可以大幅推进至强 5600 的性能,英特尔的测试数据表示,在技术计算和通用 计算环境,至强 5600 的性能要提升 50%以上。不过至强 5600 相对同属 Nehalem 架构的至强 5500 提升的不仅是 制程与核心数量,在能耗控制、智能节能、虚拟化等方面进行了优化,并增加了 AES-NI 加密指令集和 Intel TXT 可信执行技术等新特性。 比如,至强 5600 增加了更高能效的低功耗 CPU、支持低功耗 DDR3 内存,并且在智能节能技术和 CPU 功耗 管理等方面均进行了优化,在能耗上更有优势;并且至强 5600 具有更高的服务器整合率,而且可以从至强 5500 平滑升级,只需刷新 BIOS,就可以在至强 5500 平台上升级至强 5600 处理器,操作非常简便。 平滑升级的特性可以让服务器提供商们可以在原有平台进行升级,迅速推出至强 5600 服务器产品,今年我们 可以看到至强 5600 服务器新品的上市速度非常快,或者在原至强 5500 机型机型升级,或者推出新的机型,使之 更加契合至强 5600 的特点。截至 2010 年末,至强 5600 服务器已经基本完成对至强 5500 机型的替换。 那么, 2010 年双路市场扮演主角的这些至强 5600 服务器产品有哪些特点?相对至强 5500 平台有哪些提升? 在 为了能够为读者展现至强 5600 服务器的特点及进步,继 2009 年双路至强 5500 服务器横评之后,ZOL 服务器频 道在 2010 年末组织了一次双路至强 5600 服务器横评,希望通过对这些新平台的对比,能够为用户采购提供一些 参考。 二、参测服务器介绍 本次横评范围限定为英特尔双路至强 5600 服务器产品,可以是由至强 5500 平台进行升级的机型、 或者是今年 发布的新机型。机架、塔式均可,刀片服务器由于具有特殊性,不在本次横评的范围之内。 感谢服务器厂商对 ZOL 服务器频道的支持!横评邀请函发出后,我们陆续收到了来自浪潮、联想、曙光、华 硕、正睿、富士通的六款主流双路至强 5600 机型,其中包括在至强 5500 平台进行升级的机型,如华硕和曙光; 其余四款均是今年发布的至强 5600 新机型,值得一提的是富士通的送测产品,是今年首度进入中国市场的一款 主流双路机架,也是今年横评中唯一的一款国际品牌产品。 由于种种原因,三大国际品牌 IBM、HP、DELL 的双路至强 5600 服务器缺席了本次横评,经过多方协调无果, 令本次横评失色不少,笔者也感觉十分惋惜。不过参测机型基本覆盖了国内几大主流厂商,也能够反映国内服务 器的发展水平,这一点还是值得欣慰。另外 x86 市场的新进者富士通参加了本次横评,能够抢先体验这款在今年 首度进入中国的产品颇令人鼓舞,我们也期待它能够具有和国际三大巨头竞争的实力。 参测机型(按送测时间排序) : 参加本次横评的机型分别为浪潮英信 NF5280M2、联想万全 T260 G3、华硕 RS520-E6/RS8、曙光 I620r-G、正 睿 IS-H、富士通 RX300S6。浪潮英信 NF5280M2(左)和 联想万全 T260 G3华硕 RS520-E6/RS8(左) 和 曙光 I620r-G正睿 IS-H(左) 和 富士通 RX300S6 华硕 RS520-E6/RS8 是一款在至强 5500 平台进行升级的产品, 机身比常见的 2U 机架要更短一些, 这样更加节 省空间,也缩减了成本。在硬盘、风扇和电源等部件采用了模块化设计,提供了冗余。 曙光 I620r-G 是在至强 5500 平台进行升级的机型,在去年曾经造访 ZOL 评测室。存储扩展能力优秀,最大支 持 12 块 3.5 寸硬盘,做工扎实,在产品设计、管理功能等方面独具特点。 浪潮 NF5280M2 是至强 5500 平台的经典机型 NF5280 的升级版本,不过它并不仅仅是处理器的升级,而是一 款自主研发的全新产品,机箱、主板、阵列卡、散热系统等多个部件自行设计。性能、能耗、管理等方面较为均 衡。 联想 T260 G3 是今年发布的新机型,面向中小企业,是本次横评中唯一一款塔式机型。节能静音是这款机型 最大特点,在扩展性、管理功能、安全性设计等方面契合中小企业需求。 正睿 IS-H 是今年 11 月上市的新品,凭借优良的性价比,上市后广受中小企业关注。扩展性优秀,支 持 18 根内存和最大 24 块 2.5 寸 SAS 硬盘,适合成长型企业。 富士通 RX300S6 是本次横评中唯一的一款国际品牌产品,今年刚刚进入中国。由德国和日本两个团队联合设 计,做工精良,具有多项独特设计,能够代表富士通 x86 服务器的主流水平。 六款产品各具特点,我们希望对这六款产品的设计、性能、管理功能、能耗等方面测试对比,找到市场主流双 路至强 5600 服务器的共性及区别,以及至强 5600 平台对至强 5500 平台的提升。 三、横评方法 本次横评包含产品设计、性能、管理功能、能耗四大部分。 产品设计评估:产品设计是体现产品特点的重要部分,也是体现服务器厂商实力之处。优秀的产品设计直接关 系服务器的性能、可靠性、能耗等指标,比如散热设计和风道设计关系着服务器的散热能力,关系着服务器的稳 定性;电源设计和能耗控制设计关系着服务器的能耗高低;机箱的结构设计也关系着服务器的散热能力以及扩展 性等等。 在这个环节我们将对机箱规格、 硬件配置进行评估。 机箱规格评估包括对机箱规格尺寸、 拆装方式、 结构设计、 热插拔托架设计、散热设计等进行评估;硬件配置评估包括对处理器、内存、芯片组、磁盘子系统、网络系统、 散热系统、供电系统、扩展插槽、I/O 接口和托架等部分的规格和配置进行评估。 性能评估:性能是服务器的一个重要指标,关系着服务器能够提供服务的“质量”,也正是对于服务器性能永不 停止的追求,推动着服务器处理器、内存、磁盘等技术的不断发展。至强 5600 采用了新的制程工艺,并增加了 核心数量和缓存容量,在性能上非常值得期待,性能也是我们重点考量的一个部分。 不过“配置决定性能”,这是颠扑不破的真理。不同的配置情况也会导致不同的性能表现。故而我们将参测机型 的配置进行统一―配置相同规格的 CPU、内存、硬盘等主要硬件。但由于各产品规格存在差异,配置上还是完全 统一,但我们力求将差异降到最低。性能评估分为处理器、内存、磁盘等几大部分。 管理功能评估:管理功能是服务器的一个重要组成部分,丰富而便捷的管理功能可以大大降低服务器的监控、 管理难度,降低管理成本,从而帮助企业降低 TCO。对于管理功能的评估主要包括对服务器硬件管理模块、随机 管理软件的功能丰富度和操作简便度进行评估。 能耗评估:能耗评估中我们主要考量服务器三个状态的功耗:通电不开机、空载和满载状态。通电不开机指连 接好服务器电源,但是不开机的状态,这时候的服务器会有一个待机功耗;空载状态即 CPU 使用率为 0%;满载 状态为 CPU 使用率 100%。我们将采用功耗测试仪来评估这三个状态的能耗。 四、参测服务器规格汇总 下面是参测服务器的规格汇总: (点击放大) 服务器类型:除了联想 T260 G3 是 5U 塔式结构,其余机型均是 2U 机架结构。2U 机架更加节省空间,并且可 以兼顾扩展性,是数据中心非常青睐的一种类型,是市场需求量较大的一种类型。 可扩展性:6 款产品均采用双路设计,但定位不同,扩展性也不尽相同。内存方面,浪潮、正睿、富士通的产 品采用最高规格设计,具有 18 个内存插槽;华硕、曙光产品为 12 个、联想产品为 8 个。硬盘扩展性方面表现均 不错,联想 T260 G3 虽然采用塔式结构,但支持硬盘数量最少,为 5 个;其余机型均可配置 8 个以上的硬盘,其 中正睿产品可以支持 24 块 2.5 寸硬盘,曙光产品可支持 12 个 3.5 寸硬盘,比较出色。 冗余设计:6 款机型均提供了热插拔硬盘配置,联想产品包含一个非热插拔硬盘的选项,其余产品所有硬盘均 支持热插拔。电源方面除联想产品配置单电源,其余均提供了冗余电源选项。 处理器: 我们为六款机型配置了相同的处理器, Intel Xeon X5650, 这款处理器具有 6 个核心, 采用 32nm 工艺, 主频 2.66GHz, 集成 12MB L3 缓存, 具备 6.4GT/s 的 QPI 总线, 支持英特尔超线程及睿频加速技术, TDP 为 95W, 是至强 5600 系列中比较具有代表性的产品。 芯片组:在芯片组上,浪潮、曙光、正睿、富士通的产品采用了 I/O 扩展能力更强的 Intel 5520 芯片组,联想、 华硕产品采用了 Intel 5500。 两款芯片组的区别在于对 PCIe 通道数量支持的不同, Intel 5520 支持 36 个, Intel 5500 而 支持 24 个, 这说明采用 Intel 5520 的主板可以具备更好的 I/O 扩展能力, 可以支持速度更高、 或者数量更多的 PCI-E 设备。相比 Intel 5520,Intel 5500 平台在成本上更低一些。 内存:6 款机型均采用了 ECC DDR3-1333 规格内存,为了获得最大的内存带宽,我们为服务器配置了能够实 现最大通道数的内存数量,其中联想 T260 G3 只有 8 个内存插槽,只能实现双通道内存传输,所以只配置了四根 内存。其余机型均配置了六根内存,实现三通道传输。内存容量上未作统一,在后面的 CPU、内存带宽等测试中 内存容量对结果影响并不是很大。 硬盘:由于送测服务器硬盘托架、支持硬盘类型有所差异,故而硬盘未作统一配置。接口方面,联想 T260 G3 配置了 SATA 硬盘,其余机型均配置了 SAS 硬盘。硬盘尺寸上,正睿和富士通的产品配置了 2.5 寸硬盘,其余均 为 3.5 寸。转速上,联想产品配置了 7200 转硬盘,正睿产品为万转,其余产品均为 15000 转硬盘。 阵列卡:阵列卡配置没有统一。从类型上来看,联想 T260 G3 采用了板载的 RAID 功能,支持阵列模式较为单 一,其余产品均配置了独立的阵列卡,支持阵列模式较为丰富。从速率上来看,浪潮、曙光、正睿、富士通的产 品配置了 6Gb/s 的阵列卡,较为高端。 管理功能: 管理功能是服务器上非常重要的一个方面, 丰富便捷的管理功能可以大大降低服务器后期管理维护 的难度,降低管理成本,并提高服务器的可用性。本次送测的 6 款机型全部配置了 BMC 远程管理模块。 五、产品设计评估 服务器作为为网络中的计算机提供服务的核心设备,承载着关键业务应用,需要具备可扩展性、易使用性、可 用性、易管理性等特点。为了实现上述这些特性,服务器并不是简单的硬件堆砌,在处理器、内存、硬盘等部件, 以及机箱、散热系统、电源、线缆等部分都需要经过专门的设计。 近年来随着服务器技术的不断发展,服务器的易用性也大大增强,如机箱的免工具设计、模块化设计等并不 鲜见,提高服务器可用性的冗余和热插拔技术也大行其道,降低管理难度的服务器监控管理软硬件也更加丰富。 此外随着“绿色 IT”的口号越叫越响,服务器上的绿色节能设计也炙手可热,低功耗处理器、温控风扇、高效电源 等设计也越来越有市场。 为了实现产品的差异化,目前大部分服务器厂商都在产品设计上投入了更多的精力,这也是最能够体现厂商 设计实力的部分,也是获得市场的前提。 1、机箱结构设计:评估内容包括拆装方式、硬盘托架、按钮、指示灯、故障诊断功能、接口等部分。 拆装简便度:评估机箱顶盖、硬盘、电源、风扇、内存、处理器、扩展卡等部件的拆装难易度,这对于服务器 的故障恢复和升级具有比较实际的意义,方便的拆装可以大大降低服务器维护管理难度。 6 款产品硬盘均采用了热插拔设计,比较容易拆装;富士通的产品机箱采用免工具设计,主要部件大多采用模 块化设计,拆装简便,比其他五款产品在拆装上要更胜一筹。华硕 RS520-E6/RS8 机身比普通 2U 更短一些,结 构紧凑,风扇、电源、扩展卡等部分细节设计可圈可点。总体来看国内产品在机箱的拆装简便度上略有不足,借 助工具的程度要更高。 富士通 RX300S6(左)和 华硕 RS520-E6/RS8(右)浪潮 NF5280M2(左)和 曙光 I620r-G联想 T260 G3(左) 和 正睿 IS-H 最大热插拔硬盘托架: 热插拔硬盘技术在服务器上已经非常普及, 参测的 6 款服务器均提供了热插拔硬盘支持, 但支持数量和规格不同。其中富士通 RX300S6 和浪潮 NF5280M2 提供了 2.5 寸和 3.5 寸热插拔硬盘的选择,配置 较为灵活。从支持的数量看,曙光 I620r-G 和正睿 IS-H 较为突出,前者最大支持 12 块 3.5 寸热插拔硬 盘,后者最大支持 24 块 2.5 寸热插拔硬盘。 曙光 I620r-G(左)和正睿 IS-H 支持热插拔硬盘数量较多 接口、按钮和指示灯:作为最基本的功能部分,按钮、接口和指示灯的丰富度也关系着服务器的易用性。其中 正睿 IS-H 无前置接口, 这影响了服务器的易用性。 款产品均配置了双千兆以太网网口, 6 除了联想 T260 G3,另五款产品均提供了独立的远程管理接口。 故障诊断: 故障诊断功能对于服务器的故障恢复具有非同一般的意义, 快速的确定故障部件所在可以减少服务 器修复时间,将损失降到最低。参测的 6 款产品在前面板均至少提供了一个故障指示灯,可以通过不同颜色或者 闪烁来提示硬件故障,不过在功能性上比较简单,并非能够起到很好的故障定位作用,在这一点上 6 款产品要比 具有独立故障诊断面板的 IBM、HP、Del 等产品逊色不少。 可扩展性:可扩展性对于服务器来说是一个重要特性,决定服务器的升级能力,我们主要考量参测服务器的处 理器、内存、硬盘、I/O 扩展槽位等部分的扩展能力。其中浪潮 NF5280M2、富士通 RX300S6、正睿 IS-H 相对来看规格较高,如内存均支持 18 根,支持硬盘数量和 I/O 选项较为丰富。曙光和华硕的产品在内存扩展性上 要逊色一些,只有 12 个内存插槽。联想 T260 G3 虽然采用宽大的塔式结构,但是定位较低,扩展性上并没有什 么优势。浪潮 NF5280M2(左)和富士通 RX300S6 规格较高 机箱结构设计评估小结:在机箱结构设计上国内产品和国际产品还是有一定的差距,相比之下,国内产品近年 来在设计上已经有了很大进步,虽然规格可以很高,扩展性优秀,但在人性化设计以及细节处理上相比国际老牌 厂商还有不足,细节处理不够。富士通的产品在机箱设计上要略胜一筹,做工精细,设计人性,大量采用模块化 设计,机箱免工具,无线缆,优势较为明显。 2、散热系统设计 散热系统是服务器至关重要的一个部分,关系着服务器工作的可靠性,为服务器所承载的业务提供着保障。为 了能够达到良好的散热效果, 服务器的散热部分可以称得上是一个系统工程, 散热风扇设计、 处理器散热器设计、 机箱设计、风道设计等都决定着服务器的散热效果。 散热系统的设计决定着服务器的可靠性,也体现着厂商的设计实力,故而我们将 6 款服务器的散热系统独立 拿出来比较,看一看各产品都有怎样的特色。 浪潮 NF5280M2 的导流风罩采用了分区设计,将两颗 CPU 隔离,可以获得更高的气流强度,配置了 6 个模块化 的温控冗余风扇联想 T260 G3 处理器采用主动散热,散热器做工精良,另外配置三个大尺寸的机箱风扇,形成前后贯通的风道, 机箱宽大散热效果良好,并且十分静音华硕 RS520-E6/RS8 采用 4 个模块化风扇,具备 SmartFan 技术,具备导流风罩 曙光 I620r-G 配置了 3 个模块化风扇,可以独立拆卸,CPU 和内存上覆盖了导流风罩正睿 IS-H 处理器采用主动散热方式,机箱配置了 3 个模块化温控风扇富士通 RX300S6 采用仿生学的 Coolsafe 散热设计,大量采用蜂窝状散热窗口,配置了导流风罩,机箱前方配置 了 5 个模块化热插拔冗余风扇,最大可以安装 10 个,风扇模块可以整体拆卸,单个风扇可以独立拆卸 散热系统设计小结:散热系统是服务器的重要组成部分,直接关系着服务器的可靠性。在散热设计上 6 款产品 都花了不少心思,设计各具特色,但普遍采用了模块化的冗余风扇,这一点均值得肯定。能够提高气流强度,提 高散热效果的散热风道、导流罩设计也并不鲜见。其中联想、正睿产品处理器采用了主动散热方式,其余均采用 被动散热,这两款产品也没有导流风罩的设计。 3、供电设计 电源是服务器的动力源泉,一颗稳定的电源是服务器稳定工作的保障,对于服务器这种 7x24 不间断工作的设 备来说,电源的品质更加重要,冗余电源也为服务器提供了多一重的保障。 为了能够更加绿色节能,高转化率电源目前在服务器上的得到了较为普遍的应用。如我们熟知的 80Plus 标准, 即在 20%、50%、100%负载状况下电源转化效率均高于 80%。并且根据转化效率不同,80Plus 被分为“白牌”、“铜 牌”、“银牌”、“金牌”等标准,最高转化效率可达 90%以上。80Plus 电源标准80Plus 电源标准 80Plus 80Plus Bronze(铜牌) 80Plus Silver(银牌) 80Plus Gold (金牌) 20%负载 80% 81% 85% 88% 50%负载 80% 85% 89% 92% 100%负载 80% 81% 85% 88%下面来看一下 6 款产品的电源部分:富士通 RX300S6 配置两颗 800W 冗余电源,转化率高达 92% 正睿 IS-H 配置了两颗全汉 500W 冗余电源,做工扎实品质较高曙光 I620r-G 配置了两颗 750W 80Plus 银牌冗余电源,转化率高于 85%华硕 RS520-E6/RS8 提供了冗余电源选项,配置了一颗 770W 80Plus 铜牌电源,转化效率高于 81% 联想 T260 G3 采用单电源设计,配置了一颗台达 400W 电源,可选 650W 的版本,通过 80Plus 认证浪潮 NF5280M2 配置了一颗 650W 长城电源,可选 1+1 冗余电源 供电设计小结:从 6 款产品的共性来看,无一例外的在电源部分不惜工本,采用了高品质的电源。冗余设计较 为普及,除了塔式的联想 T260 G3,其余 5 款机架产品均提供了 1+1 冗余电源的选项,避免单颗电源失效导致的 服务器宕机。从电源的转化率上来看,各产品均配置了较高转化率的电源,如富士通电源转化率高于 92%,曙光、 华硕、联想产品电源均通过 80Plus 认证。新制程新动力 六款至强 5600 服务器横评作者:中关村在线 张桂林 【原创】 CBSi 中国?ZOL 2010 年 12 月 31 日 [评论 11 条]六、性能评估 性能是服务器的一个重要指标, 更强大的性能让服务器可以胜任更加繁重的工作, 也能够实现更高的服务器整 合率,为企业降低硬件上的成本。英特尔至强 5600 处理器相对至强 5500 在工艺、核心数量、缓存等方面明显提 升,制程进步到 32nm、核心数量增加为 6 个、缓存增加到 12MB,这有效的推进了处理器的性能。根据英特尔发 布的数据,在科学计算和通用计算中,至强 5600 平台可以有 50%左右的性能提升。 对至强 5600 平台的性能表现,我们充满了期待。性能评估将分为处理器性能、内存性能、磁盘性能三大部分。 为了让参测的 6 款服务器具有可比性,我们尽量将其配置进行统一,但是由于服务器规格以及配件的限制,最终 还是无法将服务器的配置做到完全一致。配置的差异一定会产生性能的差异,因此我们更希望能够通过性能部分 的测试,发现至强 5600 平台相对上一代平台的提升,而不是去过分的纠结完全相同配置下个体之间的细微性能 差异。 1、处理器性能测试 我们将 6 款测试机型处理器统一配置为 2 颗 Intel Xeon X5650,主频 2.66GHz,共 12 个物理核心,开启超线程 技术。处理器性能测试 CPU 配置 2*Intel Xeon XGHz、共 12 核心、开启 HT) CineBench R10 测试软件 CineBench R11.5 SiSoftware Sandra Pro Business 2010 操作系统 Windows Server 2003 R2 中文企业版CineBench 是一款以处理器的运算能力直接进行特定分辨率 CG 图片的渲染测试软件, 可以测试多核心处理器 效能以及多处理器协调性能的表现。 我们通过 CineBench 主要测试的是处理器在进行多任务处理时候的性能表现, 以及多核处理器在多任务处理时候的优势能有多大。R11.5 是新发布的版本,采用了全新评分机制,并对新架构 CPU 进行优化,测试结果更加准确。CineBench R10(左)和 R11.5 所渲染的 CG 图片 我们采用 CineBench R10 和 CineBench R11.5, 渲染特定分辨率的 CG 图片来测试处理器的运算能力, 在单个核 心情况和 12 个核心、24 线程并发的情况下分别进行渲染测试,这样可以对比出多核处理与单核处理情况下性能 的提升,并可以测试多处理器之间的协调能力,从而测试服务器的平台性能。 CineBench R10 测试结果和处理器的主频、核心数量和缓存大小有关,得分越高越好。从结果来看,配置 2 颗 至强 X5650 的 6 款参测机型在得分上都要明显领先上一代的至强 5500 平台,即使相对主频更高的 2 颗 X5570, 优势也是较为明显,看来具有更多核心的至强 5600 平台在性能上得到了大幅提升。 虽然配置了同样的处理器,但是 6 款产品在 R10 测试中还是出现了差异,分数比较领先的有富士通、正睿和 浪潮的产品,华硕和曙光得分偏低。下面再来看看 CineBench R11.5 的测试结果,R11.5 针对多核处理器进行了优 化,得分更加的准确,结合两次测试结果,比较能反应真实的性能情况。 CineBench R11.5 测试中六款产品得分更加接近了一些, 不过还是有一些差异, 其中富士通 RX300S6 表现突出, 得分较其他产品稍高。曙光 I620r-G 得分与富士通接近,浪潮 NF5280M2 得分稍低,其余三款产品得分都较为接 近。 SiSoftware Sandra Pro Business 2010 是一款 Windows 系统上的分析软件,可以查看系统的软硬件信息,并可以 对处理器、内存、网络、磁盘等子系统进行测试,如处理器数学计算、多媒体计算、多核计算等,内存带宽、延 迟、缓存性能等。2010 版本对 Windows Server 2008 R2 进行了优化,最高可以支持 32/64 路平台。 我们首先利用 SiSoftware Sandra 来测试 6 款服务器的算术性能、多媒体性能、多核效率和加密解密性能: SiSoftware Sandra 处理器测试(其中多核效率测试在 Win2003 系统下无法正常得出结果,我们在 Win2008 R2 英文 企业版系统下进行此项测试) 在 SiSoftware Sandra 的 CPU 测试中,由于配置了同样的 CPU,6 款产品均比较接近,但是也出现了一些差异。 富士通 RX300S6 表现突出,在测试中一直独秀,以微弱的优势拔得头筹。曙光、浪潮的产品表现也不错,紧随 其后。但整体看来配置同样 CPU 的 6 款服务器并没有出现明显的差异,个位数的分值差别在实际应用中不会产 生明显的不同。 综合 CineBench 和 SiSoftware Sandra 的处理器测试结果,我们发现 6 款同样 CPU 配置的参测服务器在处理器 性能上差别并不明显,但相比上一代的至强 5500 平台,这种领先优势就十分的明显了。其中富士通 RX300S6 的 表现不俗,在两项测试中均以微弱优势胜出。 2、内存性能测试 6 款机型均采用了 ECC DDR3-1333 规格内存,为了获得最大的内存带宽,我们为服务器配置了能够实现最大 通道数的内存数量,其中联想 T260 G3 只有 8 个内存插槽,只能实现双通道内存传输,所以只配置了四根内存。 其余机型均配置了六根内存,实现三通道传输。内存容量上未作统一,在后面的 CPU、内存带宽等测试中内存容 量对结果影响并不是很大。机型 浪潮 NF5280M2 联想 T260 G3 曙光 I620r-G 华硕 RS520-E6/RS8 正睿 IS-H 富士通 RX300S6内存规格 2GB ECC DDR3-1333 2GB ECC DDR3-1333 4GB ECC DDR3-1333 2GB ECC DDR3-1333 4GB ECC DDR3-1333 4GB ECC DDR3-1333数量 6 4 6 6 6 6通道 3 2 3 3 3 3SiSoftware Sandra Pro Business 2010 中提供了内存带宽、内存延迟和缓存性能的测试,我们继续用这个工具来 考量 6 款服务器的内存性能: 内存带宽测试对比 内存测试小结:6 款机型配置了同样的 X5650 CPU、均采用 ECC DDR3-1333 规格内存,至强 5600 平台集成三 通道内存控制器,理论上最大可以实现 32GB/s 的内存带宽。从结果来看,华硕、曙光、正睿、富士通的产品在 内存带宽上几乎完全相同,这看上去是由相同的配置规格所决定的。但是浪潮和联想的产品比较出人意料,获得 了更高的分数,其中联想 T260 G3 只支持双通道传输,配置了 4 根内存,但是却获得了较高的分值。 3、存储子系统测试 存储子系统由硬盘和磁盘控制器或 RAID 卡组成,性能和磁盘转速、接口、缓存、磁盘控制器、RAID 卡主控 芯片、缓存等有关。下面先来看看 6 款机型磁盘子系统的配置情况: 存储子系统配置情况 6 款机型硬盘托架不尽相同,所以我们没有进行统一的配置,采用送测机型的原始配置进行测试。这样虽然不 能测试出同样的存储子系统在不同平台的性能差异,但是可以比较出不同配置的存储子系统的性能差异。6 款机 型中联想 T260 G3 没有配置独立的阵列卡, 并采用了 SATA 接口硬盘; 其余 5 款均采用了较高规格的独立阵列卡, 6Gb/s 产品比较普遍,并且均配置了性能更好的 SAS 硬盘。 我们利用 Iometer 来测试 6 款服务器存储子系统的读写性能。Iometer 是一款功能非常强大的 IO 测试软件,它 包含了负载发生器(IOMeter 称其为 Worker) ,提供一系列标准测试组件以模仿实际应用,如 WebServer(网站服 务器) 、FileServer(文件服务器)和在 OLTP(OnLine Transaction Processing,在线交易处理)服务器。这些测试 组件产生不同大小的输入输出请求和读/写分布,以模仿实际应用中的行为。 为了测试服务器的最大 I/O 性能,我们采用这样的脚本进行测试: Max IO(read) : 测试读取尺寸为 512Bytes,100%读取操作,随机率为 0%,即为 100%连续读取,队列深度 256,用于检测磁 盘子系统的最大读能力。 Max IO(write) : 测试写入尺寸为 512Bytes,0%读取操作,随机率为 0%,即为 100%连续写入,队列深度 256,用于检测磁盘 子系统的最大写能力。 存储子系统 Iometer 测试结果 存储子系统测试小结:不同配置的存储子系统的读写性能差异还是较为明显的,从参测产品的共性看,高转速 SAS 硬盘+6Gb/s SAS RAID 卡的应用已经成为主流,能够显著提升存储子系统的读写性能。 从结果来看,富士通 RX300S6 存储子系统的读写性能均十分优异,读写分值几乎一样,绝对分值也非常高。 正睿 IS-H 配置了 LSI 6Gb/s SAS RAID 卡和四块万转 SAS 硬盘,读写性能同样出色。浪潮 NF5280M2 采用了自主研发的 6GB/s SAS RAID 卡, 搭配 3 块 15000 转 SAS 硬盘, 读写性能也非常均衡, 表现优良。 曙光 I620r-G 虽然也采用了高规格的阵列卡和 SAS 硬盘, 读取性能不错, 但是写入性能有较大差异, 可能和没有配置电池导致。 联想 T260 G3 仅配置了两块 SATA 硬盘,并采用板载 RAID 功能,组建 RAID1 阵列,所以分数并不高。 七、能耗评估 能耗测试中我们主要对比三个状态的功耗:通电不开机、空载(CPU 使用率 0%)和满载(CPU 使用率 100%) 状态。通过这三个状态的能耗评估,我们能够了解一台服务器日常工作中所消耗电力的的大致范围。我们通过功 耗测试仪来测试 6 款服务器这三个状态的能耗表现。 首先还是来看一下 6 款服务器的电源配置情况:机型 浪潮 NF5280M2 联想 T260 G3 曙光 I620r-G 华硕 RS520-E6/RS8 正睿 IS-H电源规格 650W 400W 750W 770W 500W数量 1 1 2 1 2说明 可选 1+1 冗余 单电源,80+,可选 625W 80+ 银牌 80+ 铜牌, 可选 1+1 冗余 - 富士通 RX300S6800W2转化率高于 92%下面来看能耗测试结果:能耗测试对比 能耗测试小结:能耗和配置也是息息相关。对于服务器来说,处理器耗电最大,硬盘、风扇随着数量的增加, 耗电也不容小觑。芯片组和 DDR3 内存的能耗相对要小一些。6 款服务器配置了同样的两颗 X5650 处理器,采用 了能耗几乎一致的芯片组平台(Intel 5520 和 5500),内存配置接近,虽然硬盘配置上有些差异(2.5 寸和 3.5 寸、 数量 2~4 块不等),总体来看配置还是较为接近,所以测试数据能够在一定程度上反应出 6 款服务器的能耗控制 能力。 加电不开机状态下,联想 }

我要回帖

更多关于 cache的块大小与容量 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信