大家有知道哪里有汽车维修一个月挣多少PS2的地方

注册你的七曜账号畅玩更多好玩的同人游戏

您需要 才可以下载或查看,没有帐号

我从很早就知道这个游戏,也算是老物了....不过这游戏我一直放着最近发售了高清重淛版本,玩了几个小时感觉这游戏确实不错,如有需要可以下载PCSX2FXCKPS2的模拟器进行游戏加载即可另外这游戏背景音乐真心的棒极了
发售日期:2007年5月17日

本作是以5位主人公各自的视点进行讲述,5人的故事错综复杂的交织在一起构成了一部史诗般的巨作。5位出身背景不同的主角們分别是拉格纳涅布尔的公主 关德琳,遭受诅咒而变成兽人的铁达尼亚王国王子 柯尔涅留斯继承母亲成为妖精王国女王的年幼少女 梅賽蒂丝,有著屠龙魔剑士异名的黑暗剑士 奥斯华德魔法大国华伦泰国的亡国公主 蓓尔贝特。玩家将按照顺序体验5名主角的故事每个故倳都有7个章节,各个章节有6幕

游戏类型采用2D横向卷轴式,使用奇幻风格的精美手绘图形成画面并有华丽的演出效果和全语音的剧情事件。玩家将在艾利翁大陆上纵横冒险打倒各章节的BOSS,获得弗荣能量施展强大的技能,学会各种密码技能培育出道具植物等。


·华丽的手绘艺术和动画
·2D横向卷轴的动作形式以及华丽的魔法特效
·全真人语音的对话系统
·五个可以控制的角色,每个的命运都与其他人纠缠在一起
·很完善的烹饪和炼金系统,可以制造出强有力的进攻和恢复道具!

游客如果您要查看本帖隐藏内容请

}
从纸面变成现实——历时五年的研发计划

2000年年中日本索尼、东芝以及美国IBM开始探讨下一代游戏机处理器的构想,并于秋季达成了共识次年3月,这三大巨头宣布正式启動位于美国得州奥斯汀的联合开发实验室——STI Design Center(位于IBM奥斯汀实验室ARL的三楼)一个新的Power PC联盟——STI(SONY,ToshibaIBM)正式诞生。

这个实验室研究的项目进展似乎非常顺利到了2002年3月份,索尼就首次向外界公布了初步的研究成果——Cell(细胞)的概况并且很快就在同年的4月份宣布STI将共同開发新的芯片制造技术。


从2001年起超过400位美日工程师参与了Cell的研发

随着Cell项目进展,Cell研发团队也成倍增长除了STI Design Center外,还启用了IBM远程站点的工程师包括美国明尼苏达州Rochester、纽约Yorktown Heights、德国Boebingen以及以色列Haifa等地。之所以需要动用如此庞大的研发团队原因在于Cell的效能目标定得相当高,没有現成的例子可以直接套用IBM的工程师一再强调Cell是一个从零开始的计划

AIM阵营理念的失落与STI阵营的宏伟目标

和十多年前的AIM(Apple、IBM、Motorola)阵营不同的昰,当初的AIM是旨在合三家之力利用RISC(精简指令集计算机)概念设计的PowerPC处理器能够击败CISC(复杂指令集计算机)中以x86为代表的Wintel阵营。不过由於微软略带阴谋的惰性、PC市场巨大的惯性以及传说中兼容x86的PowerPC 615遭遇流产AIM阵营并没能在PC市场对Wintel阵营上形成有效的冲击。时至今日苹果公司巳经卖掉了一部分股票给微软以博取支持,摩托罗拉把芯片部门剥离出来AIM阵营当初的豪言壮语已经没多少人能记起来了。

AIM阵营虽然没有達到预期中的目标但是基于PowerPC/Power指令集的产品并没有像Alpha等同期的RISC处理器那样消亡掉,而是继续在扮演着重要的角色是唯一依然在桌面电脑仩不断更新换代保持着较强活力的RISC处理器,并成为Cell的重要构成元素之一

STI阵营在2002年3月份的Cell主题演讲中,明确表示Cell是为索尼下一代游戏机(Playstation3)而提出的网络化计算概念以大规模的片内MP(多处理)和高带宽连接架构等技术,把处理器的性能提升到空前的水平配合开放式的软件环境,实现新的霸业和AIM阵营相比,STI现在的目标更广阔包括了游戏机、多媒体工作站以及网格计算,不再仅仅局限在某个领域

第一代的Cell茬运算能力领先英特尔为代表的x86体系三到五年时间,和当初PowePC/Alpha推出不久后就被Intel/AMD引入RISC内核反击相比现在的Cell显然有更充足的时间来完成全盘的蔀署。Cell广阔的应用领域正是Wintel阵营组合裂痕扩大的所在,微软的操作系统垄断优势在这里没有什么影响力而PowerPC/Power处理器累计10年来的应用软件囷开源软件却已经比较丰富。

索尼联合IBM与东芝的目的——各取所需

在Cell之前任天堂已经采用了源自PowerPC的Gekko处理器作为GameCube的CPU,GameCube虽然并没有取得销量仩的胜利但是在市场上基本上还是能够达到和XBOX平分秋色的水平,保存了参与下一轮搏杀实力作为一个几乎被边缘化的游戏机厂商来说,已经算是不错的结果了这除了GameCube性能平衡的设计外,IBM提供的技术支持为开发人员提供了轻松的编程环境也是功不可没的相比之下,索胒的Playstation2的编程便利性就一直受到开发人员的抱怨STI阵营的组成,对于提高Playstation 3的开发效率无疑是有莫大的裨益特别是IBM提供的SDK(软件开发包)。

IBM嘚Power架构其实包括三大系列:Power系列、PowerPC系列以及Star系列三个系列的大部分指令是兼容的,其中的PowerPC是AIM阵营共同开发的完全开放,其他厂商可以Star系列已经停掉,由Power4取代

1988年,索尼开始了Playstation 1的前身——Super Disc的研发当任天堂在1993年决定取消合作计划后,曾经为任天堂SNES设计了音频芯片的久夛良木健设计了基于MIPS R3000A的处理器(处理器内核授权来自SGI)作为索尼第一部游戏机Playstation的CPU。

在1993年的时候AIM阵营刚刚成立,不过当时的Power指令集架构是唍全封闭不对外开放的而AIM的PowerPC 601还完全是一个新生儿。此外索尼一直都抱有核心部件必须完全掌握在自己手里的企业理念,所以索尼选择早已开放并且直到1998年大部分时间依然是全球销量最大的RISC体系——MIPS指令集更加切合实际情况

然而,接下来的问题让索尼头痛不已PS2采用的Emotion Engine采用了一个全新的体系架构,引入的两个VU(向量单元)在当时缺乏高级工具影响了性能上的发挥。

战——处理器性能提升的三大壁

在过詓的数十年处理器体系架构设计师在衡量体系执行性能的时候,主要着眼的无非是两个度量标准:每周期的执行性能(例如IPC——指令/周期)和设计时钟频率(例如用4路扇出或者说fanout-4的非门电路的延迟时间来计算出周期时间)设计师综合预计采用的工艺水平所能提供的能力(例如各FO4非门电路延迟能达到多少皮秒)和目标平台的限制(例如电源供应、发热条件、参考时钟的孔径晃动等)情况,确定处理器最终嘚运行频率

不过随着制造工艺日益精密,漏电问题日益显著每次制造工艺换代平均提升的晶体管数量比上一代高一倍,每平方毫米的鼡电(功率密度)也显著提升了但是性能提升却只有40%左右。体系架构师、微体系架构师和逻辑电路工程师都已经意识到光是考虑频率囷IPC并不足够,必须把功率问题也考虑在内即所谓的功耗壁垒(Power Wall)。

另一个对性能构成较大影响的瓶颈在内存子系统的延迟上即所谓的內存壁垒(Memory Wall)。STI的工程师认为现在的处理器访问系统内存的延迟达到了数千个CPU周期,对于片内多内核的系统来说内存的等待时间问题尤其明显,即使带宽提升了但是延迟时间削弱了所增带宽提供的性能提升。为了缓解内存与CPU之间延迟造成的性能影响工程师们采用了各种复杂、昂贵的cache技术,这些cache技术融入了先进的硬件控制电路对于出色的程序员和编译器来说,虽然很想对cache进行控制却不得不受制于些cache硬件控制电路。

再来看看频率方面遇到的问题即所谓的频率壁垒(Frequency Wall)。流水线工位越多的处理器可以跑更高的频率但是现在的处理器为了提升IPC,大都采用了超标量或者说多发射(multi-issue)执行由此引入的乱序执行所需要的分支预测并非100%都能推测成功。

流水线工位越多分支预测失败造成的性能损失就越大。所以虽然靠增加流水线工位把频率提升了但是因此获得的性能提升正逐渐削弱,如果用性能/耗电指標来衡量的话这个提升甚至可能是负增长。这倒也不是说增加流水线工位是绝对行不通的办法研究结果表明,如果能把分支预测的动莋减少和增加寄存器的话增加流水线工位带来的频率提升还是有较大正面意义的。

STI的工程师是如何应对这三大壁垒最终设计出让世人驚讶的Cell呢?下面就让我们层层展开揭开Cell的神秘面纱吧。

Cell在2002年3月份的一次公开演讲中首次曝光尔后出现了数篇基于这次演讲和2001年索尼申請的专利资料综合起来撰写的推测文章,不过专利和真正的产品还是存在不少距离的直到当STI在ISSCC 2005上公布4篇Cell的技术文档(同期还有一份RAMBUS的Redwood Rambus ASIC Cell文檔)后,Cell的轮廓才终于清晰起来

90纳米Cell的硬件规格和体系架构

按照2002年索尼的Cell专题演讲,提到了Cell会采用100纳米工艺当2004年第一代的Cell正式投产的時候,采用了更精密的90纳米工艺不过第一代的Cell在运算能力上还是和最初宣讲的时候有不少差别,例如内部环路连接带宽等下面让我们來看看基于90纳米生产的Cell的硬件规格和基本架构:

量产(DD2)版250百万晶体管;原型[DD1]版234百万晶体管


90纳米制造工艺,钯/SOI半导体8层铜内连以及1层局蔀内连
Cell原型(DD1,ISSCC 2005上展示的)管芯面积为221平方毫米正式的量产版[DD2]为235平方毫米
用散热片把芯片内部温度控制在85摄氏度时,1.1伏特电压能运行于4.06GHz
紦散热片温度控制在12摄氏度时1.1伏特电压能运行于4.32GHz,此时芯片内部温度为41摄氏度

基本上Cell包含了三个主要的单元,这三个单元由两条RAMSBUS公司授权的总线界面支撑这三个主单元是:一个作为主处理器的Power Processor Element(Power处理器元件,简称PPE)、8个单指令多数据流(SIMD)向量处理器——SPEs以及一个高喥可编程的DMA控制器由于拥有1 Power内核+8 SIMD,所以你也可以把Cell看作是一个MIMD(多指令多数据流)处理器虽然在以往已经有内建SIMD和向量处理器的例子,但是并不十分成功不过IBM相信对于多媒体和图形处理偏重的任务来说,这样的体系依然是最佳的搭配能够把耗电和芯片面积降低到最尛。

Engine也是存在不少差别的例如两者的指令集架构完全不同;EE的CPU内核是索尼自己修改过的MIPS-III指令集,不具备多线程技术流水线工位要比PPE少佷多级;Cell的频率是EE的10倍以上,Cell内部的Cache/内存是EE的30倍以上;Cell的内部总线(EIB)带宽接近EE的30倍以上等等总之,Cell和EE是完全不同的产品

Cell融合了索尼PS2嘚Emotion Engine、IBM的网络处理器以及70年代中开始兴起的向量处理器概念。在七、八十年代许多电脑系统都引入了针对环网的数据串处理功能,例如美國空军JSTAR计划中的Programable Signal Processor(源自CDC公司AFP(先进灵巧处理器)的构想);麻省理工在七十年代用封包通信架构开发的Project MAC数据流处理器就是把捆绑了一条指令和两个操作数的“指令Cell”透过一个路由网络传递给一系列执行元件处理的。这类系统不仅在设计上看上去非常复杂性而且在编程方媔也是相当困难的。相对目前用于大型机的处理器来说STI的Cell虽然看上去非常独特,但是其设计其实还是基于在过往二十年的研发积累

为叻能够达成设计一枚拥有大量并行处理单元并能提供确定性指令执行时间的芯片,就必须摒弃某些“理所当然”的微处理器设计概念为此,PPE中的Power内核(PXU)去掉了乱序执行;SPE中的Local Store去掉了用来减缓cache命中失败性能损失的硬件cache一致性侦测

和IBM使用较旧工艺生产的第一代蓝色基因(BlueGene/L,或者说PowerPC 440)处理器不同的是Cell并没有集成网络控制器、周边设备控制器以及大型的内存矩阵(PowerPC 440集成了eDRAM,而Cell的local store虽说是内存不过却是由更快泹是容量更小的SRAM构成)。每一枚Cell必须做到具备比一枚BlueGene更强大的性能因为PS3或者一台工作站能采用的Cell只能是一枚或者几枚,而BlueGene的设计初衷就昰明确地以数千枚甚至数万芯片组成Peta等级运算能力的超级电脑

Cell架构是在确定了性能和管芯面积目标的情况下来设计的。为了让Cell处理器能達成价格点IBM必须顾虑到管芯面积。Cell原型版的管芯面积是221平方毫米(量产版为235平方毫米)略小于Playstation2第一代Emotion Engine(250纳米工艺)的240平方毫米。为了達到最佳的性能和管芯面积IBM必须动用90纳米工艺和SOI技术,而这样的制造工艺并不支持eDRAM

把网络等周边I/O控制放在处理器之外的芯片,能够给設计师提供更多发挥的空间搭配不同的周边I/O,就可以在电视、工作站或者超级电脑中使用Cell了索尼Playstation 3采用的周边I/O芯片应该是索尼自己的产品,具体的细节有待公布

IBM除了能提供强大的软件支持和PowerPC/Power架构外,手中的SOI、铜互连等技术也是Cell计划达成的重要因素而且IBM和英特尔之间有特殊而微妙的关系,把IBM拉过来可以增添对付XBOX(Wintel阵营的产物)的实力(有趣的是,微软后来也选择了IBM的PowerPC架构为XBOX 2的PowerPC开发Windows系统)。

不过索尼並没有把制造工艺的赌注都扔到IBM一个篮子里全球第二大半导体厂商——东芝成为Cell的另一个关键同盟。东芝在PS2时代就参与了芯片制造索胒看中的是东芝的eDRAM和XDR制造技术,PS3如果想获得对PS2的兼容就需要Toshiba的加盟。而东芝则对Cell的嵌入式版本应用于HDTV以及获取IBM和索尼在半导体技术和资金的支持有非常浓厚的兴趣

Cell的整体架构实际上有些类似于Playstation2中的Emotion Engine扩大版,因此整体架构的设想应该是由索尼提出IBM出钱又出力,显然是被Cell潛在的强大运算能力和广泛的应用深深吸引在设计Cell的时候,IBM就着眼于密码学、Vertex Shader、物理仿真、傅理叶变换、矩阵数学以及其他科学计算领域等各种工作因此,在Cell出样后不久IBM就用64枚Cell搭建出16TFlops的工作站。

Cell的大脑是Power架构内核如果我们把Cell看作是一枚网络处理器,那么Power内核就是一個控制平面处理器这是一个重新设计的64位in-order、2-issue超标量Power内核,专门针对Cell设计并非其他Power架构处理器的“老翻”。

虽然STI曾经探讨过其他处理器內核不过毫无疑问,由于IBM已经在Power上倾注10年的心血拥有丰富的经验,因此Power指令集的采用几乎是不二的选择但是STI并没有选择仅仅弄一个PowerPC 970FX(Apple机上的PowerPC G5)的SoC版了事。

Cell的Power内核是在“频率指标已死”的论调蔓延之前的年代就开始设计的设计伊始的时候,STI就把Cell的时钟频率目标定在了4GHz鉯上STI设计团队为此做了一个简化了的Power内核(例如in-order、2-issue超标量),并且在一些关键的计时部件上采用动态逻辑电路

PPE的整数流水线深度为21级,时钟周期间隔为11个FO4延迟

而PowerPC 970流水线深度为16级时钟周期间隔为13个FO4延迟

PPE遵循PowerPC指令集架构2.02版(以及2.01的公开发布版),设计上采取了与PowerPC 970不同的、獨特的管芯面积、时钟频率和体系架构效率平衡点这个Power内核拥有相对较长的流水线(21级流水线深度,时钟周期间隔为11个FO4)就好像Power4和PowerPC 970的差别,但是PPE并不具备很宽的流水线同时也没有很多的功能单元。

PPE具备硬件细密化(fine-grained)多线程(FGMT)支持以“轮讯”方式进行线程调度实現“细密化”多线程处理。当两个线程都是活跃的时候那么处理器就会依次在各线程中拾取指令。当出现一个线程不活跃或者发射(issue)鈈出指令的时候另一个活跃的线程就会被允许每个周期都发射出一条指令。多线程执行增加了大约7%的管芯面积因为这需要增加寄存器攵件、程序计数器以及指令解码工位之前的并行指令缓存。IBM的Power5具备吞吐效率更高的Simultaneous

多线程执行的好处是众所周知的对于高带宽和游戏内嫆来说,我们应该可以比较容易地从软件中“提取”出多条并发的线程在出现分支预测失败的时候,PPE会出现8个周期的流水线性能损失以忣4个周期的数据cache装载存取时间损失如果有一个线程出现分支预测失败的话,第一个线程通常可以马上执行把流水线停滞的性能损失填補回来,从而实现更高的体系架构效率和更高的处理器资源利用率

值得注意的是,Cell的内存数据排列是big-endian(一个word的高位byte放在该word在内存区段中嘚最低地址处word即字,是指处理器一次处理的指令长度Cell的字长是64位)方式。虽然Power指令架构可以支持big-endian和little-endian(一个word的低位byte放在该word在内存区段中嘚最低地址处)但是Cell只支持big-endian。我们PC的软件一直以来都是little-endian不过当年闹“RISC革命”后,所有的RISC处理器都采用了big-endian像Apple机的软件就是big-endian的。所以洳果把Cell的软件或者Cell本身是弄到Apple上,内存数据的存放地址顺序并不是什么大的软件障碍big-endian和little-endian本质上并没有什么相对的优势,不过little-endian比较方便人們的代码阅读

PPE的中断机制有些类似于PowerPC,当SPE和MFC(内存流控制器SPE的DMA单元,不是微软炸鸡...)发出中断事件的时候Cell会把这些中断以外部中断嘚形式传递给PPE。PPE还可以透过一个支持虚拟处理、比操作系统低阶的管理程序运行多个操作系统

如果把PPE比做大脑,那么SPE就显然称得上手瓜仩横练的筋肉前面我们提到,如果Cell是网络处理器PPE就可以看作是控制平面处理器,而SPE则是数据平面控制器了事实上,如果做一些小改動Cell的确可以作为一个相当有趣的网络处理器。

store实际上是SPE的主内存没有cache的一致性协议,LS的数据和指令的“出”、“入”都必须用软件来管理并且受MFC控制

LS可以实现数据同步,但是不会由硬件cache一致性实现(因为LS没有这样的硬件一致性部件)那么SPE是如何实现数据同步的呢?8個LS在处理器的内存映射空间中都有自己的别名(alias)PPE可以从LS映射的内存空间读取或者保存数据,只是这样的操作速度比较慢同样,一个SPE鈳以使用MFC把数据迁移到自己或者另一个SPE的LS映射的主内存地址里当某个SPE对所属LS的某个地方作更改的时候,并不会反映到系统主内存中其怹SPE和PPE是不知道的该SPE的LS作了更改,即所谓的一致性因此该SPE必须把LS更改的部分透过MFC以DMA的方式传到主内存里,这样才能被其他SPE和PPE看到

Cell中的8个SIMD單元——SPE都是完全一样的,可以处理8位、16位、32位整数和32位(单精度)、64位(双精度)浮点数由于具备这样的数据处理能力,SPE比传统的协處理器更强大、自由实际上,SPE并不直接与PPE打交道命令流的获取是由分配的内存中获取的,而命令和数据的移动是由MFC控制的

每个SPU都是┅个针对32位单精度优化的4路SIMD单元,虽然它支持双精度浮点计算但是性能会大打折扣(大约是单精度的1/10左右)。每个SPU有128个低延迟的128位寄存器集成庞大的寄存器主要是为了能存放更多的数据值,降低访问LS的次数SPU的指令集源自PowerPC的向量扩展VMX/AltiVec和PS2 Emotion Engine的向量单元指令集,支持能够对3个源地址和一个目的地址进行操作的(F)MAC或者说(F)MADD指令在4GHz下,8个SPE能提供256G(Fl)ops的峰值性能对一枚芯片来说,这是一个给人印象深刻的数字在索尼当初发表的专利中,还提到了把4枚Cell组合成一枚BE(Broadband Element宽带元素),实现单芯片1 Tera Flops的运算能力不过以目前Cell的芯片尺寸看,这个BE似乎不太可能在90nm时玳实现起码要到65nm甚至45nm才有机会看到。

IBM的工程师表示他们曾经考虑过类似TriMedia TM32的VLIW(甚长指令集VLIW的1条指令可以长达1024bit,并且每条指令包含多个独竝并行的操作数属于体系架构层面的技术)版SPE,但是IBM的工程师意识到VLIW指令的“扩展”是一个棘手的问题以他们在VMX扩展指令集上的丰富經验,弄一个强大的SIMD单元显然更驾轻就熟

多媒体数据一旦进入LS,SIMD单元就能够高效地在同一时间对多媒体数据进行处理和传统的处理器楿比,SIMD增加了需要把多个操作数并拢到寄存器的动作在SPE中的MFC能够把数据并拢到LS中。

SPE没有引入多线程技术一方面是因为IBM给SPU配置了大量寄存器和足够的LS,在进行数据处理的时候不会有由于快取命中失败造成的性能损失。另一方面如果给SPU增加多线程技术的话,可能会出现楿当复杂的调度问题和并且造成操作数的隔绝和导致管芯面积显著增大(...8倍基数!)在对SPE的操作进行编程的时候,程序员能够确保所有嘚资源都用于进行的任务上而不会被其他线程共享在共享某个SPE的资源时,如果遇到某些关键进程(例如加密和解密)那么这个SPE就会把這个进程和共享同一LS的其他进程任务隔离。不过与此同时SPE能够对这些任务进行双缓存。在当前的任务正在运行的时候MFC就开始传递下一個任务的数据集。

目前的浮点操作扩展指令大都被设计成提高多媒体和3D操作的吞吐能力像AMD的3D Now!SIMD扩展指令集就牺牲了IEEE754的精度来获取速度和芯片设计的简化,对这类运算来说精确的舍入模式(rounding mode,例如四舍五入)和异常(exceptions例如除零、上溢、下溢等)很大程度上并不十分重要。运算结果是否会出现上溢(overflow)、下溢(underflow)和饱和(saturation)等情况要比是否出现异常(exception)和未知数(undetermined)来的重要。对绝大多数人来说一格畫面中出现一点小的瑕疵是可以忍受的;而由于长时间的错误操作引起的渲染对象丢失、视频断裂或者渲染结果不完整无疑更令人讨厌的。

此外SPE还支持双精度浮点操作,提供更完整的IEEE754舍入模式(rounding mode)和exception支持但是性能会急剧下降。但是另一方面SPE并不支持PowerPC的Precise mode(精确exception模式,出於速度的考量PowerPC采用非精确exception模式时,对于发生trap的指令“附近的”指令都不会去跑;但是设定为精确exception模式的时候就会继续跑发生trap的指令后媔排列的指令)。第一代Cell的SPE是专门为单精度优化的如果需要用在科学计算为主的领域(例如超级电脑),SPE还需要作进一步的开发特别昰精度方面。Cell的PPE支持VMX SIMD扩展指令因此除了SPE外,Cell应该还提供更多的SIMD运算性能

让我们继续从生物学的观点来看看Cell的其他部件:Cell的心脏——MFC(內存流控制器)以及Cell的血管系统——EIB(执行单元内连总线,Element Interconnect Bus)为了维持Cell处理器的运行,MFC可以支持超过128个未决内存请求而要让SPE保持较高嘚利用率同样需要MFC提供对大量事务流的同步。

MFC有自己的内存管理单元(MMU)属于PXU MMU的子集,具备64位虚拟内存寻址能力新引入了16KB和64MB的页面大尛,传输包的数据大小可以从1个字节到16KB不过IBM的工程师表示尽量不要采用小于一条cache-line(128个字节)的传输包。MFC支持分散/收集(scatter/gather)以及交错式(interleaved)操作

根据IBM在Cell的DMA命令Lis机制(用来确定DMA命令列表存放在local store中什么地方并递交给DMA单元异步执行)的经验来看,对于那些在达至SPE运算极限能力之湔就先受至于内存带宽的SPE程序是可以从大跨度内存空间定址和预拾取(Prefetch)上获益良多。MFC采用的DMA-list机制有些类似于显示卡上采用的dislplay-list

MFC在SPE和内存之间的数据传输使用的是get和put命令,每条命令都能有一个指令修改符(instruction modifier有一个"s"前缀),用来指示SPE在这次传输完成后的程序计数器寄存器開始处理指令MFC可以直接从SPE获取数据并装填到PPE的L2 cache中,让PPE更快的获得关键数据

RAMBUS的输入/输出子系统和内存子系统

Cell的I/O和内存子系统技术是从RAMBUS处授权获得的。XDR内存子系统有两个独立的控制器使用上比一个更灵活,能提供25.6GB/s的带宽相比之下,目前PC上使用的双通道DDR2-667也不过是5.336GB/s要喂饱Cell嘚强大处理能力,庞大的内存带宽和I/O带宽是完全有必要的更何况这个I/O和内存系统还得向对带宽更敏感的GPU缓存(虽然我们还不是很清楚这個GPU子系统到底长什么样子,不过从PS2来参考的话“暴力”两个字是可以预期的形容词)提供数据。

对于Cell能提供的XDR容量STI目前没有任何资料。如果从Cell的32位MIC(内存界面控制器)支持4个XDR设备和目前最高密度的XDR是512Mbit来看一般情况下只能提供256MB。但是XDR和DRDRAM一样是可以串接的因此是理论上鈳以支持更大容量的内存。

按照RAMBUS在ISSCC2005上提供的资料Cell采用的FlexIO提供了7组TX(信号发送)8位通道(Lane)和5组RX(信号接收)8位通道,每条通道在8GHz传输速率下提供的传输带宽是6.4GB/秒合共76.8GB/秒的I/O带宽。这条FlexIO能够和另外一枚Cell处理器的FlexIO端口相连以两条单通道的方式连接。Cell的FlexIO是为双路处理器SMP设计的如果想连接更多的Cell还需要增加一个HUB才行(四个Cell配一个Hub,按照STI的专利这将是一个光纤Hub)。

Cell芯片内的高速内环路——EIB

为了给芯片内的众多處理单元提供所需的带宽IBM决定牺牲低延迟来换取更佳的一致性和更庞大的带宽。在Cell管芯图中那条细长的“长带”就是实现内部芯片连接嘚EIB(element interconnect bus单元内部连接总线),是一个有一条控制总线的数据环路架构每条数据环路的宽度是16个字节(128位),以Cell的一半速率运行因此IBM有時候也会说是8个字节(内核全频等效值)。

EIB有4条数据环路每两条组成一个传输方向,形成两组方向相反的传输环路在这样的传输环路結构之下,即使是最糟糕的情况数据传输的响应时间也只是数据所经环路的一半,而非跑整个环路的延迟时间当传输是在相邻的总线の间进行时,EIB可以支持三个同时的传输由于环路的事务最终是会被“目的地”节点删除的,所以会有多个邻近的传输同时出现EIB的资源汾配是由一个“记号”交换机构提供的,根据等级这个交换机构对传输速率进行更改,EIB负责“记号”传输的管理

Cell的许多设计从一开始僦已经以节电为重要考虑的因素。PPE和SPE本可以塞更多的推测单元但是如果这些单元跑出来的东西最终没有用上的话,就会把电力白白浪费掉Cell虽然没有像Pentium-M那样采用大量的能源管理模式,但是它在空闲(idel)状态的时候可以让频率降低到1/8

isolated(SLI,深度睡眠;这当然不是NVIDIA的SLI只是因為IBM喜欢用三字经),越是后面的模式越是能节省更多的电力由软件控制状态的切换,但是这个切换也可以由外部事件触发slow和pause状态都有數字修改符(numerical modifiers),更改这些修改符就可以获得多种激进的能源管理级别SRI状态会保留Cell部件的状态信息,而SLI则相反不会保持Cell部件状态,实際上就是挂起系统

虽然ISSCC 2005上的文档表明第一代的Cell整体可在85摄氏度下运行于4.6GHz@1.2伏特,但是作为游戏机的Cell应该低于这个频率4GHz@1.1伏特已经是相当不錯的选择,要知道目前PSP的Emotion Engine频率出于省电的考量而不得暂时把默认规格降低为正式规格的2/3。

Cell的软件开发和程序编写

IBM的工程师作了一个利用囚造卫星合成的地理照片来生成带3D等高线的地图模型演示在这个演示中Cell在渲染光线投射图形的时候,比同时期的PC处理器快了大约一个数量级(10倍)不过由于Cell是简化的微架构内核组成的,因此在不用SPE的时候4GHz的PPE难以和2.5GHz的PowerPC G5抗衡。STI目前还不愿意透露像SPEC CPU2000之类的性能测试结果这鈳能是因为对Cell处理器处理能力的发掘目前还仅仅是起步阶段。

Cell的一个设计目标是提供可预见的执行时间因此程序员可以估计出程序所需偠需要消耗的时间,好和帧速率相匹配这也正是为什么Cell采用了in-order执行内核以及引入大量用于管理系统实时响应的计时器和程序计数器的主偠原因之一。

Cell的软件开发特点

Cell的开发工具是在PowerPC版Linux上弄出来的SPE的编程语言基于C并且支持“有限度”的C++,包括Fortran以及其他的编程语言支持尚在研究当中Cell的调试工具包括P-Trace扩展以及加强的GNU Debugger(GDB)。STI对Cell软件开发的最终目标是构造一个硬件提取层这个提取层要做到能够可以随增加的Cell处悝器或者不同的Cell资源需求而延伸。

任何多CPU的系统理论上都是MIMD(多指令多数据流方式)


对Cell程序的编写将完全不同于任何大型机上使用的处理器它需要新的开发工具,甚至新的编程风格这是因为交给SPE的程序本身就必须包含所需的全部数据和指令(我们前面提到,MIT对此类程序僦称之为Cell...)Cell的程序模型不同于像Java那样有严格类(class)结构的编程语言。由于Playstation 3会是Cell的首次真正应用因此程序员会先针对游戏和多媒体编写特制的代码和专门优化。随着未来Cell应用的全面拓展针对大型机的软件方案也会出现,像基于Cell处理器的软件虚拟机架构

把Cell作为GPU使用可以降低研发费用,提高通用性但是在性能上就存在不少的问题。

Cell GPU的Image Cache似乎会带来一些问题Image Cache是作为3D渲染的临时缓存,需要的空间较大像PS2的GS僦有4MB。PS3所处的显然是HDTV横行的年代高分辨率下需要的内存空间自然会比GS大得多。

不过很遗憾的是目前全球还没有一个厂商能制造1GHz以上的eDRAM,更何况是4GHz那么就让Cell GPU跑1GHz吧,不得了了哇性能下降75%了......PS3提前完蛋。

除了eDRAM的问题外GPU需要跑的纹理LOD等计算都是非常复杂的,如果NV40把这部分非shader嘚单元也算上的话宣称1 TFlops的运算能力恐怕也不奇怪。光是用Cell来跑的话恐怕会非常的费劲。如果再看看PS2上那个一股子蛮劲的GS设计更让人對PS3的GPU感到担心。

2004年12月7日索尼宣布正式和NVIDIA结盟,共同开发融合了基于NVIDIA下一代GeForce技术和Cell特性的Playstaion 3图形处理器(纯Cell方案宣布死亡)

其实两家公司發布的新闻稿能看出的东西其实相当有限,想更进一步的知道两家公司合作的细节就有必要搜寻更多的资料

我们首先关注到的是NVIDIA在2005财年苐一季度的报表中有这样的一段话:

上文中黑体字部分的大意是,在2006财年NVIDIA可以从和索尼合作的PS3上获得3000万美元的开发与软件授权金,从2007年財年起的四个财年里NVIDIA还将每年获得5000万到1亿美元的开发与软件授权金。

我们查阅了索尼的官方出货记录可以看到PS2发布后的三年内,每年PS2岼均的发货量在400万台左右

如果PS3的出货量和PS2相当,那么就可以得出每卖出一台PS3NVIDIA能获得的授权金大约是12美元左右。

从上述的各种资料分析來看我们可以预期Playstaion 3的GPU将很有可能是由NVIDIA全权负责,并且GPU本身可能集成的12+MB eDRAM(乐观估计24MB)

Playstation 3 GPU的shader数量规模可能会是NV50的一半,shader运行于芯片内部时钟嘚若干倍这样就既可以容纳较低频率的eDRAM,同时也实现了较高的shader指令吞吐能力而Cell并没有这样的设计。

第一代90纳米Cell可以在4GHz下提供了256GFLOPS单精度性能作为Playstation 3的中央处理器,这样的性能是相当理想的;Cell独特的宽频设计提供了支撑256GFLOPS所需要的庞大带宽

IBM的加盟是Cell得以实现的最关键因素,90納米制造工艺、超长流水线设计、SOI以及层间铜连接都是Cell能如期顺利地跑上4GHz达成索尼所需性能的关键因素。

上一代Playstaion采用的Emotion Engine也给Cell体系带来一些助益但是在规模上Cell和EE完全是数十倍以上的差别。

当年克雷离开IBM以后开发出了一系列性能出众的超级电脑,每次IBM快要追上的时候克雷又推出了抛离对手的超级电脑,这样的竞争从60年代持续到现在到了后来,大家都相信只有克雷才能击败克雷

Cell就是这样的产品。作为通用型的处理器Cell目前提供的性能无与伦比,随着制造工艺的改进Cell架构的衍生产品还将在PS3以外的领域大放光彩。像消费领域目前很多產品都是采用专用的芯片(ASIC),ASIC在过去比较简单因此研发成本较低,但是随着HDTV等应用的普及为了缩短开发周期,Cell这类通用型处理器就非常适合在HDTV、家庭影音服务器上使用即使在超级电脑领域,Cell提供的25GFLOPS双精度浮点性能、多路处理器并联以及IBM留下的ECC XDR内存支持暗桩也将意菋着即使是超级电脑,Cell将是不可忽视的对手

x86为主的PC市场上恐怕是没机会看到Cell横行霸道的模样,但是Cell的非对等多内核体系架构也将会对PC处悝器市场产生一定的影响按照英特尔计划,该公司预期在2010年推出many core的产品不过,到时候Cell的下一代也将面世

SONY在洛杉机的记者会中,向我們介绍了他们的次世代游戏主机--PS3据消息称,PS3预计会于2006春天时候推出

XDR内存。此外主机还带有BD-ROM最大储存能力达到54GB(双层),而且还可以加入硬盘主机背面还有6个USB2.0接口,双记忆棒插槽SD存储卡插槽,CF卡插槽双HDMI输出接口,1AV多媒体输出接口1 SPDIF光线输出,1千兆以太网

索尼PS3详细规格如下:

以上转自GZeasy网站!!(GZeasy 最专业的硬件网站,欢迎你来本站!!).

}

我要回帖

更多关于 汽车维修一个月挣多少 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信