存储器系统结构的将来展开趋势
作者:ag环亚娱乐平台     发表时间:2017-11-21    [浏览量:2]
摘要:新的拜访方法下载附件 (28.35 KB)即便在FPGA想象中,引脚数量也是一个问题,想象人员应可以非常活络的从头安排逻辑,挑选较大的封装。Altera的高档系......

新的拜访方法




下载附件 (28.35 KB)



即便在FPGA想象中,引脚数量也是一个问题,想象人员应可以非常活络的从头安排逻辑,挑选较大的封装。Altera的高档系统开发套件(图4)电路板首要用于原型开发,完结宽带想象,运用领域包括HD视频处理、7层数据包检查,或许科学核算等,这是非常有用的套件。
逻辑嵌入在存储器子系统中这一理念包括了很风趣的意义。可以拜访许多的逻辑栅极和高速缓存的本地DRAM操控器实践上可以虚拟化去除劣化存储器带宽的一切DRAM芯片特性。IBM还在热门芯片大会上介绍了zEC12大型机系统结构,它在硬盘驱动直至它所操控的DRAM DIMM上运用了RAID 5协议,实践大将DRAM块用作多块、并行冗余存储器系统。相同的原理也可以用于将大块NAND闪存集成到存储器系统中,供给了RAID打点分层存储,可以用作虚拟大容量SRAM。

图1.AMD的Kabini SoC意图运用是平板电脑,可是仍然接收了大规划高速缓存,明显前进了存储器带宽。

这些问题并不是什么新问题——仅仅变杂乱了。因此,芯片和系统想象人员有许多老练的办法来满意越来越高的基带带宽需求,前进DRAM的拜访功率。这些办法包括软件优化、高速缓存以及陈设DRAM多个通道等。
DRAM芯片想象人员操作了这种易用性,以便完结更高的密度和能效。相应的,以可猜测的次序请求大块数据时,DRAM完结了最佳比特率——它答应块间插。假设SoC不接收这种常用方法,存储器系统的有用带宽会下降一个数量级。

3.jpg

效果让人复苏。Hoopes说:“当您查看每一项功用时,看起来都必要存储器。可是,当您把功用联合起来后,其需求非常大。在一个比如中,运用脚步开发人员要求为每一片FPGA供给全256位宽DDR3接口以及四通道QDR II SRAM。即便是1932引脚封装,这也无法完结。因此,想象人员终究接收了四个SRAM块以及一个192位DDR3接口。
毫无疑问对SoC的需求越来越大。因此,串行链路和本地存储器,出格是本地智能化会彻底改变我们怎样考虑存储器系统结构。
Hoopes指出了多个存储器操控器关于SoC非常重要。他说,IP开发人员一般可以纯熟的在子系统级优化存储器,以致可以供给他们自己经过优化的DRAM操控器。还可以让一个DRAM通道专门用于子系统,让其他IP模块运转子系统想象人员的优化门径。


传统的处置赏罚赏罚方案

DRAM多通道的概念并不限于游戏系统。几年前,数据承处理SoC就开始供给多个彻底独立的DRAM操控器。可是这种策略带来了应战。存储器优化会更加杂乱,系统想象人员必需决议哪种数据结构映射哪一通道或许操控器。当然,还有可能要求自己的DRAM操控器完结某些高要求使命,在一些嵌入式运用中,这些操控器是非常宝贵的。而DRAM多通道会很快用完引脚,竭尽I/O功耗预算。
图3.微软的XBOX One联合了大容量高速缓存、本地SRAM以及模块内DRAM,以低成本完结了更大的带宽。
MoSys芯片和IBM POWER8系统结构很好的体现了前两种理念。CPU SoC经过第二个芯片与DRAM通讯:Centaur存储器缓冲。一个POWER8可以连接8个Centaurs,每个都经过一个专用每秒9.6吉比特(Gbps)的串行通道中止连接。每个Centaur含有16 MB存储器——用于高速缓存和调度缓冲,以及四个DDR4 DRAM接口,还有一个非常智能的操控器。IBM将Centaur芯片放在DRAM DIMM上,阻止了在系统中跨过8个DDR4连接器。这样,想象集中了许多的存储器,终究正确的接收了方便串行链接,由重试协议中止护卫。



而XBOX One SoC还提醒了更多的信息。不管您有多大的管芯高速缓存,都无法代替庞大的DRAM带宽。SoC管芯包括四通道DDR3 DRAM操控器,为模块中的8 GB DRAM供给了68 GBps峰值带宽。






将来展开
欠好的是,SoC的展开使得DRAM想象人员的如果难以完结。多线程以及软件想象新出现的趋势改变了每一内核拜访存储器的方法。多查处理以及越来越重要的硬件加速意味着许多硬件要协作运用主存储器。这些趋势使得简略的部分拜访变得杂乱,DRAM带宽与此有关。

曾经在斯坦福大学举行的热门芯片大会上,寻求带宽成为论文讨论的主题,想象人员介绍了许多办法来处置赏罚赏罚所面对的应战。从这些文章中,以及从现场作业的想象人员的阅历中,可以大略看出存储器系统系统结构尔后会怎样展开。

 




2014-2-19 16:26:16 上传


SoC开发人员存眷的要点从高速时钟转向多个内核 , 这从基本上改变了存储器问题。不再是要求一个 CPU每秒有更高的兆字节(MBps) ,现在,我们面对许多差异的处理器——经常是许多差异类型的处理器,都要求一起中止拜访。而且,存储器拜访的首要方法发作了革新。科学和商业数据处理使命一般涉及到许多的部分拜访,或许更糟糕的是接收相对紧凑的算法很慢的传送许多的数据。装备适度规划的本地SRAM或许高速缓存,这类使命的一个CPU对主存储器的需求并不高。


下载附件 (30.1 KB)


多线程意味着,当一个存储器请求错失其高速缓存时,CPU不会等待:它开始履行差异的线程,其指令和数据区会在与前面线程彻底差异的物理存储区中。仔细的多路高速缓存想象有助于处置赏罚赏罚这一问题,可是终究,接连DRAM请求仍然很有可能去拜访不相关的存储区,即便每一线程都仔细的优化了其存储器安排。相似的,协作同一DRAM通道的多个内核也会打乱DRAM拜访次序。
在低端,AMD的Kabini SoC (图1) 就是很风趣的研究。AMD资深研究员Dan Bouvier介绍了这一芯片,它包括四个Jaguar CPU内核,同享了2兆字节(MB) L2高速缓存,而每个Jaguars有32千字节(KB)指令和数据高速缓存——并不长短传统的协议。更惊讶的是芯片的图形处理器,除了常用的色彩高速缓存以及用于衬着引擎的Z缓冲,还有它自己的L1指令高速缓存和128 KB L2。
除了Centaur芯片所公布颁布的特性,Bandwidth Engine 2还在管芯上供给了会话功用。各种版别的芯片供给板上算术逻辑单元,因此,计算搜罗、计量,以及原子算法和索引操作等都可以在存储器中中止,不用要将数据实践移出到外部串行链路上。内部算术逻辑单元(ALU)很显然可以用于旗语和链接表运用。而其他的硬件使得芯片有些专用的特性。MoSys技能副总裁Michael Miller介绍了四种差异版别的Bandwidth Engine 2,它们具有差异的特性。
在开发板上还有另一个风趣的模块:每片FPGA连接了一个MoSys带宽引擎。这一芯片含有72 MB的DRAM,安排成256块来仿真SRAM时序,调整用于表存储等部分拜访运用。非常一起的是,芯片运用了一个高速串行接口,而不是常用的DDR或许QDR并行接口。Hoopes着重说:“接口是我们包孕这些组成的一个原因。我们在FPGA中有未运用的收发器。”实践是,MoSys先运用了它们。

Mark Hoopes是Altera广播运用专家,解说了电路板应供给很大的存储器带宽,不用要详细的知道用户在两片大规划FPGA中完结的某些想象。因此,想象电路板时,Hoopes检查了现有Altera视频知识产权(IP)的存储器运用方法,调研了外部想象团队的需求。
而在高端则是IBM的POWER8微处理器(图2),IBM首席网络想象师Jeff Stuecheli介绍了这一款芯片。这一650 mm2、22 nm芯片包括12个POWER系统结构CPU内核,每个都有32 KB指令和64 KB数据高速缓存。每个内核还有自己512 KB的SRAM L2高速缓存,12 L2同享大容量96 MB的嵌入式DRAM L3。Stuecheli介绍说,三级接连高速缓存支撑每秒230吉字节(GBps)的存储器总带宽。风趣的是,芯片还含有一个小容量会话存储器。

作者:Altera公司总编纂Ron Wilson
存储器壁垒

对存储器带宽的寻求成为系统想象最杰出的主题。SoC想象人员不管是运用ASIC仍是FPGA技能,其考虑的中心都是必需结构、想象并完结存储器。系统想象人员必需清楚的了解存储器数据流方法,以及芯片想象人员建造的端口。即便是存储器供货商也面对DDR的退出,要了解系统行为,以便找到接连展开的新办法。
当芯片想象人员无法断定即将运转在SoC中的各种使命时,则倾向于只要成本答应,供给尽可能多的高速缓存:一切CPU内核和加速器的L1高速缓存、大规划同享L2,以及越来越大的管芯L3。在热门芯片大会上,从平板电脑级运用处理器到许多的效力器SoC,有许多高速缓存的实例。

三种理念——我们都现已分别理解了,可以融合来界说尔后的存储器系统结构。这些理念是大规划嵌入式存储器阵列、运用了容错协议的高速串行接口,以及会话存储器。

2014-2-19 16:26:16 上传

2014-2-19 16:26:17 上传

2014-2-19 16:26:18 上传

另一热门芯片实例来自MoSys,在大会上,他们介绍了其下一代Bandwidth Engine 2。根据所接收的方法,Bandwidth Engine 2经过16个15 Gbps的串行I/O通路连接处理子系统。芯片含有四个存储器分区,每个包括64块32K 72位字:在第一代,一共72 MB。许多块经过智能的从头排序操控器以及大容量片内SRAM高速缓存,躲藏了每一比特单元的动态特性。
高速缓存的功率会更高——假设高速缓存足够大 ,可以明显削减DRAM数据流。例如,在嵌入式多核完结中,相对较小的L1指令高速缓存与规划适度的L2一起作业,可以彻底容纳一切线程的热门代码,有用的削减了对主存储器的指令获取数据流。相似的,在信号处理运用中,把相对较少的数据适配到L2或许本地SRAM中,可以去掉滤波器内核负载。要孕育发作较大的影响,高速缓存不用然要实践削减DRAM请求总数量——只必要护卫首要请求源不被其他使命中止,因此,编程人员可以优化首要使命。

下载附件 (52.39 KB)

友情链接: ag环亚娱乐平台  
Copyright © 2013 ag环亚娱乐平台ag环亚娱乐平台登录,ag88环亚国际娱乐平台,ag环亚娱乐在线平台 All Rights Reserved |网站地图|