数码资讯
如何有效地优化内存性能
选购提示
关注价格、性能、续航、售后和真实使用场景,理性比较后再下单。
正确理解时间序列参数
注意:本文是速度优化和DDR内存横向评估和内存优化的首脑会议的第一部分。
有很多内存优化文章,也许每个人都不认为它很棒,不是参数吗这个还在用吗然而,我相信超过90%的人并不真正理解时间参数的含义,我敢说,目前许多优化原则都是有问题的,甚至是误导性的。
在此之前,我有一个关于内存原理和相关参数的大型专题。一些原则中提到的优化具有重要的意义。事实上,虽然有几个可调内存时序参数在BIOS中,如果每个人都不知道他们的意思,不是每个人都会知道如何调整正确。有些人可能会说,这有什么难的,时间序列相关的时间序列参数,较小的好,好,错了!这是我今天必须集中讨论的问题。
对时间序列参数的真正理解
首先,让我们来看看内存工作流的一般结构,以便它能够比较理解这些参数在其中扮演的角色的能力。
SDRAM的内部是一个填充数据的存储数组,你可以把它想象成一种形式,就像表检索原理一样,我们首先指定一行(行)并分配一列(列)。我们可以准确地找到所需的单元,这是内存芯片寻址的基本原理。对于内存,这个单元可以称为存储单元,那么表(存储数组)叫什么呢它是逻辑的银行(逻辑Bank,简称L-BANK)。
SDRAM内部L-BANK示意,这是8X8阵列,B代表L-BANK地址数,C表示列地址数,R代表行地址号码。如果寻址命令B1、R2和C6,你可以确定该地址是图中的红色格子的位置
目前的内存芯片基本上都是4 L-BANK设计,有4个这样的形式,解决方法是指定L-BANK地址第一,然后指定的行地址,然后列地址是最终的寻址单元。
在实际工作中,对L-BANK地址和相应的地址线同时发出命令,这称为线或线有效激活(行活动)。之后,发送列地址addressment命令的具体操作命令(读或写)。这两个命令也同时发布的,所以他们通常使用列读/写命令代表列寻址。根据相关标准,从有效的读写指令之间的时间间隔定义为tRCD(RAS,RAS CAS Delay CAS延迟,RAS是行地址选通,CAS是列地址选通),你也可以理解为是一个重要的门控cycle.trcd SDRAM时序参数,可以通过主板BIOS通过北桥芯片,时钟周期广义tRCD(TCK,时钟时间)单位数量,如出现= 2,在两个时钟周期的延迟期的代表,具体到确切的时间,根据时钟频率确定ED(PC100 SDRAM的时钟频率等于ddr-200),tRCD = 2,代表20ns的延迟,对于PC133(时钟频率等于ddr-266)15ns。
图为tRCD = 3
其次,在列地址的选择,它会触发数据传输,但从存储单元输出的我/ O接口在实际内存芯片还需要一定的时间(数据本身之间的触发延迟,但也用于信号放大的需要),这个时间是非常著名的(CAS延迟,列地址选通脉冲延迟CL),CL值是通过相同,并以时钟周期数表示。如果ddr-400,时钟频率为200MHz的时钟周期为5ns,然后CL = 2意味着10ns的孕育期。然而,CL只有读操作,和SDRAM,没有潜伏期。对于DDR SDRAM,延迟时间在0.75到1.25小时之间。
标准的CL = 2,TAC,是内部信号处理的周期,它是不相关的。
目前,内存的读写基本都是连续的,因为与CPU交换数据量是基于一个缓存线的能力,这是CPU的存储单元,通常是64字节,而现有的p-bank宽度是8个字节,然后连续发射8次,其中涉及突发传动的概念通常能够满足。爆发(burst)是指在同一行,在同一存储单元的连续数据传输方式。连续传输的数量是突发长度(BL)。
在突发传输时,只要指定的列地址和突发长度开始,记忆会自动背上的读/写操作对应的存储单元数不连续控制器提供列地址的需要(一个不同的列数,SDRAM和DDR SDRAM突发传输解决这个不再这里)。所以,除了第一数据的传输,有几个周期(主要是之前的延迟,通常通过CL),然后每个数据只需要一个周期。
突发连续读取模式:只要指定了初始列地址和突发长度,就自动执行后续寻址和数据读取,并且只要控制两个突发读取命令之间的间隔周期(与BL相同),就可以实现连续突发传输。
在读取数据后,为了自由的读出放大器的地址和相同的L-BANK传输数据,内存芯片将预充电关闭当前工作线。以L-BANK图为例,目前寻址存储单元B1、R2、C6。如果下面的寻址命令B1,R2和C4,他们不是因为读出放大器充电服务这一行。但如果地址命令B1、R4、C4,因为它是一个不同的相同的L-BANK,然后你要在你的地址的R4关闭R2。从关闭现有的工作线开始的时候,新的业务线可以打开之间的间隔是TRP(行预充电命令期间,行预充电有效的CY这个单位也是时钟周期的个数。
这个图(点击放大)是从线下向线闭合一个完整的序列图。的出现= 2,CL = 2,和色氨酸= 2的图表示
从上面,我们还发现了一个参数,通常是在DDR SDRAM时代提到,并经常出现在BIOS中的内存规格TRAS,TRAS的解释是预充电命令,这是积极的,从行有效命令的预充电命令的间隔。这也是本课题的第一部分讨论的一个重要课题。我们深入研究之前,让我们看看哪些因素会影响内存的性能。
确定内存性能的关键
浅谈SDRAM的基本工作原理和主要操作之后,我们现在需要分析SDRAM的时序和性能之间的关系,它不再局限于芯片本身,而是从整体的内存系统。这也是一个备受关注的话题在DIYer的绝大多数。例如,多少的影响CL值对性能几乎是每一个记忆的论坛,今天我们将详细讨论它。需要强调的是,整个存储系统、存储器访问是访问一个页面(page)。因为在p-bank,每个芯片的地址是相同的,因此,页面访问量可以相当于在每一个芯片的指定行的访问,这样可以很好的理解。但在为了统一官方标准,下面的页面经常用来描述相关的内容,读者应该注意。
也许很多人还不知道这个页面的概念。先谈它的必要。从狭义上讲,在一个内存芯片各L-BANK排是一个页面,即网页的行为。但从广义上讲,页面整体上,和整个内存子系统。
内存模块和数据交换接口单元p-bank.because没有内存芯片是64位宽度,所以我们必须使用多个芯片集成p-bank.as我们现在常见的内存芯片8bit接口,你需要8个芯片组成p-bank使系统正常工作,CPU寻址的存储器是一时间p-bank,所有芯片在p-bank同时工作,以便解决所有芯片在p-bank是相同的。例如,可寻址指令B1、C2、R6,然后在p-bnak芯片的工作状态是C2线打开B1 L-BANK。嗯,广义的页面是全套相同的工作线同L-BANK芯片内部,p-bank包括页面容量是一个我。对于内存子系统的重要指标,对芯片的设计能力,这个参数的宽度取决于。由于与本文关系不大,没有具体的例子。
早期的英特尔845芯片组MCH数据:它可以支持2, 4, 8页的容量,和16KB
总之,我们需要知道,因为解决同L-BANK单地址,一个L-BANK只能同时打开一个网页,和一个4 L-BANK内存芯片可以打开4页。这样的p-bank,由该芯片,最后有4页,其中是每个p-bank在目前的DDR SDRAM内存模块的最大值。
首先,影响性能的主要定时参数
在谈到记忆的基本操作过程及相关的色氨酸,tRCD、CL,和BL,我们开始分析这些参数对内存性能的影响,对性能的影响不是一个SDRAM的带宽,频率和固定带宽的宽度,这是不能改变的。但这是一个理想的情况下,在内存的工作周期,不可能永远在数据传输的状态,因为有必要的过程,如命令、寻址,等等。但是,花费的时间较短,更高效的存储工作,更好的性能。
的非数据传输时间的主要组成部分是各种延迟和延迟。从以前的故事,它是明确的,有三个参数,对内存的性能影响至关重要,如tRCD、CL,和色氨酸。根据规则,每个规则存储模块应该表明标志三参数值,所以,他们是敏感的性能。
以内存最重要的操作,读一example.trcd决定之间行寻址区间(有效)列寻址(读/写命令)。CL决定花在列寻址数据的时间,并确定工作线变换不同色的速度在同一l-bank.you现在可以想象一些你可能遇到的阅读页面时的东西(不考虑CL时写一写):
1。可寻址线和L-BANK是空闲的。也就是说,所有行的L-BANK是闭合的,可以直接发送行有效命令。阅读之前是通过氯的总耗时,即pH(页命中)。
2,银行是解决现有的工作,也就是说,该行已解决门控活性状态,可直接发送到列地址命令,前总时间只有CL读取数据,这是所谓的背靠背(背靠背)寻址,我们称之为快速命中页(PFH Page,快打)或页面(PDH页面直接,直接命中)。
3、在L-BANK所在地址要解决不积极行。这种现象被称为解决冲突。在这一点上,我们必须预充电关闭工作线和发行新的行有效命令。结果,总耗时是色氨酸通过CL,我们称之为PM(页小姐)。
显然,PFH是最理想的解决情况,和PM是最糟糕的解决情况。这三种情况下的概率称为份pH值率、周期性胎心率- PFH率,PMR -下午率。因此,系统设计,包括内存与北桥芯片,设法提高PHR和周期性胎心率降低PMR对提高记忆效率。
两。增浆方法
显然,这与预充电管理策略有着直接的关系,有两种方式可以提高份尽可能。充电技术是一种自动、自动预充电后的每个操作,从而减少L-BANK同伴冲突解决后的同一天的可能性。然而,有还是延迟TRP如果你想打开另一条相同的L-BANK当前行后立即完成。我应该做些什么呢在这一点上,交错预充电所需的L-BANK。
在早期阶段,通过4路交错的记忆控制,这是非常关注的,是另一个预充电或地址L-BANK L-BANK工作时,如果L-BANK是要解决的。这样,预充电和数据传输的交替执行,访问L-BANK时,色氨酸通过了,你可以直接进入有效的状态,如果有理想,那么你就可以实现无缝L-BANK(交错交错的读写操作,将使用自动预充电)。这比PFH,但它只出现在同一页面的后续数据。同时,通过宣称能够做16的方式在p-bank
内存交错交错预充电/寻址管理采用LRU(最近最少使用算法,最近最少使用)。
L-BANK交织自动预充电/读时序图:0和3达到L-BANK L-BANK交错交错读取,避免了对性能的影响,通过色氨酸,是最理想的状态。
三。The method of increasing PFHR
自动预充电或交织的方法不能消除延迟所造成的出现当同伴(页)的问题。为了解决这个问题,我们应该得到一个工作线尽可能在接收的工作秩序,从而达到背靠背的影响。此时,仅由CL引起的延迟被延迟。
你是怎么做的这是北桥芯片的责任。现在我们接触到的TRAS参数。在BIOS设置的公司是最短的时间内从行预充电。它被定义为TRAS(min)在内存规格。在这段期间,预充电指令可以发出,SDRAM和DDR SDRAM,一般是预充电命令至少有效发布后5个时钟周期指令,最长间隔取决于芯片(目前的DDR SDRAM的标准一般是70000ns),或工作的数据就会有失去的危险所以,这意味着一个工作行与一个有效的开始(可选),可以连续工作时间70000ns没有预充电。显然,只要北桥芯片不发出预充电(包括自动预充电)命令,线的状态被保持开放。在这期间,任何阅读与线写操作不会延迟出现。可以看出,更多的我伊内斯(页),可以同时在北桥开业,其周期性胎心率会较大。它强调的是在同一时间的重要,同时开放不等于解决同时多线(那是不可能的),而是多线都在同一时间同时,我们可以看到,SDRAM芯片组部分指标指出了多少页可以同时打开,这是决定内存性能的一个重要因素。
英特尔845芯片组妇幼保健数据显示,它能同时支持24页处于开放状态。
但是,可同时打开的页面数量是有限的。从SDRAM的寻址原理,它是不可能在同一个开放线(L-BANK读出放大器只能为一行),这限制了可以在同一time.sdram打开页面数量有4 L-BANK,和北桥支持8 p-bank(4个DIMM)为例。从理论上讲,只有32页可以同时打开。如果只有一个p-bank,只有4页了,因为有几个L-BANK可以打开几条线同时互不干扰。英特尔845的MHC可以支持24个打开的页面,这也指的是6 p-bank例(845mch仅支持6 p-bank)。可以看出,845已经打开的页面数量在同一时间的极端。
然而,同时打开更多的页面,也需要访问策略,从理论上讲,我们应该尽量使用开放页面,以确保最短的延迟时间。只有当数据无法读取或存储,我们可以考虑开一家新的指定的页面,这是连续读写转换方向,开启新的一页将要关闭一个打开的页面,如果页面已经打开,是北桥最大的支持,而不是理论上的极限(如果它已经达到极限,关闭内部冲突),你需要一个L-BANK页面替换策略,一般都是使用LRU算法,并通过相同的交错控制。
回到主题,虽然tRAS代表最低有效预充电期,但总的来说,北桥通用芯片将预充电命令后在这个时期第一次(自动预充电,自动执行预充电命令后,他只在TRAS)冲突时预充电操作被推迟(例如,DDR的规定,在读命令的SDRAM标准的发布不立即发出预充电命令)。因此,肾动脉的长度一直是内存优化爱好者一个有争议的话题。在最近的一年或两年,因为这个参数在BIOS选项变得越来越流行,它已经逐渐被用户所关心的。事实上,在SDRAM时代没有故意设置的参数,在标准的JEDEC DDR SDRAM的官方组织,没有把它作为性能参数必须指定(CL、tRCD、TRAS,TRP)应该有一些主板厂商的炒作,也表明,短于主板说明书更好。
事实上,目的是尽量减少TRAS,对于时间的开放状态的压缩,以减少冲突的解决对其他线路同时L-BANK,从记忆本身,这是正确的方法,按照内存性能优化的原则,但如果把在整个存储系统,随着主板芯片组的内存页面的管理能力,这种方法可能不完全正确,下面我们将继续分析不同长度的设置对内存性能的影响对比。
四、BL长度对性能的影响
从读写之间的中断操作,引出了BL(突发长度)对性能的影响,首先,BL的长度与其应用范围密切相关。下表是BL公司目前使用的三个主要内存应用领域,经过多年的实践,制造商总结了这些应用领域。
BL及其对应的工作领域
BL越长,连续大数据的传输就越好。但对于分散的数据来说,BL会造成总线周期的浪费。虽然可以通过一些命令终止,它也需要控制的资源。64位例如p-bank宽度,BL = 4,急救手术可以传输32个字节的数据,为了满足高速缓存线的能力要求,是一个多,如果是BL = 8,可以满足不需要,再次发出读指令。为2KB数据,BL = 4设置发送新的列地址每4个周期,重复63次。BL = 256,一阵就可以完成的,它不需要被控制在。然而,如果只有64个字节是发送附加的命令将需要中止BL = 256.and更多额外的命令传输,他们更需要
内存子系统控制资源以降低整体的控制效率,从这一点我们可以看到BL对性能的影响,这就是为什么PC上内存子系统的BL一般是4或8,但不是8到4,或者4到8。不能统一,下面将进行分析。
在这里,我们应该有一些优化功能,我们可以先做一个定义,在任何情况下,只要值较小或较大的(单方向),内存的性能会更好,参数是绝对的参数,和值越小或大的影响,相对固定参数的相关参数。因此,CL、tRCD,色氨酸有明显的绝对参数,在任何情况下,它是绝对没有错误减少周期。此外,从上面的分析可以发现,从重要性来看,优先优化的顺序也CL、tRCD TRP,因为CL遇到,tRCD其次,TRP最机会,如果页交叉管理是好的,他们大多数都没有是affected.bl,狭窄等,可作为相关参数。也正是因为这些相关参数的存在,内存优化不再那么简单。
双渠道时代的最佳思维
好了,我们已经完成了基本的相关参数和原则,然后我们将看看如何设置细节。
目前,无论是英特尔和AMD平台,由英特尔和NVIDIA,已经进入了双通道时代,也是今后发展的主要趋势。所以我们也利用这个平台,双方为测试平台,分别875p和nForce 2。考虑到AMD 64离我们远,我们不在AMD 64双通道平台测试。
首先说,双通道英特尔865 / 875 nforce 2双通道是不一样的。目前没有可比性的两个。总之,内存控制器865和875 128bit位宽控制双通道,这意味着寻址指令的两通道是一样的两个豌豆,这就要求存储容量的设计,接口模块的双通道完全相同,由于芯片的不同宽度,寻址指令是不一样的,和一个内存控制器无法发行两套instructions.nforce2是两个独立的控制器,控制不同的通道。所以,每个通道的内存模块的结构可以是不同的,因为指令也都是独立的。但是nForce 2有很多双通道带宽合成,麻烦,毕竟,内存地址的转换是相当复杂的。所以,用2和865 / 875代表了两种设计,即体现在本设计的内存配置也发生了变化。在下面,我们使用875P平台作为优化测试主要nForce 2平台。
让我们先看一看875p
内存页控件的一些特性:
英特尔875p网页控制功能可以被认为是不同的单通道。
目前875p主板的4个DIMM的设计,可安装4个双p-bank内存模块,也就是说,共有8 p-bank和32页,但你可以看到从以前的数字,当它是一种双通道,可以打开最多的最大页面数减少到16,但页面容量增加了一倍,这意味着,在两组成的双通道内存模块控制器中的眼睛是一个128bit接口模块、指令是一样的,所以同样的p-bank双通道的内存芯片工作在同一时间同一,所以可以打开的页面数,但页面容量增加。相反,如果它是一个单通道,就像845的主板,只是积累每一存储器模块的页面,和T页面数量最多,但容量不会成倍增长。
不要小看这个差别,页面的数量和容量的内存控制器能力的发挥有关。如交错控制,如果有32个页面可比4页更容易,解决冲突可以反过来进一步减少,提高页面的容量,寻址允许更长的背靠背,这是提高记忆效率提供了帮助。关键是如何控制坐标关系的页面数量和页面容量之间。
可以发现,页面容量是固定的,页面数量增多。在下面的优化试验,主要测试页面的数量和对不同设置不同的内存配置下的性能的影响。此外,我们还将讨论可能的调整参数对BIOS的性能的影响,如BL,刷新周期,等。需要指出的是,在这个话题(包括内存测试后面),数字构成的参数分别是:CL tRCD TRP TRAS。
双通道优化实用试验(第1部分)
首先,我们开展了875p综合测试。在这一点上,我们将在BIOS的缺省参数的基础上调整。帕特和HT都是开放的。BL = 8,刷新周期设置为自动、定时设置分别2-3-3-5和2-3-3-8。
一、pcmark04试验
pcmark04具有更专业的内存测试功能全面,但只有16的普通内存测试项目。这次我们把所有的44个试验方案,通过先进的设置。以上结果,2-3-3-8一直比2-3-3-5,随着网页数量的增加,这种优势就更大了。我们选择具有最高的2-3-3-8得分1GB配置的结果,我们可以看到一些功能。
可以看出,2-3-3-8取得了大多数测试的胜利,虽然考试成绩有差异很小,应该属于试验误差范围内的,但我们可以找到这个领先的块状分布,所以也要有一个代表,尤其是(阅读和写作),表现2-3-3-8为主。除了随机访问性能,2-3-3-8更大容量的数据传输比2-3-3-5。
二,adia32 3.93测试
aidia32 3.93是一个系统的资源观和简单的测试软件,但它的内存带宽测试的功能常常被人。
adia32 3.93测试比较简单,可以发现在页面的2-3-3-5读取性能质量,但到了16页,2-3-3-8反超,并一直保持着优势2-3-3-8书写性能。
三、3dmark 2001se试验
3dmark2001se是老牌的D3D测试软件,虽然它主要是测试图形的能力,但由于内存子系统是图形处理的重要环节,因此在图形处理是非常强大的,你仍然可以在一些微效看到内存子系统的测试,并提供了巨大的空间gf5900ultra。
事实上,在测试中,两个时间序列之间的性能差异不明显(也许这个测试是不是内存非常敏感),甚至可以怀疑是测试误差。此外,在测试中,我发现一个现象,2-3-3-5性能是不稳定的,有时是2或300,低于2-3-3-8,这可能是由于短TRAS导致页面管理的不确定性,有时可预充电或有时延迟。相比之下,2-3-3-8相对稳定。不过,这也可以看出,在增加页面的情况下,2-3-3-8拥有领先的趋势。
四、aquamark 3测试
aquamark一样的3DMark 3,2001se,简单点的测试平台DX9,从中我们发现,它具有类似的性能3dmark 2001se。在4和8页,2-3-3-8没有优势,而在16页的时候,人居住。
双通道优化实用测试(下)
五,桑德拉标准2004 SP1测试
这是一个著名的软件测试,用户可以经常看到在内存带宽壮举是绘图软件在互联网上。
与之前的测试表现差不多,当页面不2-3-3-5树页时,2-3-3-8将超过。
六、sciencemark 2.0beta试验
笔者认为,sciencemark是更好的测试软件和测试项目较多,和自己的记忆测试功能也不同。
对sciencemark试验结果不像以前一样。当2-3-3-5较少,更少的页面都是可用的,但他们都受益于页面数量的增加。此外,值得注意的是,在8页的时候,2-3-3-8表现最好,不仅带宽吧,但也有很大的进展的延迟。在16页,但是,在2-3-3-8延迟完全是落后的。我觉得sciencemark使用不同的测试逻辑和方法,但它也反映了一些两tRAS设置之间的差异。
七,雷神III竞技场1.32测试
Quake III不需要我说太多。其发动机效率优异。到目前为止,它仍然是一个优秀的测试软件,对内存效率也很敏感。
是不是有点惊讶,因为页面的增加,2-3-3-5性能和2-3-3-8显著增加。这是问吃的记忆。我想,如果你没有,如果你打开任务管理器,你会发现Q3的内存占用不高,512mb已经能够满足的要求。在4和5帧是1GB内存本身更适合Windows XP的性能提高的原因。这可能是页面的数量增加,提高了存储管理的效率,以及解决冲突的进一步降低,2-3-3-8优势也开始出现在8页的发挥。
在测试中,我们认为Q3似乎优化默认总部(800x600)模式。这表明在测试最稳定的性能,并显着改善的性能。最快的方式,因为它在本质上是相同的记忆原料,记忆效率非常敏感。在总部(1280x1024)模式,处理的任务落在了显卡和内存供电二。然而,3DMark和2001se相似,2-3-3-5的性能不是很稳定,有时最好的结果5次试验结果和最坏的结果会有比较大的差距,这可能是由于页面管理短线周期造成的不确定性导致。
测试八下,nForce 2平台
升技AN7主板可调范围狭窄是大得惊人,高达15,最低达到1。我们选择3和15更极端的参数比较测试结果,测试结果不从875P平台有很大的不同,但优点和缺点都不是很明显。以下是pcmark04测试结果。
测试的AIDA32只有1GB容量,和读写速度(MB / s)的2-3-3-15是2991 / 1135和2950 / 2-3-3-3 1080.in Q3测试,在1.5GB,2-3-3-15略微领先(一帧)。当1GB,这两性能基本持平。
这样的表现,我认为首先是因为页面尺寸不够大,因为不像875p双通道,只有16KB容量nForce 2平台在测试中,我们进行了1.5gb单通道的p75p平台(页容量减少到16KB)测试也反映了这一点,pcmark04比分非常接近。此外,这也可能与nForce2的页面管理策略和更大更好的公司是更好的。通过前面的分析,我们知道这是一个相对的参数,不是说变大或变小,性能肯定会更好,应当结合案件具体情况,要有页码之间更好的平衡,页面容量和CHipset管理能力。由于时间关系,我们没有进行清理试验低于15。毕竟,我们没有讨论芯片组的优化,但从整体上来说,我们讨论了一般优化原则,但从一些论坛的角度来看,11似乎是一个很好的设置级别。它通常反映了更好的性能比TRAS = 5。有兴趣的朋友可以自己试试看。
九、BL和内存刷新率对性能的影响
由于Q3对内存性能如此寒冷,我们已经做了其他的实验在华硕的p4c800主板-调整BL和内存刷新率。下图是设置在p4c800的BIOS存储器的接口,它的p4c800相同。
通过设置SPD的DRAM定时设置为禁用,将有BL(DRAM突发长度)调整选项。我们将它调为4,然后做第三季度测试。
测试的结果是惊人的,在2GB的内存容量下,最快的模式比原来的BL = 8增加了两帧,而HQ和HQ(1280×1024)模式也增加了1帧,这是一个很好的结果。怎么会这样呢事实上,上面提到的原因,当875双通道,界面宽度为128bit,16字节。与CPU交换数据的基本单位是64个字节,所以只有4次是双通道的需要。因此,在大多数情况下,BL = 4是一个双通道Pentium4主板更好的选择虽然BL = 8可以同时传输128个字节,它将不需要发送太多的延迟时间(小数据传输)。然而,BL = 8是一个单通道主板或非正确的选择875型双通道主板。可以看出,BL参数无法确定CL.总之,如果双通道Pentium或AMD的64用户,当你的日常工作是很常见的,没有大的数据读写的应用阳离子,BL = 5月4日是比较合适的,如果我们经常做大规模的数据处理、BL = 5月8日更好。后来,在进一步的Q3的测试中,我们也发现,简称BL似乎更适合小公司,大是长块TRAS的良好结合
然后我们打开记忆刷新BIOS设置图中红圈率选择。除了汽车,还有15.6,7.8,7.8,64,64t几个选项,并64t。谁不懂意思可能想确定,越小越好的人,这是不。
市场上的内存模块基本上256mb使用32m×8bit的芯片,这种芯片刷新设计8K / 64ms,即刷新间隔是7.8125秒,7.8125秒刷新一次,如果赶上只能自认倒霉,增加刷新间隔将有助于减少坏运气的概率。
提供主板BIOS是这个选项,这64t T,作者可能如果ddr-400参考时钟周期,,T是5ns,64t是320ns,这是很短的,和记忆测试的使用通常是刷新率为7.8,那么我们可以调整高一15.6 Mu S.
测试的结果,Q3最快的方式,对BL = 4的基础上增加3帧的性能再次,总部和总部(1280 x 1024)的模式也增加了1架了。但当我们把刷新率高的配置,它似乎没有任何效果。它应该注意,刷新率不能调整时间过长,否则,可能会造成数据丢失,导致系统的不稳定。15.6测试是一个不错的选择。此外,DRAM闲置计时器(空闲时间)在BIOS中p4c800 / p4p800对内存性能的影响不大,并建议设置为自动。
小数据:如何刷新内存
之所以称之为DRAM,是因为它需要不断刷新(刷新)来保存数据,这才是DRAM最重要的操作。
刷新操作,如将重写操作一样,这是阅读和改写首先在芯片的读出放大器。但是为什么要有一个预充电操作刷新因为预充电是对一个或所有的L-BANK工作操作,不定期刷新,和是一个固定的时间,为了工作,把那些很长时间没有经验的记忆重写数据。但不同于所有L-BANK预充电,这里的行是所有L-BANK同一个地址,而在预充电各L-BANK行地址是不一样的。
那么,要重复刷新多长时间目前,公认的标准是,在数据的限制有效保存记忆电容为64ms(MS,1 / 1000秒)也就是说,每一个刷新周期64ms。这刷新速度:行数/ 64ms.when我们看看内存规格,我们经常看到4096识别 / 64ms刷新周期或8192刷新周期/ 64ms。4096和8192在这里代表本芯片每L-BANK行数。刷新命令的有效期为一次一行,和发送间隔也随总排数。4096行是15.625 s(微秒,1 / 1000毫秒),和8192排的7.8125。目前,256mbit的芯片基本上都是8k / 64ms刷新设计。
刷新操作分为两种类型:自动刷新(AR)和自刷新(自动刷新,短)。无论哪种刷新方式,无需外部提供行地址信息因为它是一个内部的自动操作。AR,行地址发生器(也叫刷新计数器)内使用SDRAM的自动生成的行地址依次刷新是一行中的所有银行,所以没有列寻址,或CAS在RAS,AR也被称为CBR(CAS在RAS、列在线定位)刷新。刷新涉及所有L-BANK,所以在刷新过程中,所有L-BANK将停止工作,而每次刷新时间为9个时钟周期(PC133的标准),然后你可以进入任何正常的工作状态,也就是说在9个时钟,只能等待所有工作指令无法执行。64ms后,同一行再次被刷新,然后周期刷新。显然,刷新操作肯定会对SDRAM的性能造成影响,但这是不可能的事,这也是DRAM相对于SRAM(静态存储器)。
在不需要刷新数据的情况下获得成本优势的成本。
单/双通道内存优化
在前面的文章中,我们介绍了一些鲜为人知的概念。因此,我们会发现在以前的优化原则许多盲目的成分。几乎所有的内存优化和测试纸(包括国外的一些知名网站)告诉读者,只要内存的时序参数和分离,越小越好!但是当你读到这篇文章的时候,你会感觉到什么显然,以往的优化原则是不严谨的,缺乏科学论证,优化实验后,我们可以尝试总结原因,进一步探讨对内存性能的影响对比。
正如我之前提到的,公司的目的是最大限度地减少冲突的行寻址和降低PMR,但这是基于内存芯片本身。如果我们考虑整个存储子系统,它可减少连续操作的概率。以下是根据JEDEC的作者发布官方标准的DDR SDRAM的时序图,我们可以发现在某些情况下,短期对业绩不佳的原因。
当BL = 8和TRA = 5的使用,第二可能读命令将由于预充电延迟,不断的突发传输是不可能的,没有连续的操作。
当BL = 4和TRA = 5的使用,第三个可能的读命令将由于预充电延迟,不断的突发传输是不可能的,只有一个背靠背的操作完成。
当BL = 8和TRA = 8,二读指令发出前,预充电,预充电推迟以便完成背靠背操作。
当BL = 4,= 8肾,第三读指令将在预充发,从而完成了两个背靠背的操作。
当BL = 8,TRA = 5,由于时间限制DDR SDRAM写,预充电尽可能早的时间可以大大延长
当BL = 4,TRA = 5,由于DDR SDRAM在写作时间的限制,预充电的最早可能延迟第八个时钟周期
当BL = 8,TRA = 8,由于时间限制DDR SDRAM写,预充电的最早时间可以,TRAS = 5相同。
当BL = 4和TRA = 8的使用,预充电不拖在了后面,有4个时钟周期,可以接受写指令,这比TRAS = 5,这增加了背靠背的操作机会。
从以上分析,我们可以发现连续运行的一些影响TRAS(似乎影响读写一点,结合试验数据,对上述pcmark04可以发现这一点),但是当出现长时间读写命令到预充电命令的时间短,间隙将短tRAS相对于TRAS慢。但是,我们不能抹杀短tRAS降低PMR的贡献,尤其是在更少的页面可管理、短TRAS的优势将更加明显。如果tRAS较长,页面很慢,而且页面总数很小,它是可能是芯片组的营业额将不会打开增加PMR。但当芯片可以控制页面的增加,离子的优势在连续运行G TRAS将逐渐显现,因为解决冲突不再是严重的芯片组调度。
然而,有些人可能会发现BIOS通常不提供相关的设置,或者选项不够。我们怎么能做到呢(例如,875支持TRA = 10,但p4c800和p4p800只能去8)。事实上,除了BIOS可以调整内存时序参数,一些软件也可以,比如著名的wpcredit,可以改变一些芯片组的内存控制器的寄存器,但目前,公众可以了解存款设置只有英特尔芯片,所以我不打算详细介绍软件修改的方式。更重要的是,如果875 865要传输相关设备寄存器,它需要首先更改其他寄存器。这是相当麻烦的,和许多875 / 865的主板不改。至于其他的芯片组,你可以改变在BIOS的选项,然后使用软件出口登记如CPU-Z,发现了一些不同的相反,然后试着用wpcredit进行修改,但它是非常复杂的,和不知道登记类型(8, 16 32bit),用死老鼠的心态把握瞎猫会尝试更危险。所以,我就说说这里的方法,我不提倡手工登记方式的变化。
在这一点上,我们可以总结以下几点内存优化原则和相关技术,以供参考:
1,内存优化应从整个系统开始,不局限于内存模块或内存芯片本身,而忽略内存子系统中的其他元素。
2,目前的芯片组具有多页面管理的能力,所以如果可能的话,尽量选择两p-bank内存模块增加系统内存页的数量。但你如何区分单p-bank或双p-bank之间该产品目前在市场上,256MB的模块基本上都是单一的p-bank,双面,但每侧只有4芯片基本上都是单一的p-bank。512mb双面模块基本上都是双p-bank。
3、页数的计算公式是:p-bank X4的数量,如果是酷睿双核或AMD 64双通道平台,再除以2。例如,两个单面256MB内存,这是一个难得的= 8页,由4页875双通道
4、CL、tRCD,色氨酸是绝对的性能参数。在任何平台,越小越好,优化的顺序是CL tRCD TRP。
5、当内存页面数是4,短tRAS设置可能会更好,但最好不要低于5。此外,该短tRAS内存性能可能比长tRAS更不稳定,且对时钟频率的增加比较敏感。
6、当内存页面数大于或等于8,长tRAS设置会更好
7。对于875和865平台,当页面数量达到8或更多时,内存性能更好。
8。对于非双通道Pentium4处理器和AMD 64平台,两个渠道的狭窄长度和长度之间的性能差异应减少
9、Pentium4处理器或AMD 64双通道平台下,BL = 4是一个更好的选择,在大多数情况下。在其他情况下,BL = 5月8日是一个更好的选择。请根据实际应用情况进行调整。
10,适当增加内存刷新率可以提高内存的效率,但也可能减少。
记忆的稳定性
提示:BIOS中设置内存相关参数的关键
自动配置自动设置(可能的选项:打开/关闭或启用/禁用)
其他可能被描述为DRAM自动,定时选择,由SPD定时配置等。如果你想手动调整你的内存时间,你应该关掉它,然后你会有详细的时序参数列表自动。
银行交错(可能的选项:关闭自动/ 2 / 4)
这里的银行是指L-BANK,和目前的DDR内存芯片由4 L-BANK。为了尽量减少冲突的解决和提高效率,建议设立4(汽车也可以根据L-BANK信息SPD自动设置)。
突发长度突发长度(可能的选项:4 8)
一般来说,如果是AMD的Athlon XP或Pentium4单通道平台,建议设置为8,如果是奔腾64或AMD的双通道平台,建议将其设置为4。但具体情况取决于具体的应用。
CAS延迟列地址选择器脉冲延迟(可能的选项:1.5 2 2.5 3)
BIOS中的其他可能的描述是:Tcl,CAS延迟时间,CAS Timing Delay。不用说太多,可以调整得更短更短。
命令速率第一命令延迟(可能的选项:1 2)
这个选项是非常罕见的,通常被描述为DRAM命令,命令率等。由于目前的DDR内存寻址,你需要选择p-bank(通过CS片选信号DIMM),然后L-BANK /激活和选择列地址。这个参数的含义是指具体的L-BANK /行激活命令可以发送出p-bank选择后,单位是时钟周期。显然,越短越好。但在主板上增加了内存模块的控制芯片组的负载增加,和短间隔可能会影响稳定性。所以当你的记忆插入很多不稳定的时候,你需要把这个参数长。大部分的主板会自动自动设置此参数。从以上sciencemark 2测试,你也可以感知能力和延迟之间的关系。
预充电时间线预充电时间(可能的选项:2 3 4)
在BIOS中的其他可能的描述:TRP,RAS预充电,预充电到活跃。通过最后一个故事,我们现在应该明白,它越小,它越是。
RAS到CAS Delay行寻址到列地址延迟时间(可能的选项:2 3 4 / 5)
BIOS中可能的其他描述:
通过RAS活性,CAS Delay,CMD等。越小越好的价值。
积极的Precharge Delay线是有效的线路预充电时间(可能的选择:1….. 5 6 / 7…15)
在BIOS的其它可能的描述:狭窄行活动时间,预充电等待状态,行主动延迟,一排排,等等。根据以上分析,此参数应根据实际情况确定,和具体的观点,看到上面的文字,不说更大或更小的更好的。
注意:本文是速度优化和DDR内存横向评估和内存优化的首脑会议的第一部分。
有很多内存优化文章,也许每个人都不认为它很棒,不是参数吗这个还在用吗然而,我相信超过90%的人并不真正理解时间参数的含义,我敢说,目前许多优化原则都是有问题的,甚至是误导性的。
在此之前,我有一个关于内存原理和相关参数的大型专题。一些原则中提到的优化具有重要的意义。事实上,虽然有几个可调内存时序参数在BIOS中,如果每个人都不知道他们的意思,不是每个人都会知道如何调整正确。有些人可能会说,这有什么难的,时间序列相关的时间序列参数,较小的好,好,错了!这是我今天必须集中讨论的问题。
对时间序列参数的真正理解
首先,让我们来看看内存工作流的一般结构,以便它能够比较理解这些参数在其中扮演的角色的能力。
SDRAM的内部是一个填充数据的存储数组,你可以把它想象成一种形式,就像表检索原理一样,我们首先指定一行(行)并分配一列(列)。我们可以准确地找到所需的单元,这是内存芯片寻址的基本原理。对于内存,这个单元可以称为存储单元,那么表(存储数组)叫什么呢它是逻辑的银行(逻辑Bank,简称L-BANK)。
SDRAM内部L-BANK示意,这是8X8阵列,B代表L-BANK地址数,C表示列地址数,R代表行地址号码。如果寻址命令B1、R2和C6,你可以确定该地址是图中的红色格子的位置
目前的内存芯片基本上都是4 L-BANK设计,有4个这样的形式,解决方法是指定L-BANK地址第一,然后指定的行地址,然后列地址是最终的寻址单元。
在实际工作中,对L-BANK地址和相应的地址线同时发出命令,这称为线或线有效激活(行活动)。之后,发送列地址addressment命令的具体操作命令(读或写)。这两个命令也同时发布的,所以他们通常使用列读/写命令代表列寻址。根据相关标准,从有效的读写指令之间的时间间隔定义为tRCD(RAS,RAS CAS Delay CAS延迟,RAS是行地址选通,CAS是列地址选通),你也可以理解为是一个重要的门控cycle.trcd SDRAM时序参数,可以通过主板BIOS通过北桥芯片,时钟周期广义tRCD(TCK,时钟时间)单位数量,如出现= 2,在两个时钟周期的延迟期的代表,具体到确切的时间,根据时钟频率确定ED(PC100 SDRAM的时钟频率等于ddr-200),tRCD = 2,代表20ns的延迟,对于PC133(时钟频率等于ddr-266)15ns。
图为tRCD = 3
其次,在列地址的选择,它会触发数据传输,但从存储单元输出的我/ O接口在实际内存芯片还需要一定的时间(数据本身之间的触发延迟,但也用于信号放大的需要),这个时间是非常著名的(CAS延迟,列地址选通脉冲延迟CL),CL值是通过相同,并以时钟周期数表示。如果ddr-400,时钟频率为200MHz的时钟周期为5ns,然后CL = 2意味着10ns的孕育期。然而,CL只有读操作,和SDRAM,没有潜伏期。对于DDR SDRAM,延迟时间在0.75到1.25小时之间。
标准的CL = 2,TAC,是内部信号处理的周期,它是不相关的。
目前,内存的读写基本都是连续的,因为与CPU交换数据量是基于一个缓存线的能力,这是CPU的存储单元,通常是64字节,而现有的p-bank宽度是8个字节,然后连续发射8次,其中涉及突发传动的概念通常能够满足。爆发(burst)是指在同一行,在同一存储单元的连续数据传输方式。连续传输的数量是突发长度(BL)。
在突发传输时,只要指定的列地址和突发长度开始,记忆会自动背上的读/写操作对应的存储单元数不连续控制器提供列地址的需要(一个不同的列数,SDRAM和DDR SDRAM突发传输解决这个不再这里)。所以,除了第一数据的传输,有几个周期(主要是之前的延迟,通常通过CL),然后每个数据只需要一个周期。
突发连续读取模式:只要指定了初始列地址和突发长度,就自动执行后续寻址和数据读取,并且只要控制两个突发读取命令之间的间隔周期(与BL相同),就可以实现连续突发传输。
在读取数据后,为了自由的读出放大器的地址和相同的L-BANK传输数据,内存芯片将预充电关闭当前工作线。以L-BANK图为例,目前寻址存储单元B1、R2、C6。如果下面的寻址命令B1,R2和C4,他们不是因为读出放大器充电服务这一行。但如果地址命令B1、R4、C4,因为它是一个不同的相同的L-BANK,然后你要在你的地址的R4关闭R2。从关闭现有的工作线开始的时候,新的业务线可以打开之间的间隔是TRP(行预充电命令期间,行预充电有效的CY这个单位也是时钟周期的个数。
这个图(点击放大)是从线下向线闭合一个完整的序列图。的出现= 2,CL = 2,和色氨酸= 2的图表示
从上面,我们还发现了一个参数,通常是在DDR SDRAM时代提到,并经常出现在BIOS中的内存规格TRAS,TRAS的解释是预充电命令,这是积极的,从行有效命令的预充电命令的间隔。这也是本课题的第一部分讨论的一个重要课题。我们深入研究之前,让我们看看哪些因素会影响内存的性能。
确定内存性能的关键
浅谈SDRAM的基本工作原理和主要操作之后,我们现在需要分析SDRAM的时序和性能之间的关系,它不再局限于芯片本身,而是从整体的内存系统。这也是一个备受关注的话题在DIYer的绝大多数。例如,多少的影响CL值对性能几乎是每一个记忆的论坛,今天我们将详细讨论它。需要强调的是,整个存储系统、存储器访问是访问一个页面(page)。因为在p-bank,每个芯片的地址是相同的,因此,页面访问量可以相当于在每一个芯片的指定行的访问,这样可以很好的理解。但在为了统一官方标准,下面的页面经常用来描述相关的内容,读者应该注意。
也许很多人还不知道这个页面的概念。先谈它的必要。从狭义上讲,在一个内存芯片各L-BANK排是一个页面,即网页的行为。但从广义上讲,页面整体上,和整个内存子系统。
内存模块和数据交换接口单元p-bank.because没有内存芯片是64位宽度,所以我们必须使用多个芯片集成p-bank.as我们现在常见的内存芯片8bit接口,你需要8个芯片组成p-bank使系统正常工作,CPU寻址的存储器是一时间p-bank,所有芯片在p-bank同时工作,以便解决所有芯片在p-bank是相同的。例如,可寻址指令B1、C2、R6,然后在p-bnak芯片的工作状态是C2线打开B1 L-BANK。嗯,广义的页面是全套相同的工作线同L-BANK芯片内部,p-bank包括页面容量是一个我。对于内存子系统的重要指标,对芯片的设计能力,这个参数的宽度取决于。由于与本文关系不大,没有具体的例子。
早期的英特尔845芯片组MCH数据:它可以支持2, 4, 8页的容量,和16KB
总之,我们需要知道,因为解决同L-BANK单地址,一个L-BANK只能同时打开一个网页,和一个4 L-BANK内存芯片可以打开4页。这样的p-bank,由该芯片,最后有4页,其中是每个p-bank在目前的DDR SDRAM内存模块的最大值。
首先,影响性能的主要定时参数
在谈到记忆的基本操作过程及相关的色氨酸,tRCD、CL,和BL,我们开始分析这些参数对内存性能的影响,对性能的影响不是一个SDRAM的带宽,频率和固定带宽的宽度,这是不能改变的。但这是一个理想的情况下,在内存的工作周期,不可能永远在数据传输的状态,因为有必要的过程,如命令、寻址,等等。但是,花费的时间较短,更高效的存储工作,更好的性能。
的非数据传输时间的主要组成部分是各种延迟和延迟。从以前的故事,它是明确的,有三个参数,对内存的性能影响至关重要,如tRCD、CL,和色氨酸。根据规则,每个规则存储模块应该表明标志三参数值,所以,他们是敏感的性能。
以内存最重要的操作,读一example.trcd决定之间行寻址区间(有效)列寻址(读/写命令)。CL决定花在列寻址数据的时间,并确定工作线变换不同色的速度在同一l-bank.you现在可以想象一些你可能遇到的阅读页面时的东西(不考虑CL时写一写):
1。可寻址线和L-BANK是空闲的。也就是说,所有行的L-BANK是闭合的,可以直接发送行有效命令。阅读之前是通过氯的总耗时,即pH(页命中)。
2,银行是解决现有的工作,也就是说,该行已解决门控活性状态,可直接发送到列地址命令,前总时间只有CL读取数据,这是所谓的背靠背(背靠背)寻址,我们称之为快速命中页(PFH Page,快打)或页面(PDH页面直接,直接命中)。
3、在L-BANK所在地址要解决不积极行。这种现象被称为解决冲突。在这一点上,我们必须预充电关闭工作线和发行新的行有效命令。结果,总耗时是色氨酸通过CL,我们称之为PM(页小姐)。
显然,PFH是最理想的解决情况,和PM是最糟糕的解决情况。这三种情况下的概率称为份pH值率、周期性胎心率- PFH率,PMR -下午率。因此,系统设计,包括内存与北桥芯片,设法提高PHR和周期性胎心率降低PMR对提高记忆效率。
两。增浆方法
显然,这与预充电管理策略有着直接的关系,有两种方式可以提高份尽可能。充电技术是一种自动、自动预充电后的每个操作,从而减少L-BANK同伴冲突解决后的同一天的可能性。然而,有还是延迟TRP如果你想打开另一条相同的L-BANK当前行后立即完成。我应该做些什么呢在这一点上,交错预充电所需的L-BANK。
在早期阶段,通过4路交错的记忆控制,这是非常关注的,是另一个预充电或地址L-BANK L-BANK工作时,如果L-BANK是要解决的。这样,预充电和数据传输的交替执行,访问L-BANK时,色氨酸通过了,你可以直接进入有效的状态,如果有理想,那么你就可以实现无缝L-BANK(交错交错的读写操作,将使用自动预充电)。这比PFH,但它只出现在同一页面的后续数据。同时,通过宣称能够做16的方式在p-bank
内存交错交错预充电/寻址管理采用LRU(最近最少使用算法,最近最少使用)。
L-BANK交织自动预充电/读时序图:0和3达到L-BANK L-BANK交错交错读取,避免了对性能的影响,通过色氨酸,是最理想的状态。
三。The method of increasing PFHR
自动预充电或交织的方法不能消除延迟所造成的出现当同伴(页)的问题。为了解决这个问题,我们应该得到一个工作线尽可能在接收的工作秩序,从而达到背靠背的影响。此时,仅由CL引起的延迟被延迟。
你是怎么做的这是北桥芯片的责任。现在我们接触到的TRAS参数。在BIOS设置的公司是最短的时间内从行预充电。它被定义为TRAS(min)在内存规格。在这段期间,预充电指令可以发出,SDRAM和DDR SDRAM,一般是预充电命令至少有效发布后5个时钟周期指令,最长间隔取决于芯片(目前的DDR SDRAM的标准一般是70000ns),或工作的数据就会有失去的危险所以,这意味着一个工作行与一个有效的开始(可选),可以连续工作时间70000ns没有预充电。显然,只要北桥芯片不发出预充电(包括自动预充电)命令,线的状态被保持开放。在这期间,任何阅读与线写操作不会延迟出现。可以看出,更多的我伊内斯(页),可以同时在北桥开业,其周期性胎心率会较大。它强调的是在同一时间的重要,同时开放不等于解决同时多线(那是不可能的),而是多线都在同一时间同时,我们可以看到,SDRAM芯片组部分指标指出了多少页可以同时打开,这是决定内存性能的一个重要因素。
英特尔845芯片组妇幼保健数据显示,它能同时支持24页处于开放状态。
但是,可同时打开的页面数量是有限的。从SDRAM的寻址原理,它是不可能在同一个开放线(L-BANK读出放大器只能为一行),这限制了可以在同一time.sdram打开页面数量有4 L-BANK,和北桥支持8 p-bank(4个DIMM)为例。从理论上讲,只有32页可以同时打开。如果只有一个p-bank,只有4页了,因为有几个L-BANK可以打开几条线同时互不干扰。英特尔845的MHC可以支持24个打开的页面,这也指的是6 p-bank例(845mch仅支持6 p-bank)。可以看出,845已经打开的页面数量在同一时间的极端。
然而,同时打开更多的页面,也需要访问策略,从理论上讲,我们应该尽量使用开放页面,以确保最短的延迟时间。只有当数据无法读取或存储,我们可以考虑开一家新的指定的页面,这是连续读写转换方向,开启新的一页将要关闭一个打开的页面,如果页面已经打开,是北桥最大的支持,而不是理论上的极限(如果它已经达到极限,关闭内部冲突),你需要一个L-BANK页面替换策略,一般都是使用LRU算法,并通过相同的交错控制。
回到主题,虽然tRAS代表最低有效预充电期,但总的来说,北桥通用芯片将预充电命令后在这个时期第一次(自动预充电,自动执行预充电命令后,他只在TRAS)冲突时预充电操作被推迟(例如,DDR的规定,在读命令的SDRAM标准的发布不立即发出预充电命令)。因此,肾动脉的长度一直是内存优化爱好者一个有争议的话题。在最近的一年或两年,因为这个参数在BIOS选项变得越来越流行,它已经逐渐被用户所关心的。事实上,在SDRAM时代没有故意设置的参数,在标准的JEDEC DDR SDRAM的官方组织,没有把它作为性能参数必须指定(CL、tRCD、TRAS,TRP)应该有一些主板厂商的炒作,也表明,短于主板说明书更好。
事实上,目的是尽量减少TRAS,对于时间的开放状态的压缩,以减少冲突的解决对其他线路同时L-BANK,从记忆本身,这是正确的方法,按照内存性能优化的原则,但如果把在整个存储系统,随着主板芯片组的内存页面的管理能力,这种方法可能不完全正确,下面我们将继续分析不同长度的设置对内存性能的影响对比。
四、BL长度对性能的影响
从读写之间的中断操作,引出了BL(突发长度)对性能的影响,首先,BL的长度与其应用范围密切相关。下表是BL公司目前使用的三个主要内存应用领域,经过多年的实践,制造商总结了这些应用领域。
BL及其对应的工作领域
BL越长,连续大数据的传输就越好。但对于分散的数据来说,BL会造成总线周期的浪费。虽然可以通过一些命令终止,它也需要控制的资源。64位例如p-bank宽度,BL = 4,急救手术可以传输32个字节的数据,为了满足高速缓存线的能力要求,是一个多,如果是BL = 8,可以满足不需要,再次发出读指令。为2KB数据,BL = 4设置发送新的列地址每4个周期,重复63次。BL = 256,一阵就可以完成的,它不需要被控制在。然而,如果只有64个字节是发送附加的命令将需要中止BL = 256.and更多额外的命令传输,他们更需要
内存子系统控制资源以降低整体的控制效率,从这一点我们可以看到BL对性能的影响,这就是为什么PC上内存子系统的BL一般是4或8,但不是8到4,或者4到8。不能统一,下面将进行分析。
在这里,我们应该有一些优化功能,我们可以先做一个定义,在任何情况下,只要值较小或较大的(单方向),内存的性能会更好,参数是绝对的参数,和值越小或大的影响,相对固定参数的相关参数。因此,CL、tRCD,色氨酸有明显的绝对参数,在任何情况下,它是绝对没有错误减少周期。此外,从上面的分析可以发现,从重要性来看,优先优化的顺序也CL、tRCD TRP,因为CL遇到,tRCD其次,TRP最机会,如果页交叉管理是好的,他们大多数都没有是affected.bl,狭窄等,可作为相关参数。也正是因为这些相关参数的存在,内存优化不再那么简单。
双渠道时代的最佳思维
好了,我们已经完成了基本的相关参数和原则,然后我们将看看如何设置细节。
目前,无论是英特尔和AMD平台,由英特尔和NVIDIA,已经进入了双通道时代,也是今后发展的主要趋势。所以我们也利用这个平台,双方为测试平台,分别875p和nForce 2。考虑到AMD 64离我们远,我们不在AMD 64双通道平台测试。
首先说,双通道英特尔865 / 875 nforce 2双通道是不一样的。目前没有可比性的两个。总之,内存控制器865和875 128bit位宽控制双通道,这意味着寻址指令的两通道是一样的两个豌豆,这就要求存储容量的设计,接口模块的双通道完全相同,由于芯片的不同宽度,寻址指令是不一样的,和一个内存控制器无法发行两套instructions.nforce2是两个独立的控制器,控制不同的通道。所以,每个通道的内存模块的结构可以是不同的,因为指令也都是独立的。但是nForce 2有很多双通道带宽合成,麻烦,毕竟,内存地址的转换是相当复杂的。所以,用2和865 / 875代表了两种设计,即体现在本设计的内存配置也发生了变化。在下面,我们使用875P平台作为优化测试主要nForce 2平台。
让我们先看一看875p
内存页控件的一些特性:
英特尔875p网页控制功能可以被认为是不同的单通道。
目前875p主板的4个DIMM的设计,可安装4个双p-bank内存模块,也就是说,共有8 p-bank和32页,但你可以看到从以前的数字,当它是一种双通道,可以打开最多的最大页面数减少到16,但页面容量增加了一倍,这意味着,在两组成的双通道内存模块控制器中的眼睛是一个128bit接口模块、指令是一样的,所以同样的p-bank双通道的内存芯片工作在同一时间同一,所以可以打开的页面数,但页面容量增加。相反,如果它是一个单通道,就像845的主板,只是积累每一存储器模块的页面,和T页面数量最多,但容量不会成倍增长。
不要小看这个差别,页面的数量和容量的内存控制器能力的发挥有关。如交错控制,如果有32个页面可比4页更容易,解决冲突可以反过来进一步减少,提高页面的容量,寻址允许更长的背靠背,这是提高记忆效率提供了帮助。关键是如何控制坐标关系的页面数量和页面容量之间。
可以发现,页面容量是固定的,页面数量增多。在下面的优化试验,主要测试页面的数量和对不同设置不同的内存配置下的性能的影响。此外,我们还将讨论可能的调整参数对BIOS的性能的影响,如BL,刷新周期,等。需要指出的是,在这个话题(包括内存测试后面),数字构成的参数分别是:CL tRCD TRP TRAS。
双通道优化实用试验(第1部分)
首先,我们开展了875p综合测试。在这一点上,我们将在BIOS的缺省参数的基础上调整。帕特和HT都是开放的。BL = 8,刷新周期设置为自动、定时设置分别2-3-3-5和2-3-3-8。
一、pcmark04试验
pcmark04具有更专业的内存测试功能全面,但只有16的普通内存测试项目。这次我们把所有的44个试验方案,通过先进的设置。以上结果,2-3-3-8一直比2-3-3-5,随着网页数量的增加,这种优势就更大了。我们选择具有最高的2-3-3-8得分1GB配置的结果,我们可以看到一些功能。
可以看出,2-3-3-8取得了大多数测试的胜利,虽然考试成绩有差异很小,应该属于试验误差范围内的,但我们可以找到这个领先的块状分布,所以也要有一个代表,尤其是(阅读和写作),表现2-3-3-8为主。除了随机访问性能,2-3-3-8更大容量的数据传输比2-3-3-5。
二,adia32 3.93测试
aidia32 3.93是一个系统的资源观和简单的测试软件,但它的内存带宽测试的功能常常被人。
adia32 3.93测试比较简单,可以发现在页面的2-3-3-5读取性能质量,但到了16页,2-3-3-8反超,并一直保持着优势2-3-3-8书写性能。
三、3dmark 2001se试验
3dmark2001se是老牌的D3D测试软件,虽然它主要是测试图形的能力,但由于内存子系统是图形处理的重要环节,因此在图形处理是非常强大的,你仍然可以在一些微效看到内存子系统的测试,并提供了巨大的空间gf5900ultra。
事实上,在测试中,两个时间序列之间的性能差异不明显(也许这个测试是不是内存非常敏感),甚至可以怀疑是测试误差。此外,在测试中,我发现一个现象,2-3-3-5性能是不稳定的,有时是2或300,低于2-3-3-8,这可能是由于短TRAS导致页面管理的不确定性,有时可预充电或有时延迟。相比之下,2-3-3-8相对稳定。不过,这也可以看出,在增加页面的情况下,2-3-3-8拥有领先的趋势。
四、aquamark 3测试
aquamark一样的3DMark 3,2001se,简单点的测试平台DX9,从中我们发现,它具有类似的性能3dmark 2001se。在4和8页,2-3-3-8没有优势,而在16页的时候,人居住。
双通道优化实用测试(下)
五,桑德拉标准2004 SP1测试
这是一个著名的软件测试,用户可以经常看到在内存带宽壮举是绘图软件在互联网上。
与之前的测试表现差不多,当页面不2-3-3-5树页时,2-3-3-8将超过。
六、sciencemark 2.0beta试验
笔者认为,sciencemark是更好的测试软件和测试项目较多,和自己的记忆测试功能也不同。
对sciencemark试验结果不像以前一样。当2-3-3-5较少,更少的页面都是可用的,但他们都受益于页面数量的增加。此外,值得注意的是,在8页的时候,2-3-3-8表现最好,不仅带宽吧,但也有很大的进展的延迟。在16页,但是,在2-3-3-8延迟完全是落后的。我觉得sciencemark使用不同的测试逻辑和方法,但它也反映了一些两tRAS设置之间的差异。
七,雷神III竞技场1.32测试
Quake III不需要我说太多。其发动机效率优异。到目前为止,它仍然是一个优秀的测试软件,对内存效率也很敏感。
是不是有点惊讶,因为页面的增加,2-3-3-5性能和2-3-3-8显著增加。这是问吃的记忆。我想,如果你没有,如果你打开任务管理器,你会发现Q3的内存占用不高,512mb已经能够满足的要求。在4和5帧是1GB内存本身更适合Windows XP的性能提高的原因。这可能是页面的数量增加,提高了存储管理的效率,以及解决冲突的进一步降低,2-3-3-8优势也开始出现在8页的发挥。
在测试中,我们认为Q3似乎优化默认总部(800x600)模式。这表明在测试最稳定的性能,并显着改善的性能。最快的方式,因为它在本质上是相同的记忆原料,记忆效率非常敏感。在总部(1280x1024)模式,处理的任务落在了显卡和内存供电二。然而,3DMark和2001se相似,2-3-3-5的性能不是很稳定,有时最好的结果5次试验结果和最坏的结果会有比较大的差距,这可能是由于页面管理短线周期造成的不确定性导致。
测试八下,nForce 2平台
升技AN7主板可调范围狭窄是大得惊人,高达15,最低达到1。我们选择3和15更极端的参数比较测试结果,测试结果不从875P平台有很大的不同,但优点和缺点都不是很明显。以下是pcmark04测试结果。
测试的AIDA32只有1GB容量,和读写速度(MB / s)的2-3-3-15是2991 / 1135和2950 / 2-3-3-3 1080.in Q3测试,在1.5GB,2-3-3-15略微领先(一帧)。当1GB,这两性能基本持平。
这样的表现,我认为首先是因为页面尺寸不够大,因为不像875p双通道,只有16KB容量nForce 2平台在测试中,我们进行了1.5gb单通道的p75p平台(页容量减少到16KB)测试也反映了这一点,pcmark04比分非常接近。此外,这也可能与nForce2的页面管理策略和更大更好的公司是更好的。通过前面的分析,我们知道这是一个相对的参数,不是说变大或变小,性能肯定会更好,应当结合案件具体情况,要有页码之间更好的平衡,页面容量和CHipset管理能力。由于时间关系,我们没有进行清理试验低于15。毕竟,我们没有讨论芯片组的优化,但从整体上来说,我们讨论了一般优化原则,但从一些论坛的角度来看,11似乎是一个很好的设置级别。它通常反映了更好的性能比TRAS = 5。有兴趣的朋友可以自己试试看。
九、BL和内存刷新率对性能的影响
由于Q3对内存性能如此寒冷,我们已经做了其他的实验在华硕的p4c800主板-调整BL和内存刷新率。下图是设置在p4c800的BIOS存储器的接口,它的p4c800相同。
通过设置SPD的DRAM定时设置为禁用,将有BL(DRAM突发长度)调整选项。我们将它调为4,然后做第三季度测试。
测试的结果是惊人的,在2GB的内存容量下,最快的模式比原来的BL = 8增加了两帧,而HQ和HQ(1280×1024)模式也增加了1帧,这是一个很好的结果。怎么会这样呢事实上,上面提到的原因,当875双通道,界面宽度为128bit,16字节。与CPU交换数据的基本单位是64个字节,所以只有4次是双通道的需要。因此,在大多数情况下,BL = 4是一个双通道Pentium4主板更好的选择虽然BL = 8可以同时传输128个字节,它将不需要发送太多的延迟时间(小数据传输)。然而,BL = 8是一个单通道主板或非正确的选择875型双通道主板。可以看出,BL参数无法确定CL.总之,如果双通道Pentium或AMD的64用户,当你的日常工作是很常见的,没有大的数据读写的应用阳离子,BL = 5月4日是比较合适的,如果我们经常做大规模的数据处理、BL = 5月8日更好。后来,在进一步的Q3的测试中,我们也发现,简称BL似乎更适合小公司,大是长块TRAS的良好结合
然后我们打开记忆刷新BIOS设置图中红圈率选择。除了汽车,还有15.6,7.8,7.8,64,64t几个选项,并64t。谁不懂意思可能想确定,越小越好的人,这是不。
市场上的内存模块基本上256mb使用32m×8bit的芯片,这种芯片刷新设计8K / 64ms,即刷新间隔是7.8125秒,7.8125秒刷新一次,如果赶上只能自认倒霉,增加刷新间隔将有助于减少坏运气的概率。
提供主板BIOS是这个选项,这64t T,作者可能如果ddr-400参考时钟周期,,T是5ns,64t是320ns,这是很短的,和记忆测试的使用通常是刷新率为7.8,那么我们可以调整高一15.6 Mu S.
测试的结果,Q3最快的方式,对BL = 4的基础上增加3帧的性能再次,总部和总部(1280 x 1024)的模式也增加了1架了。但当我们把刷新率高的配置,它似乎没有任何效果。它应该注意,刷新率不能调整时间过长,否则,可能会造成数据丢失,导致系统的不稳定。15.6测试是一个不错的选择。此外,DRAM闲置计时器(空闲时间)在BIOS中p4c800 / p4p800对内存性能的影响不大,并建议设置为自动。
小数据:如何刷新内存
之所以称之为DRAM,是因为它需要不断刷新(刷新)来保存数据,这才是DRAM最重要的操作。
刷新操作,如将重写操作一样,这是阅读和改写首先在芯片的读出放大器。但是为什么要有一个预充电操作刷新因为预充电是对一个或所有的L-BANK工作操作,不定期刷新,和是一个固定的时间,为了工作,把那些很长时间没有经验的记忆重写数据。但不同于所有L-BANK预充电,这里的行是所有L-BANK同一个地址,而在预充电各L-BANK行地址是不一样的。
那么,要重复刷新多长时间目前,公认的标准是,在数据的限制有效保存记忆电容为64ms(MS,1 / 1000秒)也就是说,每一个刷新周期64ms。这刷新速度:行数/ 64ms.when我们看看内存规格,我们经常看到4096识别 / 64ms刷新周期或8192刷新周期/ 64ms。4096和8192在这里代表本芯片每L-BANK行数。刷新命令的有效期为一次一行,和发送间隔也随总排数。4096行是15.625 s(微秒,1 / 1000毫秒),和8192排的7.8125。目前,256mbit的芯片基本上都是8k / 64ms刷新设计。
刷新操作分为两种类型:自动刷新(AR)和自刷新(自动刷新,短)。无论哪种刷新方式,无需外部提供行地址信息因为它是一个内部的自动操作。AR,行地址发生器(也叫刷新计数器)内使用SDRAM的自动生成的行地址依次刷新是一行中的所有银行,所以没有列寻址,或CAS在RAS,AR也被称为CBR(CAS在RAS、列在线定位)刷新。刷新涉及所有L-BANK,所以在刷新过程中,所有L-BANK将停止工作,而每次刷新时间为9个时钟周期(PC133的标准),然后你可以进入任何正常的工作状态,也就是说在9个时钟,只能等待所有工作指令无法执行。64ms后,同一行再次被刷新,然后周期刷新。显然,刷新操作肯定会对SDRAM的性能造成影响,但这是不可能的事,这也是DRAM相对于SRAM(静态存储器)。
在不需要刷新数据的情况下获得成本优势的成本。
单/双通道内存优化
在前面的文章中,我们介绍了一些鲜为人知的概念。因此,我们会发现在以前的优化原则许多盲目的成分。几乎所有的内存优化和测试纸(包括国外的一些知名网站)告诉读者,只要内存的时序参数和分离,越小越好!但是当你读到这篇文章的时候,你会感觉到什么显然,以往的优化原则是不严谨的,缺乏科学论证,优化实验后,我们可以尝试总结原因,进一步探讨对内存性能的影响对比。
正如我之前提到的,公司的目的是最大限度地减少冲突的行寻址和降低PMR,但这是基于内存芯片本身。如果我们考虑整个存储子系统,它可减少连续操作的概率。以下是根据JEDEC的作者发布官方标准的DDR SDRAM的时序图,我们可以发现在某些情况下,短期对业绩不佳的原因。
当BL = 8和TRA = 5的使用,第二可能读命令将由于预充电延迟,不断的突发传输是不可能的,没有连续的操作。
当BL = 4和TRA = 5的使用,第三个可能的读命令将由于预充电延迟,不断的突发传输是不可能的,只有一个背靠背的操作完成。
当BL = 8和TRA = 8,二读指令发出前,预充电,预充电推迟以便完成背靠背操作。
当BL = 4,= 8肾,第三读指令将在预充发,从而完成了两个背靠背的操作。
当BL = 8,TRA = 5,由于时间限制DDR SDRAM写,预充电尽可能早的时间可以大大延长
当BL = 4,TRA = 5,由于DDR SDRAM在写作时间的限制,预充电的最早可能延迟第八个时钟周期
当BL = 8,TRA = 8,由于时间限制DDR SDRAM写,预充电的最早时间可以,TRAS = 5相同。
当BL = 4和TRA = 8的使用,预充电不拖在了后面,有4个时钟周期,可以接受写指令,这比TRAS = 5,这增加了背靠背的操作机会。
从以上分析,我们可以发现连续运行的一些影响TRAS(似乎影响读写一点,结合试验数据,对上述pcmark04可以发现这一点),但是当出现长时间读写命令到预充电命令的时间短,间隙将短tRAS相对于TRAS慢。但是,我们不能抹杀短tRAS降低PMR的贡献,尤其是在更少的页面可管理、短TRAS的优势将更加明显。如果tRAS较长,页面很慢,而且页面总数很小,它是可能是芯片组的营业额将不会打开增加PMR。但当芯片可以控制页面的增加,离子的优势在连续运行G TRAS将逐渐显现,因为解决冲突不再是严重的芯片组调度。
然而,有些人可能会发现BIOS通常不提供相关的设置,或者选项不够。我们怎么能做到呢(例如,875支持TRA = 10,但p4c800和p4p800只能去8)。事实上,除了BIOS可以调整内存时序参数,一些软件也可以,比如著名的wpcredit,可以改变一些芯片组的内存控制器的寄存器,但目前,公众可以了解存款设置只有英特尔芯片,所以我不打算详细介绍软件修改的方式。更重要的是,如果875 865要传输相关设备寄存器,它需要首先更改其他寄存器。这是相当麻烦的,和许多875 / 865的主板不改。至于其他的芯片组,你可以改变在BIOS的选项,然后使用软件出口登记如CPU-Z,发现了一些不同的相反,然后试着用wpcredit进行修改,但它是非常复杂的,和不知道登记类型(8, 16 32bit),用死老鼠的心态把握瞎猫会尝试更危险。所以,我就说说这里的方法,我不提倡手工登记方式的变化。
在这一点上,我们可以总结以下几点内存优化原则和相关技术,以供参考:
1,内存优化应从整个系统开始,不局限于内存模块或内存芯片本身,而忽略内存子系统中的其他元素。
2,目前的芯片组具有多页面管理的能力,所以如果可能的话,尽量选择两p-bank内存模块增加系统内存页的数量。但你如何区分单p-bank或双p-bank之间该产品目前在市场上,256MB的模块基本上都是单一的p-bank,双面,但每侧只有4芯片基本上都是单一的p-bank。512mb双面模块基本上都是双p-bank。
3、页数的计算公式是:p-bank X4的数量,如果是酷睿双核或AMD 64双通道平台,再除以2。例如,两个单面256MB内存,这是一个难得的= 8页,由4页875双通道
4、CL、tRCD,色氨酸是绝对的性能参数。在任何平台,越小越好,优化的顺序是CL tRCD TRP。
5、当内存页面数是4,短tRAS设置可能会更好,但最好不要低于5。此外,该短tRAS内存性能可能比长tRAS更不稳定,且对时钟频率的增加比较敏感。
6、当内存页面数大于或等于8,长tRAS设置会更好
7。对于875和865平台,当页面数量达到8或更多时,内存性能更好。
8。对于非双通道Pentium4处理器和AMD 64平台,两个渠道的狭窄长度和长度之间的性能差异应减少
9、Pentium4处理器或AMD 64双通道平台下,BL = 4是一个更好的选择,在大多数情况下。在其他情况下,BL = 5月8日是一个更好的选择。请根据实际应用情况进行调整。
10,适当增加内存刷新率可以提高内存的效率,但也可能减少。
记忆的稳定性
提示:BIOS中设置内存相关参数的关键
自动配置自动设置(可能的选项:打开/关闭或启用/禁用)
其他可能被描述为DRAM自动,定时选择,由SPD定时配置等。如果你想手动调整你的内存时间,你应该关掉它,然后你会有详细的时序参数列表自动。
银行交错(可能的选项:关闭自动/ 2 / 4)
这里的银行是指L-BANK,和目前的DDR内存芯片由4 L-BANK。为了尽量减少冲突的解决和提高效率,建议设立4(汽车也可以根据L-BANK信息SPD自动设置)。
突发长度突发长度(可能的选项:4 8)
一般来说,如果是AMD的Athlon XP或Pentium4单通道平台,建议设置为8,如果是奔腾64或AMD的双通道平台,建议将其设置为4。但具体情况取决于具体的应用。
CAS延迟列地址选择器脉冲延迟(可能的选项:1.5 2 2.5 3)
BIOS中的其他可能的描述是:Tcl,CAS延迟时间,CAS Timing Delay。不用说太多,可以调整得更短更短。
命令速率第一命令延迟(可能的选项:1 2)
这个选项是非常罕见的,通常被描述为DRAM命令,命令率等。由于目前的DDR内存寻址,你需要选择p-bank(通过CS片选信号DIMM),然后L-BANK /激活和选择列地址。这个参数的含义是指具体的L-BANK /行激活命令可以发送出p-bank选择后,单位是时钟周期。显然,越短越好。但在主板上增加了内存模块的控制芯片组的负载增加,和短间隔可能会影响稳定性。所以当你的记忆插入很多不稳定的时候,你需要把这个参数长。大部分的主板会自动自动设置此参数。从以上sciencemark 2测试,你也可以感知能力和延迟之间的关系。
预充电时间线预充电时间(可能的选项:2 3 4)
在BIOS中的其他可能的描述:TRP,RAS预充电,预充电到活跃。通过最后一个故事,我们现在应该明白,它越小,它越是。
RAS到CAS Delay行寻址到列地址延迟时间(可能的选项:2 3 4 / 5)
BIOS中可能的其他描述:
通过RAS活性,CAS Delay,CMD等。越小越好的价值。
积极的Precharge Delay线是有效的线路预充电时间(可能的选择:1….. 5 6 / 7…15)
在BIOS的其它可能的描述:狭窄行活动时间,预充电等待状态,行主动延迟,一排排,等等。根据以上分析,此参数应根据实际情况确定,和具体的观点,看到上面的文字,不说更大或更小的更好的。
声明:本文内容用于数码产品信息整理与选购参考,具体价格、库存、售后政策以官方渠道和电商页面实时信息为准。