2010年3月27日,NVIDIA DX11显卡第一-一系列的GTX400产品基于GF100架构正式推出:GTX480、GTX470。本产品凝聚了NVIDIA的工程师的努力,一批新技术的整合,所以从第一个测试可以理解,它有一个显着的性能改善。建筑和ATI的显卡有什么区别



NVIDIA公司已经为您带来一个性能测试GTX480 NV第一DX11 GTX480出生第一个测试卡。为什么GTX480只有480个流处理器的1600个流处理器的HD5870快吗为什么GTX400比在DX11架构游戏HD5870



为什么是内置GF100核心的GTX400系列如此强大



在第一个测试GTX480的鲁棒性能

带着这些问题,Nvidia将回答这一系列问题你。首先,看看GF100架构:



GPU的流处理技术:

GF100的设计是为了提供基于费米-顶game.gf100基于性能的第三代流式多处理器(SM)架构,其CUDA核心数量高达两倍前代建筑。几何流水线技术已经有了很大的提高,和几何着色、流量输出,消除有了很大的提高。在每个ROP ROP单元数(渲染输出)分区已经翻了一番,和填充率也得到了很大的改善,使多个显示器可以很容易地驱动。通过加强ROP压缩,8速MSAA(MSAA)的性能有了很大的提高,甚至对场景的不可压缩的,额外的ROP单元可以更好地平衡整体GPU通过ghput。



根据八和24的GF100覆盖多个采样来实现一个新的32速覆盖采样抗锯齿(CSAA)mode.nvidia还延长了CSAA,使它能够支持对所有样品透明罩(Alpha),使叶片和透明纹理更加流畅渲染。无论是多边形的边或透明纹理(纹理),GF100可以产生最高质量的反走样效果以最小的性能损失。硬件加速的DirectX 11四偏置点(四偏)gather4大大提高了阴影映射的性能。整个图形流水线的GF100是专为细分提供高性能(曲面细分)和几何日roughput。用一种新的分布式处理架构由多个几何形体引擎实现和,GF100已经取代了传统的几何处理架构在图形处理流水线的前端。每个多态引擎包含一个镶嵌(细分曲面)单元属性设置单元,和其他几何处理单元。每个流处理器(SM)有自己的专用型发动机。在后面的章节中,NVIDIA在GF100架构提供的多态引擎的更详细的信息。新生成的图元是由四个光栅引擎并行工作转换为像素(相比之下,只有一个光栅引擎在GPU上一代),片内一级和二级缓存可以达到SM和镶嵌之间的高带宽传输(曲面细分)单位之间或不同的SM的基础元素属性。在GF100,镶嵌(细分曲面)和所有支持的步骤可以并行运行,这样我们就可以实现几何吞吐量较大的突破。



费米核心图

虽然GF100有许多改进和性能增强,与过去相比GF100 GPU架构,对架构最重要的进步是几何处理的并行执行能力。这是一个前所未有的重大科技成果在GPU领域使结实率每时钟/时钟不止一个基地,并保持正确的渲染order.gf100使用费米革命性的计算架构来处理游戏应用,图形处理、多线程独立工作,并有一个预先裁决的管道,具有良好的本地存储器的访问特性,另一方面,计算线程通常互相沟通,在没有预评审工作,通常阅读和写作部分的记忆不同,重要的计算特点,改进了GF100将在游戏中是非常有用的,包括更快的背景图形处理和物理之间的切换,计算核的同时执行,并增强算法规则的算法,如光线追踪和AI algorithm.gf100 GPU(图形处理器)是基于大量的可扩展的图形处理集群(GPC),流多处理器(SM),和内存控制器。完整的GF100有4个GPC,16平方米,6的内存controllers.nvidia希望与GPC的不同配置推出的GF100产品,SM和内存控制器在不同的价格满足市场需求,为目的本白皮书,Nvidia将探索整个GF100 GPU(图形处理器)架构。



GTX480核心

GF100框图显示主界面(接口),gigathread引擎,4 GPC,6的内存控制器,6个ROP分区,和一个768 kb的2级缓存,每个GPC包含4型发动机。ROP分区是接近2级高速缓存,GPU可以读取CPU指令通过主界面,gigathread引擎可以从系统内存中获取指定的数据并将其复制到memory.gf100使用6个64位GDDR5内存控制器(384),高带宽存储器,gigathread引擎然后创建并指定线程块每个SM。一个单一的标准,反过来,调度多经(32线程组)多个CUDA核心和其他执行单元。在图形管道,扩展为例,AFTER镶嵌(细分曲面)和光栅化阶段,gigathread引擎还可以将工作重新分配到SM。

GF100有512个CUDA核心,其中每一个由SM,共有16个SM(GTX480削减SM只有480个CUDA核心)。每个SM是一个高度并行的多处理器,最多可支持48个经纱在任何时间。每个CUDA核心是处理器的一个统一的核心,能够执行顶点、像素、几何和计算内核,一个统一的2级缓存架构提供服务,如加载、存储、和纹理operations.gf100拥有48个ROP单元,可用于混合像元(像素混合),反走样,和原子内存operation.rop单元每8组,共6组。每一组是由一个64位内存控制器控制,内存控制器,2级缓存,和ROP组都密切相关,与E一个单位的扩展会自动扩展的其他部分。



GPC架构

的GF100图形架构是由大量的硬件模块称为图形处理集群(GPC)。GPC包含光栅引擎和高达四的SM。

图形处理聚类(GPC)

GPC是GF100的主要先进的硬件模块,它有两个重要的创新:一个可扩展的三角形设置光栅引擎,光栅化和Z坐标压缩(z-cull),一个可扩展的顶点属性提取和镶嵌型发动机(曲面细分)。光栅引擎驻留在GPC、和多态引擎驻留在SM。如它的名字,GPC涵盖了所有主要的图形处理单元,它代表的顶点,几何光栅,纹理的平衡,和像素处理资源。此外ROP功能,GPC可以被看作是一个自给自足的GPU,而GF100有四个GPC!

在以前的GPU,SM和纹理单元聚集在一个硬件模块称为纹理处理集群(TPC),GF100,每个SM有四个特殊的纹理单元,因此TPC不再是必需的。为了简单起见,以下Nvidia将只讨论SM。

并行几何处理

以前的GPU的设计一直采用单片电路前端获得,收集与三角形光栅化。无论多少并行执行内核,这种固定流水线的性能是固定的,因为应用程序的工作量是不一样的,这种流水线通常导致瓶颈或不能充分利用。它是实现光栅并行处理和保持API的命令同时非常困难,这个困难阻碍了重大创新在这一领域。虽然单前端的设计在过去的GPU的辉煌的历史,与几何复杂度的需求不断增加,现在它已经成为一个主要的障碍。

镶嵌的使用(曲面细分)从根本上改变了GPU图形负载平衡。镶嵌(细分曲面),在一个特定的帧的三角形密度可以提高数十倍,这是串行工作,如光栅化单元建立资源带来了巨大的压力。为了保持高的镶嵌(曲面细分)的性能,有必要重新平衡图形管道。为了方便高三角形率,NVIDIA公司设计了一种可扩展的几何引擎称为晶型发动机。每16型引擎有自己特殊的顶点采集单元和镶嵌单元,大大提高了几何性能,NVIDIA也德标志四平行光栅引擎,可以设置在每个时钟周期四个月。同时,他们也可以实现巨大的性能突破三角形采集,镶嵌(细分曲面),和光栅化。

变形机

The PolyMorph engine has five stages: vertex acquisition, Tessellation (surface subdivision), observation port conversion, attribute setting, and flow output.The results obtained in each phase are sent to a SM.The SM can perform the game's coloring program and return the result to the next stage in the PolyMorph engine.After all the stages are finished, the results will be passed to the Raster engine.



第一阶段是从全球的顶点缓冲区得到一个顶点,然后得到的顶点被送到SM顶点着色和壳色。在这两个阶段中,顶点从一个物体空间转换到世界空间,并需要镶嵌的参数(曲面细分)的计算,例如,镶嵌(曲面细分)系数。镶嵌(细分曲面)系数(或LOD)来Tessellator。

在第二阶段,变形引擎读取Tessellation(曲面细分)系数。tessellator将修复表面(光滑曲面控制点网格的定义)为广场和输出多个顶点。U(V)值定义了网格,形成网格的方式。新的顶点被送往SM,和域着色器、几何着色器执行这里。域着色器可以在每个顶点的最终位置基于外壳着色器的输入tessellator。在这个阶段,位移映射(补丁替换)通常与提高补丁的细节。几何着色器可以执行任何职务处理,增加或删除需求顶点和图元,将最终结果地被送回到Tessellation(曲面细分)发动机。

在第三阶段中,晶型发动机进行观察开关和视图校正角度。接下来是属性设置,将顶点属性的后一阶段的观察到执行一个有效的着色器评估平面方程。最后,点可选择的;流出;记忆,所以它可以用于更多的处理。在以前的架构,固定功能的操作是由一个单一的管道进行的。在GF100,固定和可编程操作是并行的,这大大提高了性能。

光栅(光栅)引擎

在多态引擎处理原语,它们被发送到光栅(光栅)引擎。为了达到高的三角形吞吐量,GF100采用四个光栅引擎并行工作。



光栅引擎由三个流水线阶段。在边缘设置阶段,顶点的位置可以被提取和三角形边方程可以计算。没有屏幕的方向三角形是由背消除删除。每边设置单元可以处理点,线,或最多在一个三角形时钟周期的光栅(光栅)运行的每一个元素的边缘方程计算的像素覆盖。如果反走样功能打开,覆盖操作每多采样和覆盖采样进行。每个rasterer可以输出8像素在每个时钟周期,共32个光栅化的像素在整个芯片每个时钟周期产生的像素输出。光栅将被发送到Z坐标压缩(z-cull)单元。Z坐标压缩单元得到的像素块(像素瓦)和现有的像素深度和比较像素内存块。完全在像素块存储像素消除线后面,使它不再需要进一步工作的像素着色器。

第三代SM引入了许多创新的架构,使之不仅是最强大的SM,而且是最可编程和高效的SM。

512 high performance CUDA cores (GTX480 cuts a SM and only 480 CUDA cores)

每个SM有32个CUDA处理器,高达四倍,在之前的SM的处理器数,GF100 CUDA核心是设计在任何负载的着色器实现最高的性能和最高的效率。通过使用一个标量架构,无论输入向量的大小实现了所有性能都可以。Z缓冲操作(1D)或纹理访问(2D)可以充分利用GPU(图形处理器)。

每个CUDA处理器有一个全面的流水线整数算术逻辑单元(ALU)和一个浮点单元(FPU)。GF100采用了一种新的ieee754-2008浮点标准,提供了一个乘法加法(FMA)单精度和双精度arithmetic.fma指令可以完成乘法和加法在最后四轮的操作,五个步骤。它提高了乘法加法(MAD)指令和不addition.fma失去精度可以减少渲染错误处理紧密重叠的三角形。

在GF100,新设计的整数ALU支持所有的指令,32位精度,符合标准的编程语言的要求。整数ALU也进行了优化,有效地支持64位高精度运算。它支持各种指令,包括布尔,迁移,迁移,转化,提取比较,位域,位反向插入和人口统计。



流多处理器(SM)

16个负载存储单元

每个SM有16个加载/存储单元,它们可以在每个时钟周期内运行16个线程的源地址和目标地址,所支持的单元可以将每个地址的数据加载和存储到高速缓存或DRAM中。

四特种功能单位

特殊功能单元(SFU)可以执行如正弦摘要说明(罪)、余弦(余弦),倒数,平方根。图形插值指令同时执行每个SFU SFU。可以为每个线程执行一个指令在一个时钟周期,而一经执行时间(32个线程)超过八个时钟周期。SFU的管道是由派遣单位分离,使劳务派遣单位被派往其他执行单位时,SFU在被占领状态。复杂的程序着色器的特殊功能的硬件优势尤为明显。

双经调度

SM可以安排32个平行线(也叫经线)为一组。每个SM有两经调度和指令调度单元,使经纱可发送和执行的同时,GF100双warp可以选择从每根经纱发送一个指令到16个核心,16加载/存储单元4特殊功能单元,因为经是独立执行,GF100调度器没有检查依赖关系的指令流内。利用这一优良的双指令执行(双月刊)模式,GF100可以实现硬件性能接近峰值。



双经纱调度

大多数指令可以实现双重执行。两个整数指令,两个浮点指令,整数,浮点数,加载和存储指令和混合,SFU指令可以同时执行。双精度指令与其他指令不支持同步作业。

纹理单元

每个SM有四个纹理单元,每个纹理单元可以在一个时钟周期内计算纹理地址,得到四个纹理样本,返回结果可以被过滤或过滤,支持模型包括双线性、三线性和各向异性滤波模式。

对GF100的目标是提高效率,改善结构性能。通过移动纹理单元到SM,Nvidia已经实现了这一目标,提高纹理缓存的效率,实现更高的时钟频率。

在之前的GT200架构,高达三的SM共享一个纹理引擎,其中包含八个纹理单元,GF100架构,每个SM有它自己特殊的纹理单元和一个专用的纹理缓存。此外,对纹理单元的内部结构有了很大的提高。在阴影映射的实际使用中,屏幕空间环境光遮蔽等,净效应是纹理的性能得到了大大提高。

GF100专用的1级纹理缓存的重新设计,实现更高的效率。而且,通过提供一个统一的2级缓存,纹理最大缓存容量可以达到三倍,GT200,和纹理密集的着色器的命中率增加。

The texture units in the previous architecture can work at the core frequency of GPU.On the GF100, the texture unit runs more frequently, thus enhancing the texture performance at the same time in the number of units.

纹理单元GF100还加入DirectX 11和bc6h BC7纹理压缩格式的支持,从而减少内存占用和HDR纹理渲染目标。



纹理表现相对于GT200

一种新型的抗锯齿能力ROP装置

GF100的ROP子系统进行重新设计以提高吞吐量和效率。一个GF100 ROP分区包含8个ROP单元,数量较上一代架构的两倍。每个ROP单元可以在一个时钟周期的一个32位的整数像素输出。一个FP16像素需要超过两个时钟周期,和FP32像素需要超过四个时钟周期。原子指令的性能也有了很大的提高。The operation speed of the same address atomic operation can reach 20 times of GT200, and the operation speed of adjacent storage area can reach up to 7.5 times.

在GF100,由于压缩效率和更多的ROP单元可以有效地使这些较小的图元不能压缩,所以8速MSAA(MSAA)的性能得到了很大的提高。当压缩不工作,场景中的几何保真度的提高需要更好的ROP单元操作。

在上一代架构,8速MSAA(MSAA)在大汤姆在不同游戏的差异导致的性能下降,克兰西鹰击长空。(HAWX)是这场比赛的一个例子。在8速MSAA模式游戏显示效率非常低。在GF100,8速多采样抗锯齿的性能有了很大的提高。在4速抗锯齿模式,GF100比GT200快1.6倍。在8速抗锯齿模式,比GT200快GF100 2.3次,只有自己在4速度模式慢9%。



抗锯齿性能,尤其是速度8 MSAA在GF100实现明显改善。

GF100还增加了一个新的32速覆盖采样抗锯齿(CSAA)模型,该模型可以提供最高的图像质量和对使用;透明罩;(Alpha)为提高几何感的保真度的游戏。

由于API和GPU计算能力的限制,当今的游戏只能提供有限数量的几何图形,而叶子的绘制是一个特别突出的问题。它采用覆盖,透明,消除差距的叶子。覆盖样本数量决定质量的边缘。如果有四层或八个样品,将有一个非常坏的锯齿状边缘的现象,特别是当纹理接近屏幕。32速覆盖采样抗混叠(CSAA),GPU共有32个覆盖采样,从而最大限度地减少边缘效应。

透明多重采样(TMAA)也能从CSAA很多。因为覆盖;透明;不在DirectX 9的API,所以DirectX 9游戏不能直接使用透明,TMAA就是这样一个游戏非常有帮助的。相反,他们使用的技术称为透明试验;技术可以生产透明textures.tmaa硬边可以改造旧的着色器代码在DirectX 9应用程序能够使用覆盖;透明;和覆盖透明;结合物,可以显著提高图像质量。



由于采样覆盖内存要求很低,所以32倍覆盖采样抗锯齿(CSAA)来以8的速度在很大程度上表现(MSAA)齐名。各种游戏的平均评分显示,32速CSAA性能仅为7%,低于8的速来。

In fact, after understanding the above GF100 core architecture, it is very simple to understand the gap between GTX480 and HD5870.



——GF100出生的DX11架构。

因为大多数游戏玩家喜欢DX11,最有价值的技术之一是镶嵌技术、镶嵌技术,是所有虚假的纹理,凹凸效果达到完全真实,让比赛朝着虚拟现实的方向是向前迈出的重要一步!

在接下来的很长一段时间,成熟的DX11接口将占据主流的游戏引擎。从以上测试,GF100核心的GTX480是这些运动的发展比HD5000系列更适合。一步更forward-looking.step,因为DX11游戏界面将逐步大规模使用细分表面细分技术,所以密集镶嵌的曲面细分技术的GTX480性能将更强大。