NVIDIA GeForce 8
GeForce 8系列,代号G80,是NVIDIA的第八代GeForce显示晶片。在7900 GTX发布后八个月,NVIDIA于2006年11月推出GeForce 8800 GTX,它是建基于G80核心。G80是全球首款支援DirectX 10的显示晶片,核心的架构和技术比前代GeForce 7系列显示晶片有很大的不同。纵使它是为DirectX 10而设计,但由于架构的改进,G80在DirectX 9环境下仍可以发挥出强大的效能。
发布日期 | 2006年11月 |
---|---|
代号 | G80 G84 G86 G92(D8P) G98(D8M) |
制造工艺 | 80奈米/65奈米 |
显示卡 | |
入门GPU | 8100,8200,8300,8400 |
中端GPU | 8500,8600 |
高端GPU | 8700,8800 |
API支持 | |
OpenGL | OpenGL 3.3 |
历史 | |
前代产品 | NVIDIA GeForce 7 |
后继产品 | NVIDIA GeForce 9 |
DirectX 10的改进
虽然DirectX受人欢迎,但是DirectX 9的规格始终为游戏开发者带来限制。在图形API诞生前,当时的程式开发者能利用指令来控制显示卡。但不同的架构就需要不同的指令,这就造成兼容性问题。为此,业界为了统一规格,就发展出最普遍的DirectX和OpenGL两种规格。纵使API能解决兼容性问题,但是衍生出新的问题。在3D环境中,所有东西都以物件方式存在,而物件的运算则顺序由程式、API和驱动程式之间传输。而CPU必须参与这个过程。物件愈多,CPU负荷愈重。所以物件数量不能过多,但画面质素就不能大幅提升。 新的DirectX 10则解决了这个问题。当物件第一次运算时,CPU会参与这个过程,但到了第二次时,CPU不会再参与这个过程。物件数量就能大幅提升,画质就能相应提高。
除了以上措施能减低CPU负担,DirectX 10亦新增了两个减低CPU负担的功能。
纹理阵列
以往,多纹理转换动作使用大量CPU资源。DirectX 10的纹理阵列功能能解决这个问题。在每个纹理阵列中,最多可以保存512个同样大小的纹理。纹理的最高解像度由DirectX 9的4096x4096提升至8192x8192。每一个Shader能使用128个纹理,为上一代DirectX 9的8倍。Render Targets由4个增加到8个。所以在DirectX 10中,物件有更多细节,更富真实感。
绘制断言
在一个3D场景中,物件会遮住其他物件,不会在画面显示。预早侦测出不会在画面显示的物件,能减少不必要的运算,增加资源。虽然以往的显示核心已拥有这个功能,但始终有些物件不会被预早侦测。程式设计者会采用绘制断言这个技术,将物件制作成方块,当方块不能在前景中显示,就可以省下该物件的运算。过往这个过程需要CPU介入,但在DirectX 10中,显示核心完全负责这个过程,增加CPU资源。
Shader Model 4.0
DirectX 10采用Shader Model 4.0版本,进一步减少资源限制。例如Register的资源不足问题。
以下为减少资源限制的措施的列表:
- Temporary Registers Buffers : 4096
- Constant Registers Buffers : 65536
Higher Level Shading Lanagage(HLSL)
它在DirectX 9中首次出现。在DirectX 10中,会采用HLSL 10版本。亦新增纹理阵列功能(请参考上面)。
改进列表:
- 常数缓存:渲染过程中需要很多常数,来定义各样的参数[1],例如身件的位置,光线的颜色,观察者的位置等等。在渲染过程中,常数会不断被更新。更新时就需要到常数缓存。DirectX 10的常数缓存容量是DirectX 9的16倍,而且架构更有效率。
- Views:以往在顶点著色器的缓存无法被像素著色器利用,反之亦然。这就限制了很多资源的利用。DirectX 10就解决了这个问题。当资源被著色器建立后,就成为数据块,并且用Views结构标示出来。这样资源就可以以不同方式利用得到。例如图形数据被像素著色器处理成纹理数据,顶点著色器能将纹理数据处理成几何数据[1]。这样资源就能够被灵活运用。
- Integer and Bitwise Instructions:不用将浮点数据转换成整数数据就能直接进行整数算法,GPGPU的处理能力就能提高。
- Switch Statement:支持转换陈述,简易著色编程的线路计算。
DirectX 10支援两种新的HDR模式。第一种采用11-Bit红色和绿色、10-Bit蓝色。另一种采用5-Bit共享运算,另加每一种颜色以9-Bit作尾数运算。新的HDR模式能增加资源使用效率。DirectX 10亦支援FP32,提高HDR质素。G80提供全新的128bit精度的HDR运算,并可与抗锯齿技术同时运作,让HDR+AA不再是ATI的专利。
Geometry Shader(几何著色引擎)
DirectX 10首次加入Geometry Shader,功用是将点、线、及三角连接起来,以为此过程由顶点著色器负责。它能有效提升模板阴影特效、动态立方体贴图和位移贴图的执行效率。它能减少CPU的负担,增加系统资源。当顶点著色引擎产生出一组顶点数据后,随后的几何著色引擎能将数据化成最高1024个顶点,即是将数据顶点数据增多。几何著色引擎亦可将多馀的顶点数据除去,增加显示核心的运算效率。
几何著色引擎能使位移贴图技术配合镶嵌图形技术。位移贴图十分常见,通常用于非即时3D渲染中。位移贴图的原理是首先建构一个简单的平面模型,然后增加顶点数量。显示核心会根据一张灰阶纹理,去将该平面模型立体化。而镶嵌图形技术则会把一个模型镶嵌更多多边形,增加细节。
上一代的DirectX 9并不可以完好的支援镶嵌图形技术。DirectX 10的几何著色引擎就解决了这个问题。位移贴图技术和镶嵌图形技术可一同进行运算,物件表面更真实。
此外,几何著色引擎的运算结果能直接传送到显示记忆体中,不用通过像素著色引擎,提升效率。将来,显示核心能集中处理物理运算。
其它DirectX 10的改进
- Alpha to coverage:复杂的几何图形通常会被透明多边形代替,例如树叶和铁丝网这些重复性很高的物件。想像一块平面,标示透明和不透明地方后,渲染后就成为铁丝网。但透明和不透明的连接地方会有很多锯齿,虽然利用Alpha渲染可以解决问题,但性能损失十分大。Alpha to coverage能减少性能损失。
- 阴影帖图过滤:减少阴影的锯齿,使之更柔和。
- Access to Multi-sampling Sub-Samples:可以存取MSAA的子样本,并控制它。
产品架构
GeForce 8采用统一管线结构。传统显示核心的架构分为顶点著色引擎和像素著色引擎。当顶点著色引擎负荷很重时,像素著色引擎可能闲置著,反之亦然。这就造成显示核心运算能力不被充分发挥,浪费资源。DirectX 10将顶点著色、几何著色和像素著色合并成一个渲染流程。所以每一个统一流处理器都能处理顶点、几何和像素数据,不会有闲置问题,效率显著提升。
G80显示核心拥有128个流处理器,每16个为一组,每一组有8个材质过滤单元和4个材质寻址单元,每一组流处理器都拥有L1和l2缓冲记忆体。G80可同时执行过千个执行绪,NVIDIA称之为GigaThread技术。某程度上,NVIDIA参考了ATI的设计,使其显示核心能进行异类运算工作,例如物理运算和影像编码。
物理运算方面,G80已作出强化,NVIDIA称之为Quantum Effects技术,效率比CPU高很多。
NVIDIA终于加入Early-Z技术,它的目的与绘制断言相似,但原理不一样。现先介绍一下Z缓存技术,通过测试像素深度和缓存数据比较,可测量到每一个像素的最后位置。若像素被其他像素遮挡住,被遮挡住的像素的数据则会被去掉。但很多无用的像素数据没有去掉,依然通过像素流水线,造成资源浪费。基于以往的技术限制,要预先侦测无用像素数据,必需通过整条像素流水线。Early-Z技术能解决这个问题。像素数据在进入像素著色器前,会预先被侦测,若果是无用的数据,就不用通过像素单位,省下资源。理论上,支援Early-Z技术的8800GTX比7900 GTX快4倍去筛选无用的像素数据。
G80可并行计算材质数据,而不用像以往的显示核心般,存有等待时间。
Lumenex 引擎
G80的强化画质引擎称为Lumenex,它支援Anti-Aliasing(反锯齿技术)、High Dynamic Range和Anisotropic Filtering(各向异性过滤)。反锯齿方面,将同时利用覆盖采样和几何采样。这个新模式称为Coverage Sample Anti-aliasing(CSAA),程度分为8x、8xQ、16x和16xQ。其中的Q版本画质较高。CSAA 16x的画质比常规反锯齿4x好,但是性能趺幅相近。纵使CSAA 16x影像质素高,但当游戏采用大量模板阴影时,会影响到CSAA运算效率。
各向异性过滤方面,G80加入了Angular LOD控制,能有效加强锐利度。
影像输出方面,G80支援10-Bit(十亿种色彩)影像输出,比上一代的8-Bit(一干六百万种色彩)影像输出质素大幅提升。但比ATI迟了一代。
第二代PureVideo HD
GeForce 8800系列显示卡都支援HDCP(High-bandwidth Digital Content Protection)。HDCP会保护HDTV、Blu-Ray及HD-DVD的影像内容,防止非法拷贝。不支援HDCP的显示卡,解像度会强行由1080p降至540p。
暂时只有8800GT和8800GTS(G92,512MB)高阶显示卡支援新一代PureVideo HD技术,首次支援高清影讯杂讯消除和边缘强化技术。在HQV影像测试中,取得128分高分,为现时最佳成绩。它除了支援720p、1080i及1080p等解像度外,并支援H.264 、VC-1、WMV-HD及MPEG-HD硬件解码。
而G84和G86所支援的PureVideo HD技术更强,将所有影像解码工作交由显示核心(VP2)负责,大幅降低CPU占用率。亦新加入BitStream Processor,能够完全硬体解码H.264及部分硬体解码VC-1的影片。最后,加入了AES128运算引擎,就能硬体解码AACS,由于Windows Vista的关系,这种解码方式将被频繁使用,硬体解码就变得必要。
产品型号
GeForce 8100
是整合于MCP78S晶片组中的显示核心,有16个流处理器,核心频率为500 MHz,不支援PureVideo功能。
GeForce 8200
同GeForce 8100一样是整合于MCP78S晶片组中的显示核心,规格相同,但支援PureVideo功能。
GeForce 8300
是GeForce 8系列的最低端独立显示卡。只会出现于OEM市场,并不会出现于零售市场。8300 GS把记忆体频宽降至64bit,更不支援PureVideo功能。
GeForce 8400系列
起初8400 GS(G86)的PureVideo HD是不可以支援VC-1硬体解码。之后,NVIDIA推出了采用新核心的8400 GS显示卡。核心代号是G98,是继G92后的第二款采用65nm工艺制造的显示核心。核心由联电生产,核心频率是567MHz。新的核心,已新增支援VC-1硬体解码。所以,新的8400 GS已完整支援,H.264和VC-1解码。但是,HDCP Key Rom仍然未整合到显示核心中,须要另加晶片支援。HDMI方面,音频信号须透过SPIDF输入,显示核心仍然不像HD系列显示卡般,能直接处理音频信号。另外,新版本的8400 GS显示核心只有8个流处理器,效能会比第一代差。
在2008年初,第三版的8400GS推出。这次使用与8600GT一样的G84核心,流处理器数量与G86一样。厂商亦会使用较高速的显示记忆体。[2]
GeForce 8500系列
这个系列采用G86显示核心,定位是主流级。它拥有16个统一流处理器,8个Texture Filtering Unit,8个Texture Address Unit和 4个光栅操作单元。目前只有一款形号,就是GeForce 8500 GT。对于HDCP的支援,厂商可自由选择是否支援。显示记忆体方面,G86核心最高支援GDDR4记忆体,而记忆体频宽只有128bit,是高端G80的三分一。影像方面,支援第二代的PureVideo HD。
GeForce 8600系列
这个系列采用G84显示核心,定位是中端。它拥有32个统一流处理器,16个Texture Filtering Unit,16个Texture Address Unit和 8个光栅操作单元。值得注意的是,在G80核心中,每个可编程运算单元有4个Texture Addressing Unit;而在G84和G86核心中,每个可编程运算单元有8个Texture Addressing Unit。所以G84和G86核心不是单纯的从G80简化而成。整个8600系列有两款显示卡形号,它们是Geforce 8600 GTS和8600 GT版本。当中的分别是GTS版本显示核心和记忆体的频率较高。还有,GTS版本是强制性支援HDCP,而GT版本则可有可无。显示记忆体方面,G84核心最高支援GDDR4记忆体,而记忆体频宽只有128bit,是高端G80的三分一。影像方面支援第二代的PureVideo HD。
GeForce 8800系列
G80于2006年11月8日推出。高阶形号为GeForce 8800,核心拥有6亿8千1百万个电晶体,为上一代G70的两倍。现时有三个高阶形号,分别是Ultra、GTX和GTS版本。G80采用90奈米制程由TSMC代工。GTX版本会取代GeForce 7950 GX2,GTS版本则取代GeForce 7900 GTX。GeForce 8800 GTX (G80-300) 拥有128个统一流处理器,64个Texture Filtering Unit,32个Texture Address Unit和 24个光栅操作单元。核心频率是575MHz,但部份流处理器的频率是1.35GHz,运算效能高达519 gigaflops。G80最高支援384-Bit显示记忆体频宽,最高显示记忆体容量为768MB,预设显示记忆体频率是1.8GHz。 显示卡长10.5吋,功耗达185W,需要两组外接 6 pin 电源。
- GeForce 8800 GTX需采用450W电源供应器驱动,若只插入一个电源接口,显示卡会降低核心频率。纵使卡上拥有两个MIO接口,但现时只需接上一个接口即可开启SLI模式。显示卡板上多了一颗晶片,名为NVIO-1。它负责所有显示输出,包括模拟和数码输出。未来若追加新显示输出制式,例如HDMI和VideoPort,就只需推出新的NVIO晶片,不需更改显示核心设计。
- GeForce 8800GTS (G80-100) 是G80核心的平价版本,核心与GTX版本相同,规格差异请看下表。它拥有96个统一流处理器,48个Texture Filtering Unit、24个Textyre Address Unit和20个光栅操作单元。显示卡长9吋,功耗是150W,需采用400W电源供应器驱动,只需一组外接电源。卡上拥有一个MIO接口。
- GeForce 8800 Ultra (G80-450) 是新近推出的GTX升级版,Geforce 8800 Ultra的ASIC版本由8800 GTX的A2版本升级到A3版本,但仍旧只有128个统一流处理器,64个Texture Filtering Unit,32个Texture Address Unit和24个光栅操作单元。核心频率提高至612MHz,部份流处理器的频率是1.5GHz,运算效能高达576 gigaflops。显示记忆体容量与GTX同为 768MB,但因使用-0.8ns记忆体颗粒,预设显示记忆体频率高达2.16GHz。至于采用新制程的G80-400核心,就在耗电一环稍有进步。建议零售价与规格一样惊人,达 829美元。另外,它支援三路SLI。
下一代G92核心的首张产品是8800 GT,2007年10月29日推出。核心以65奈米制程生产,热量更低,效能更高。显示记忆体方面,支援256-bit频宽。虽然频宽比旧有的320-bit少,但成本可以大幅下降,只需要8颗记忆体就可以实现。事实亦证明,256-bit的效能与320-bit不相伯仲。值得注意的是,在9800 GT推出后,有厂商的8800 GT显示卡只支援128-bit记忆体频宽,流处理器的数量亦由112下降到96个,效能比9600 GSO更差,NVIDIA表示对此并不知情[3]。G92核心亦支援新的显示卡介面PCI-E 2.0。视频播放加速方面,是第一张NVIDIA的高端显示卡支援PureVideo HD技术。经过测试在预设频率下效能已更胜同厂产品8800 GTS 320MB及8800 GTS 640MB,以及ATI的HD 2900 XT 512MB及HD 2900 Pro 512MB。而采用G92核心的新板8800 GTS,流处理器的数量亦有所提升,由96个增加到128个。纹理拾取单元的数量亦倍增。
- GeForce 8200M G,是整合于MCP77MV和MCP79MV行动晶片组中的显示核心,拥有8个流处理器,核心频率500 MHz。
- GeForce 8400M G,核心编号G86M,拥有8个流处理器,核心频率400 Mhz,最大显示记忆体64MB。
- GeForce 8400M GS,核心编号G86M,拥有16个流处理器,最大显示记忆体128MB,其他规格与8400M G相同。
- GeForce 8400M GT,核心编号G86M,拥有16个流处理器,核心频率600 Mhz,最大显示记忆体256MB。
- GeForce 8600M GS,核心编号G84M,拥有16个流处理器,其他规格与8400M GT相同。该显卡曾传出散热不良的问题,曾多次召回更换。下面核心代号相同的8600M GT和8700M GT也受牵连。
- GeForce 8600M GT,核心编号G84M,拥有32个流处理器,核心频率475 Mhz,最大显示记忆体512MB。
- GeForce 8700M GT,核心编号G84M,拥有32个流处理器,核心频率625 Mhz,其他规格与8600M GT相同。
- GeForce 8800M GTS,采用下一代65奈米显示核心G92M,拥有64个流处理器,核心频率500 Mhz,512位最大显示记忆体频宽。
- GeForce 8800M GTX,采用下一代65奈米显示核心G92M,拥有96个流处理器,核心频率500 Mhz,512位最大显示记忆体频宽。
参考条目
参考
- ^ 1.0 1.1 存档副本. [2006-11-12]. (原始内容存档于2006-11-18).
- ^ 三英战吕布!入门级HD3450对决8400GS. [2008-06-02]. (原始内容存档于2008-07-24).
- ^ 小心 市场可能出现缩水版8800 GT显卡. [2008-08-02]. (原始内容存档于2016-03-04).