影驰 GeForce RTX 4060 金属大师显卡评测:香气扑鼻,比甜更甜
导读:引言 随着NVIDIAGeForceRTX40系的显卡逐渐普及,在90,80,70陆续登场之后,今天我们也正式迎来了NVIDIARTX4060,作为一张绝对的甜品级显卡,
引言
随着NVIDIAGeForceRTX40系的显卡逐渐普及,在90,80,70陆续登场之后,今天我们也正式迎来了NVIDIARTX4060,作为一张绝对的甜品级显卡,想必也是引起了不少玩家的关注,本次发布的RTX4060主打1080p分辨率下畅享游戏极致体验,相较上一代GPU,NVIDIAAdaLovelace架构的全新显卡能使用户体验到质的飞跃,在最新游戏和创意应用中感受性能的大幅提升。
不过甜品级显卡甜不甜还得看实力说话,不过不用担心,我们已经在第一时间就上手了影驰最新的GeForceRTX4060金属大师8GB显卡,了解影驰的玩家应该对金属大师系列不陌生,强悍的性能与硬核的外观并存,这回的RTX4060金属大师依旧是一众RTX4060显卡中的清流,硬朗的金属装甲风格又一次俘获了众多"直男"玩家。
*下文"影驰GeForceRTX4060金属大师8GB"简称为"影驰RTX4060金属大师"
规格对比
开始测试前,我们需要先对这张影驰RTX4060金属大师有了详细的了解。首先就是显卡的核心心脏——AD107核心,这也是AdaRTX40家族最小号的成员。它的面积仅为146平方毫米,和一颗GDDR6显存芯片大小相仿。
再看看它的内部构造,这款AD107核心内包含了3个GPC,不过每个GPC中仅包含4个TPC,因此SM单元总共只有24个,而CUDA则为3072个颗,L2缓存最大可至24MB。
既然都说到缓存了,就不得不说说Ada存储子系统的创新之处。首先不得不提的就是缓存的重要性,作为GPU中广为应用的高速缓存,GPU可以更高效更快的进行数据访问与处理,一定程度上可以提高游戏性能和流畅性,同时还能降低功耗。
而GeForceGPU在每个多单元流处理器(SM)中都有一个1级(L1)缓存(最接近和最快的缓存),每个GeForceRTX40系列图形处理集群(GPC)中最多可以找到12个缓存,然而,由于L1缓存需要离内核非常近,它不可能非常大。
因此快速、更大的共享2级(L2)缓存就显得尤为关键了,与全新GeForceRTX40系列GPU相比,上一代GeForceGPU的L2缓存要小得多,导致性能和效率相对较低。因为再GPU访问的过程中,首先会在L1缓存中找,如果没有再去L2缓存中找,如果没有将继续向下一级的显存查询,最后如果都没有,则会在SSD等存储设备中加载进系统,这样的策略看似没有问题,实则每一次通过显存层级结构的读写数据操作都会降低性能并消耗更多功率。
因此Ada存储子系统的创新之处在于提高L2缓存的容量,从而可以提高缓存查找数据时的命中率,一旦命中率提高,GPU则不需要多层级的向下去找数据,延迟降低的同时,还可以提高游戏性能和减少功耗。
并且由于新一代的GeForceRTX40系GPU的L2缓存显著增加,这使得在处理核心和L2缓存之间传输更多数据成为可能。在各种游戏和综合基准测试中,性能的提升是显而易见的。与2MB二级缓存的性能相比,32MB二级缓存将显存总线流量平均降低了50%以上,讲人话就是50%的流量减少可以让GPU最大化的利用显存带宽,因此游戏帧率也不输大位宽的显卡。
总的来说,在过去,显存位宽一直被用作确定新GPU的速度和性能等级的重要指标。然而,显存位宽本身并不能充分表明存储子系统的性能。相反,更全面的了解存储子系统设计及其对游戏性能的整体影响是有帮助的,这也是Ada存储子系统的精华所在。
其他参数上,AD107也不遑多让,核心旁是8GB的GDDR6显存,可以在128bit总线接口上以17Gbps的速度运行,最终可提供272GB/s的带宽,更夸张的是RTX4060的TDP仅有115W,这也意味着它比前代的RTX3060省电不少。
外观赏析
拆开包装盒就见到了本次的主角——影驰RTX4060金属大师,这张显卡采用一体压铸的铝合金上盖,全身你能看见的地方,基本都被金属覆盖。外观设计上以宇宙魔方为灵感,采用不规则的线条呈现,极具美感和科幻感。
细看它的表面,你就能发现其实这款显卡还融合了多种工艺打造,像CNC高光亮边、金属拉丝、雾面工艺的加入,不仅提升了显卡的颜值,还为散热做足了准备。当然了,要说散热,就不得不提正面这两把92mm的风扇,单厚度就有20mm,实力不容小觑。
每把散热风扇上还安排了11片静霜扇叶,扇叶也为三折式设计,并且摸起来还带有磨砂质感,既有颜,又有强劲的风流加持,压制AD107可以说绰绰有余。
显卡背板延续了金属大师的味道,一整块的金属背板不仅增加显卡的防护能力,防止PCB变型,还可以辅助散热,加快热量传导。并且中间还印上了金属大师的Logo与棱利的线条设计,整体颜值又多了几分。
金属背板开窗镂空的散热设计已经是RTX40系显卡的常规操作了,这张影驰RTX4060金属大师也不例外,在外面甚至能隐约看到内部的热管,可见其散热实力应该非同一般。
仅仅是背板镂空还不够,影驰可以说是把散热做到了丧心病狂的底部,甚至在显卡侧面也开孔了,一排排密密麻麻的散热鳍片赫然在列,配合风扇,快速将显卡内部热量送出,时刻让核心满血释放。
再看看这张显卡的供电,众所周知RTX4060的TDP仅设定为115W,因此供电接口也是我们熟悉的8Pin,单电源结果终于回归,无需12VHPWR转接线,安装更方便。
显卡接口配置方面,有1个HDMI2.1和3个DP1.4a输出接口,支持8K@60Hz高清输出,配置齐全可以满足日常使用。
你从这个角度看去,还能发现,这回的影驰RTX4060金属大师的体积明显缩小了,仅有两槽厚度,42mm的厚度对ITX相当友好,终于不像它的大哥们动辄70mm起步的板砖厚度了。
显卡拆解
外观鉴赏完,少不了的就是显卡拆解了,不得不说好久没有拆到如此精致的双风扇显卡了,拆卸还是比较简单的,卸下背部的螺丝后就可以将厚重的寒光星散热系统与PCB分离了。
正面PCB还是很有看头的,塞满了各式样的电子元器件,并且还有AD107核心坐镇,纯黑色的PCB颜值极佳,整张PCB也采用4层高规格工艺打造,电气性能值得信赖。
PCB的背面,还是大厂的味道,不过相比正面密密麻麻的排布就显得整洁许多,背面基本上是各类控制芯片。
PCB正中央的这颗AD107-400-A1核心比其他RTX40系的核心都要小一些,不过体积虽小但实力出众。其采用全新AdaLovelace架构和TSMC4N工艺,专为GPU优化,可实现高达2倍的性能功耗比飞跃。3072个CUDA,更有老黄精心安排的24MBL2缓存,顶级的性能,它就是你的高刷电竞首选。
核心的四周就是显存芯片了,4颗GDDR6显存,单颗2GB,四颗共8GB显存。由三星提供,型号是K4ZAF325BC,显存等效速率为17Gbps,这个速率无论是用来追逐AI的浪潮还是创作生产力,都妥妥的。
讲完核心与显存,再看看显卡的供电规模,影驰RTX4060金属大师安排了6相超豪华供电,满足AD107核心的超高频率运行与稳定。
供电被安排在PCB的左右两侧,每侧各三相,组成了5相核心供电与1相显存供电。
每相供电都有自己的DrMos芯片,芯片来自台湾力祥,不过均采用一上一下两个MOSFET,型号分别是QN3103和QN3107。
而PWM主控则安排在显存芯片的上方,型号是uP9512R,负责核心与显存供电控制,常用在中高端显卡身上。
再看看供电接口,影驰RTX4060金属大师为8Pin供电接口,用于满足这张TDP最高130W的显卡已经算超规格了。
供电接口附近还有高质量的电容加持,背部更是密集的通讯电路联通显卡与电源,保障显卡稳定输出。
接着我们再看看它的散热系统,影驰将其命名为寒光星散热系统,正面就是大面积的高效能均热板,热管穿过的地方还可以看见铜的颜色,有了铜管的加持,散热性能更强悍。
并且影驰在这之上还为显存、电感、MOS管接触的地方用上了高系数的导热垫辅助散热,可以说把散热拉满了。
这个寒光星散热系统还有不少硬核科技,它拥有2*Φ6mm镀镍复合热管以及大面积的散热鳍片,配合回流焊接工艺和金属外壳的高导热特性,散热性能可谓备受期待。
所有的散热鳍片与热管全面紧贴发热单元,让GPU热量快速传导散发,无论创作还是娱乐都能冷血镇场。
而主动散热部分则是两个宽度92mm超大静霜风扇,风力强劲的同时,两把风扇还支持智能启停,GPU空闲时自动停转以减少噪音和功耗。
最后来个全家福,影驰RTX4060金属大师的堆料可以用豪华来形容,这款散热器完全有充足的余量供玩家发挥,这也让笔者对它的性能释放充满期待。
测试平台介绍
首先介绍一下本次的测试平台,既然是RTX4060这样的甜品级显卡,那我们选择其他硬件自然也要门当户对,因此CPU使用的是目前最新的13代——Inteli5-13600K处理器,主板为影驰Z790金属大师,搭配同款的影驰星曜32GBDDR5-6000高规格内存,确保这张显卡能够释放全部性能。
不错的硬件也要有好的显示效果才能展现RTX40系显卡的魅力,那拿来衬这张显卡的显示器自然也不能弱,用的依旧是天花板级别的AGONPD32M保时捷联名款,4K@144Hz的高刷,虽然这是一张定位1080P高帧的显卡,但高分辨率的显示器一样能够带给你极致的视觉享受,感受丝般顺滑畅的3A体验。
介绍完测试平台,那先让我们打开GPU-Z看看这张影驰RTX4060金属大师显卡的详细信息,影驰RTX4060金属大师的基础频率为1830MHz,Boost频率为2460MHz,这个频率跟上代的RTX3060相比,那可以说是碾压级别的优势,单是基础频率就高出500MHz,这个程度的提升,也让我对这块显卡的性能表现充满期待。
理论性能测试
国际惯例,拿到新显卡,先体验一下全世界最好玩的游戏——3DMark,从测试结果中可以看出,影驰RTX4060金属大师对RTX3060就是碾压,在DX11为基准的FireStrike系列测试中,28048的超高成绩比后者高出近6000分,性能提升幅度达到了21%,而在DX12为基准的TimeSpy中,10444的分数同样强过RTX3060的8710分,超越后者17%以上!
而RTX40系显卡还有一个特性不得不测,那就是老黄引以为傲的DLSS与光追性能,首先是PortRoyal测试,影驰RTX4060金属大师领先RTX3060就有15%以上!DLSS就更加出彩了,在仅开启DLSS2的情况,1080P和2K分辨率下均领先RTX3060有20%,当RTX3060还达不到60FPS时,影驰这款新显卡72FPS的成绩已经可以摸到流畅游戏的门槛了。
至于其他理论性能,我们也进行了详细的测试,从实测结果来看,在AIDA64的GPGPU测试里,拥有AdaLovalace架构的RTX40系列显卡在算力上也有出色的性能表现。
游戏性能测试
相信不少玩家一定十分关注这张显卡的游戏性能,我们也好奇影驰RTX4060金属大师作为一款定位1080P级别的游戏显卡,究竟能够带来怎样的体验。
不得不说,1080P对这张显卡来说有点简单了,不少游戏都能稳定运行在100FPS以上,像《战争机器5》《孤岛惊魂6》这样优化比较好的游戏,不开任何DLSS加成,它也能接近130FPS。如果有DLSS2的介入,像《F122》这样的3A大作,对硬件要求较高的游戏帧数也能达到120FPS以上。
对比起前代的RTX3060,拥有新架构、新技术的影驰RTX4060金属大师更是优势尽显,不少游戏帧数都是前者的1.2倍以上,并且不要忘记,这还是一张TDP只有115W的显卡,性能加量功耗不加价,这才是甜品级显卡应有的表现。
当然我们也对2K分辨率进行测试,在这个分辨率下,一众游戏依旧有60FPS左右的表现,如果你玩的是像《古墓丽影:暗影》这类的老3A大作,优化效果更明显,这张显卡能在2K分辨率下跑出127FPS的超高成绩。
你不要以为这张定位1080P的显卡没办法畅玩2K,其实它一点都不弱,不少游戏在RTX3060下没办法稳定游玩,但你换上影驰RTX4060金属大师就不一样了,性能领先16%之多,2K畅玩3A大作,游戏玩家的性价比显卡。
DLSS3性能测试
要说RTX40系上最大的进步是什么,笔者觉得DLSS3应该占有一席之地。DLSS早在RTX20系显卡就已经发布了,其主要是让显卡在不影响画面质量的情况下提升游戏性能,目前DLSS已经更新至3.0版本,相比前代,新增帧生成和NVIDIAReflex技术,据老黄所说,用上DLSS3后可以实现游戏性能的翻倍提升。
3DMarkDLSS3理论性能测试
甜品级的影驰RTX4060金属大师在吃上DLSS3这样的黑科技后,实力提升那也是相当出彩,2K分辨率下,开关DLSS3性能差距能够达到2.8倍以上,帧数稳定在77FPS以上,4K分辨率更是不得了,开关前后差距足足有4倍,不过从理论测试来看影驰RTX4060金属大师的4K游戏能力还有待加强,49FPS的表现不足以流畅4K,因此想要体验4K游戏的玩家建议选择70级别甚至80级别的显卡。
游戏实测
实测肯定也少不了,现在支持DLSS3的游戏已经上升至50+款,因此我们也选用了一些热门游戏尽显详细测试。在国产FPS游戏《光明记忆:无限》中,影驰RTX4060金属大师开启DLSS3后对RTX3060简直是降维打击,1080P分辨率下比RTX3060高出60多FPS。另外整个游戏过程中,影驰RTX4060金属大师的功耗仅115W,而隔壁的RTX3060基本在160W徘徊。用更低的功耗实现了更强的性能!这点不得不说老黄确实厉害。
1080PDLSS性能测试
如果说DLSS2只是让影驰RTX4060金属大师展现了50%实力,那DLSS3的加持下,影驰RTX4060金属大师就可以说100%的满血释放。1080P画质下,大部分游戏都能稳定在120+FPS以上,甚至不乏有些游戏已经去到了160FPS以上。这个表现对比RTX3060,那只能用爆杀形容,如果对比RTX4060Ti,性能差距也没有很夸张,整体表现还是相当不错的。
我们也使用影驰RTX4060金属大师在DLSS2和DLSS3两种模式下测试了多款游戏,从实测结果来看,DLSS3确实有点东西,不少游戏的帧数都有明显提升,像《赛博朋克2077》这款游戏,影驰RTX4060金属大师在DLSS2下游戏帧数为83FPS,而开启DLSS3后,游戏帧数达到了惊人的128FPS,不愧是定位1080P的高帧游戏显卡!
更让人惊喜的是开启DLSS3后,游戏的1%Low帧也有提升,这也意味着你在玩游戏时更稳定更丝滑。并且实测延迟也没有增长很多,老黄在发布会上吹的DLSS3真的不错,实用性很强。
1440PDLSS性能测试
虽然NVIDIA将RTX4060定位为一张1080P级别的显卡,但其实它的实力远不止1080P,它在DLSS3的加持下,2K游戏也有不小的提升,随随便便跑个100+FPS不成问题,甚至不少游戏在DLSS3的加持下2K可以飙到120FPS以上,所以完全不用担心它的性能表现。
RTXVSR测试
如果说DLSS给游戏体验带来质的飞跃,那RTXVSR技术就称得上是视频版的DLSS,这是NVIDIA在前段时间带来的RTXVideoSuperResolution视频超分辨率技术(RTXVSR),通过AI技术即可提高浏览器内的视频的分辨率,展现前所未有的显示效果。
今天我们也用影驰RTX4060金属大师测试这项划时代的RTXVSR技术。使用相当简单,在RTX30系和RTX40系的NVIDIA控制面板中找到视频图像设置,手动开启RTXVideoenhancement即可启用RTXVSR技术,其中分为1-4档调节,数字越大质量越好。
实测环节,可以看到在开启RTXVSR技术之后,原视频里的人物线条由原本的模糊不清变得十分清晰锐利,甚至部分细节已经超越原生1080P了,并且低画质的视频也有不少噪点,在开启VSR4档后,噪点几乎消失。
从左往右依次为:原生480P、VSR1x、VSR4x、原生1080P
除此之外,由于是AI智能提升分辨率的缘故,字体在原生的480P视频中有些发虚,甚至字体边缘可以看到毛边,不过有了VSR的加持后,字体锐利可见,完全不输原生1080P的效果,不得不说VSR确实有点东西。
这里我们也给大家准备了对比视频,从视频里就可以看到VSR的效果之明显,最高级别的VSR4跟原生480P相比就是一眼的区别,在开启RTXVSR技术后,部分图像质量有了显著提高,不仅锯齿和噪点几乎全部消失,颜色过渡也更为平滑,目前VSR能有这种表现堪称惊艳。
当然你除了在浏览器能够使用这项功能外,本地浏览器也能享受黑科技的魅力,VLC是目前首个支持RTXVSR技术的本地播放器,且能够支持多种视频格式播放,你硬盘里的老视频也能拥有清晰画质了!
我们将本地的480P画质视频进行RTXVSR4档渲染,从画面上看,开启了VSR技术后,右侧的渲染视频确实比左侧原生的视频要清晰许多,并且肉眼可见噪点的减少,观感上要明显好于原生的480P视频。
如果你想知道本地VSR的效果,这里也有视频可以看到二者的差距,确实能够明显看出有VSR的加持后,不少细节重新清晰可见,对一些低分辨率视频确实有提升。
左:本地原生480P中:VSR4x右:本地原生1080P
有玩家可能担心功耗的问题,这里我们也进行了实测,在VSR开启最高档4档的情况下,影驰RTX4060金属大师的功耗仅有30W左右,显卡利用率也远没有网络上传得那么高。
总的来说,影驰RTX4060金属大师上的RTXVSR技术将为玩家和视频观看者带来革命性的新体验!无论是性能上还是技术上的创新,都称得上是流媒体时代的革命!
创作性能测试
聊完了游戏就该聊聊显卡的另一大用处——生产力。不过生产力分为创作生产力与专业生产力两部分,这里我们选择PugetBench、PCMark10、Blender等多款常见的测试软件,来测试影驰RTX4060金属大师在日常办公、视频内容生产、专业渲染等方面的性能表现。
老样子,先看看PCMark10Extended项目上各显卡的性能表现如何,可以看到影驰RTX4060金属大师在游戏这个子项目上与前代的RTX3060拉开了差距,并且领先幅度约为20%左右,这与我们上面的游戏实测相符。要对比RTX4060Ti的话,其实也没有弱多少,差距仅在15%以内。
再看看渲染方面的表现,在N卡常用的Blender和V-Ray渲染软件中,影驰RTX4060金属大师相比RTX3060有40%的性能提升,表现也是相当出色,不得不夸一句,RTX40系的性能果然不让人失望。
在其他工业软件OC渲染器中,影驰RTX4060金属大师的宰制依旧在持续,性能完全碾压前代RTX3060,20-27%的性能提升足以让你的效率更进一步,如果你也想感受RTX40系带来的专业性能提升,不妨考虑一下这张性能与性价比并驾齐驱的影驰RTX4060金属大师,它一定是你的不二之选。
NVIDIA编码器测试
RTX40系显卡还有一项黑科技可以帮助你提升创作性能,影驰RTX4060金属大师内置了NVIDIA编码器,它支持时下热门的AV1编码,作为下一代主流的视频编码技术有着自己独特的优势,更快的编码速度和更高质量的流媒体传输性能,让越来越多的剪辑软件和视频网站青睐于它,像我们熟悉的达芬奇、剪映、B站等已经支持AV1编解码,未来AV1将会成为一个新趋势。
我们使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。实测同一段素材下,同样使用H.265编码,有NVIDIA编码器的加持下,影驰RTX4060金属大师的效率比RTX3060快一些,如果使用AV1编码,那RTX3060就更没法比了,毕竟它还不支持AV1的编解码。
当然我们上面也提到AV1编码不止导出速度更快,它的文件占用空间也比H.265要小,无论是4K分辨率还是8K分辨率,使用AV1编码后,文件整体大小能够降低25%以上,并且肉眼下几乎没有画质区别,单凭AV1的这些优点,未来将会是AV1的天下,现在装备一张影驰RTX4060金属大师即可感受最新技术带来的优势。
AI能力测试
"AI的iPhone时刻已来"这是老黄在GTC大会上说的,不过老黄确实没有说错,现在AI已经深入方方面面,每天都有各式各样的AI工具面世,像ChatGPT、AI绘画、AI换脸等新技术不断冲击着我们的生活,AI的魅力可谓无处不在,恰好借着AI这股东风,带大家见识一下RTX40系显卡在AI方面的表现。
先用达芬奇AIACCELERATEDMAGICMASK测试一下影驰RTX4060金属大师的AI算力吧,同样的项目,使用RTX3060需要28秒,RTX4060Ti需要21秒,而影驰RTX4060金属大师刚好卡在中间,25秒的成绩表现不错,你可能觉得两三秒的差距不大,其实这也是因为我们的项目复杂程度不高,如果项目复杂,那就是10-15%的效率提升了。
AI的作用有很多,AI提升分辨率不仅能在视频中使用,图片也可以!在另一款AI应用软件ON1ResizeAI2023中,使用AI将多张图片提升200%分辨率,此时影驰RTX4060金属大师的速度为16秒一张,而上代的RTX3060为18秒,对比自家的RTX4060Ti12秒一张的速度,差距其实不大。
再看看时下热门的AI绘画吧,在StableDiffusion中,这张换装ADA架构的影驰RTX4060金属大师显卡更是当仁不让,按照NVIDIA提供的描述生成小房子,实际速度方面,影驰RTX4060金属大师每分钟可以生成4.72张图,作为对比,上代的RTX3060则是每分钟4.19张,可见架构革新确实能够带来不小的性能提升,换用新的RTX40系显卡也能让你在AI时代乘风破浪。
功耗与发热
别看RTX4060是一张60级别的显卡,但影驰还是给它配备了不错的散热,大家在显卡拆解部分也见到了,确实唬人。下面就让我们一起看看这个超规格的寒光星散热系统能否带给我们新的惊喜。
在室温25℃的情况下,使用Furmark单烤近30分钟后,影驰RTX4060金属大师的GPU核心运行在2325MHz以上的高频,但此时核心温度仅有60.8℃,这意味着什么?意味着它可能比你使用的CPU还要低温!如果是待机温度,那这代显卡的温度更是惊人,GPU在待机下只有36.2℃,现在知道这个散热系统的强势之处了吧。
当然发热不大也不完全是散热系统的功耗,TSMC4N工艺也是一大工程,两者强强联合,可以说把功耗与噪音控制提升到了一个新的阶段,烤机半小时,最高功耗仅有125W,大部分时间保持在105W左右,而待机功耗仅15W,这个水平真的强得难以相信。
进一步探索这张影驰RTX4060金属大师的功耗表现,我们还利用HWINFO64软件与FrameView软件双重记录多款显卡的功耗表现情况,从图中可以看到影驰RTX4060金属大师整体功耗控制相当出色,在所有测试场景内近乎都是维持在115W左右!
不得不说,老黄的RTX40系真的给足了玩家惊喜,得益于AdaLovelace架构和TSMC的4N工艺双管齐下,影驰RTX4060金属大师在性能释放、功耗控制、温度表现等都是完胜的存在。
超频潜力测试
最后就是各位玩家喜闻乐见的超频测试了,毕竟影驰RTX4060金属大师可以去到130W的最大功耗,比公版多了15W,这么看还是有些超频能力的。
开始超频前,先回顾一下这张显卡的默认状态性能,其TimeSpy得分为10592分,GPU核心频率跑在2700MHz上下。
先给核心小加100MHz频率,此时TimeSpy中的显卡得分已经开始上升了,达到了10876分,核心有效频率也到了2820MHz。
为了看看影驰RTX4060金属大师的超频潜力,我们继续加码,最终将GPU核心频率增加了280MHz,此时这张显卡在TimeSpy测试中刚好能够跑到3000MHz,显卡得分也达到了11192分,相比默频几乎暴涨1000分,可见这款显卡的性能与潜力还不错。
评测总结
测试进行到这里,就进入了尾声了。从RTX4090一路测试到RTX4060,不得不说,老黄的RTX40系显卡是成功的一代,此次甜品级RTX4060的降临无疑是给广大游戏玩家一个更优的选择。全新的AdaLovelace架构、黑科技DLSS3、RTXVSR等创新技术的应用让这款中端显卡成功晋级最香甜品卡,相比起它的前作20系与30系兄弟们更是有着无可比拟的优势。
而这次上手体验的影驰GeForceRTX4060金属大师更是惊艳,硬朗而又极简的设计风格深得我心,方正的设计让它无论从哪个角度看去,都拥有最佳的颜值。而在散热方面,它也实现了比公版更优的效果。不过最受震撼的还要属它的性能,原以为1080P定位的它在性能上会有限制,没想到2K分辨率下依旧强势,再加上DLSS3的加持,不少3A大作也能丝滑流畅,不愧RTX40系显卡之名。
最后就是大家都关心的售价了,如果你也想以超高的性价比体验RTX40系显卡的黑科技,那这款集颜值与性能于一身的影驰GeForceRTX4060金属大师一定是最优的选择。对比前作RTX3060,它不仅性能暴增,还有出色的功耗控制,相比同代的RTX4060Ti,更高的性价比毫无疑问就是它最大的优势。目前影驰GeForceRTX4060金属大师已经上市,具体价格请留意明天的电商动态,除此之外,还有影驰RTX4060大将与影驰RTX4060星曜即将上市,感兴趣的不妨了解一下。
AdaLovelace架构讲解
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是"电学中的牛顿"——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人,度娘一下果然,这是 人称"数字女王"的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦。
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元,以及面向AI推理的TensorCore单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RTCore和三代TensorCore基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代RTCores与第四代TensorCores单元,同时加入众多新颖的黑科技,从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
全新的SM流式多处理器
AdaLovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RTCores、4个第四代TensorCores(张量核心)、4个TextureUnits(纹理单元)、256KBRegisterFile(寄存器堆),以及128KBL1数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
过去的Turing架构INT32计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看AdaLovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,本次的主角GeForceRTX4060拥有24个SM,3072个CUDA核心,跟上一代的RTX3060相比,虽然CUDA核心有所缩减,但得益于新架构的优势,性能完全可以说是遥遥领先。
另外缓存方面AdaLovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128KB的缓存,其次核心的二级缓存进行进行了重新的设计,使得RTX4060配备了24MB二级缓存,相比RTX3060和RTX2060可怜的4MB二级缓存,可以说是质的飞跃,足足提升了6倍之多。
技术讲解:第三代RTXCores与第四代TensorCores
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上AdaLovelace架构最大的提升还是在第三代RTXCores与第四代TensorCores身上。
第三代RTXCores
RTXCores用于光线追踪加速,第三代RTXCores的有效光线追踪计算能力达到191TFLOPS,是上一代产品2.8倍。
在Ampere架构中,第二代RTCores支持边界交叉测试(BoxIntersectiontesting)和三角形交叉测试(TriangleIntersectiontesting),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代RTXCores增加了两个重要硬件单元:OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine,主要是用于alpha通道的加速,可以将alpha测试几何体的光线追踪速度提高2倍。
在传统光栅渲染中,开发人员使用一些Alpha通道的素材来实现更高效的画面渲染,例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态
三角形。根据Alpha通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
DisplacedMicro-MeshesEngine
如果说OpacityMicromapEngine加速的是面处理,那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示,在AdaLovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTXCores更低,效率也更高。
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在AdaLovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程,减少构建时间和存储成本。
同时AdaLovelace架构SM中新增了着色器执行重排序(ShaderExecutionReordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代RTXCores与第四代TensorCores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用GPU资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代TensorCores
TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎,具有高达1.32petaflops的张量处理性能,超过上一代的5倍。
技术讲解:DLSS3
或者说第四代TensorCores太硬核你不会知道是啥?提升意义在哪?但是TensorCores最经典的应用DLSS你肯定会知道,这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS2)和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS帧生成技术;后两技术中,DLSS超分辨率只需要GeForceRTX显卡都能使用上,NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。
想实现DLSS帧生成可不简单,这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而AdaLovelace架构的光流加速器升级到了第二代,其提供了高达300TeraOPS(TOPS),比安培架构的初代光流加速器(OpticalFlowAcceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。
另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS3是建立在DLSS2基础之上的,游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能,所以DLSS3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
阅读小亮点:NVIDIAReflex
NVIDIAReflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。
当GeForceRTX40系列显卡和NVIDIAReflex搭配上后,直接达到1440p分辨率360FPS的体验,这着实是性能有点强劲了。
在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布,包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz,而最猛的是ASUSROGSwift360HzPG27AQN,刷新率直接来到了360Hz。
但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p360Hz是很美好,但现实也是相当的骨感。
技术讲解:NVIDIA编码器
GeForceRTX40系列显卡还有一个全新的升级,那就是编码器NVENC。第八代的NVENC编码器不仅支持H.264与H.265,还支持开放式视频编码格式AV1。
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。
不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1编码器可将效率提高40%,同时显卡的占用也更低。包括OBSStudio一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容,这样我们做游戏录制也会变得更为轻松。
包括我们上面测试时使用的游戏内录视频都是支持AV1格式,同时编码器NVENC在资源占用和适配上做得越来越好。
版权声明:本文部分来自互联网,由小编精心所写,本文地址:http://www.zhubian88.cn/smbk/92562.html,如需转载,请注明出处!