本文作者:访客

高通罕见公布骁龙X GPU架构细节:性能超67%、功耗低62%

访客 2024-06-16 21:03:36 71167 抢沙发

6月16日消息,高通骁龙处理器一直拥有极其强大的GPU性能,常被调侃为买GPU送CPU,但官方对于GPU架构的技术细节一直讳莫如深,每次只说支持XX技术、性能提升XX。

到了最新的骁龙X Elite/Plus系列处理器上,或许是为了更好地对标Intel、AMD,高通空前大方地公开了Adreno X1 GPU的底层细节,顶级型号为Adreno X1-85

Adreno X1是专门针对Windows PC设计的,图形接口完整支持DirectX 12.1(Shader Model 6.7/DirectML)、DirectX 11、Vulkan 1.3、OpenCL 3.0,都有原生驱动支持。

FP32单精度浮点性能最高4.6TFlops(每秒4.6万亿次计算),像素填充率最高72Gp/s(每秒720亿次)。

如此详细的架构图对于高通GPU来说似乎还是第一次,可以看到分为6个着色处理器(SP),整体共计1536个FP32 ALU,可以通俗地表达为1536个核心,最高频率1.5GHz。

粗暴地按照核心数计算,这相当于GTX 1660 Ti,或者说三个Arc A770,或者说四分之三个RX 7600。

渲染前端模块支持每时钟周期2个三角形和光栅化处理、双向LRZ(地分辨率深度测试)、基于图像的可变着色率(VSR Tie2)。

还有专门用于分箱(binning)的前端模块,与渲染同步运行。

6个SP对应6个渲染后端,每时钟周期最多48个像素、96个fragment(用于MSAA抗锯齿)。

另外还有GMU,也就是GPU管理单元,完整支持虚拟化(最多8个虚拟机),还有电源管理的作用。

细看SP部分,也就是SIMD着色处理器,属于核心执行模块,分为两个uSPTP(微型着色与纹理流水线)。

整个SP,分布着256个FP32 ALU(单精度浮点算术逻辑单元),支持FP32/16、INT32/16、BF16数据类型,支持DP4ACC指令(四路INT8点积),以及512个FP16 ALU(半精度浮点算术逻辑单元),支持FP16、INT16、BF16数据类型。

此外,还有32个32位EFU(基本功能单元)、384KB GPR(通用寄存器)、指令缓存、本地缓冲、载入/存储单元、纹理流水线和纹理缓存、GMEM单元,等等。

GPU内还集成了384KB集群缓存(每两个SP共享128KB)、1MB一体化二级缓存、6MB系统级缓存(即三级缓存),还有一些其他较小的缓存,用于着色器指令、本地纹理数据等。

GMEM是个特殊功能单元,也就是高带宽的本地GPU显存,容量3MB,带宽达2TB/s,与系统内存完全异步。

而且,它不仅仅是缓存,还可以全部或部分灵活地用于色彩与景深缓存、通用本地内存,无论是图形渲染还是通用计算都可以使用。

它可以让GPU大大减少对系统内存的依赖,降低对延迟和带宽的需求,还有着超高的性能与能效。

FlexRender弹性渲染技术也值得一提,可以由驱动控制,针对每一个不同的表面动态切换不同的渲染模式,提升性能的同时尽可能降低功耗。

具体分为三种模式:

一是Direct Mode,PC标准渲染方式,兼容性最好。

二是Binned Mode,将每一帧画面切分为不同的区块(Tile),每一个都都会进入GMEM,可尽可能减少数据移动,提高能效。

三是Bined Direct Mode,前述两种方式的混合。

软件方面,高通承诺每月升级GPU驱动,Adreno控制面板可调节性能和各项功能,而在兼容性方面已经是数百款流行的Windows应用,已测试的游戏均可查询,还有丰富的开发工具。

高通声称,Adreno X1对比酷睿Ultra的锐炫核显,同等功耗下性能领先最多67%,同等行下功耗低最多62%!

对比锐龙9 7040系列中的Radeon 780M更是性能、能效都遥遥领先。

在流行的3A游戏中,官方列出了9款,都基本持平或者优于Intel锐炫核显,优势项目包括《地平线:零之曙光》、《火箭联盟》等。

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,71167人围观)参与讨论

还没有评论,来说两句吧...