高通罕见公布骁龙X GPU架构细节：性能超67％、功耗低62％

访客 2024-06-16 21:03:36 71178 抢沙发

默认

6月16日消息，高通骁龙处理器一直拥有极其强大的GPU性能，常被调侃为买GPU送CPU，但官方对于GPU架构的技术细节一直讳莫如深，每次只说支持XX技术、性能提升XX。

到了最新的骁龙X Elite/Plus系列处理器上，或许是为了更好地对标Intel、AMD，高通空前大方地公开了Adreno X1 GPU的底层细节，顶级型号为Adreno X1-85。

Adreno X1是专门针对Windows PC设计的，图形接口完整支持DirectX 12.1(Shader Model 6.7/DirectML)、DirectX 11、Vulkan 1.3、OpenCL 3.0，都有原生驱动支持。

FP32单精度浮点性能最高4.6TFlops(每秒4.6万亿次计算)，像素填充率最高72Gp/s(每秒720亿次)。

如此详细的架构图对于高通GPU来说似乎还是第一次，可以看到分为6个着色处理器(SP)，整体共计1536个FP32 ALU，可以通俗地表达为1536个核心，最高频率1.5GHz。

粗暴地按照核心数计算，这相当于GTX 1660 Ti，或者说三个Arc A770，或者说四分之三个RX 7600。

渲染前端模块支持每时钟周期2个三角形和光栅化处理、双向LRZ(地分辨率深度测试)、基于图像的可变着色率(VSR Tie2)。

还有专门用于分箱(binning)的前端模块，与渲染同步运行。

6个SP对应6个渲染后端，每时钟周期最多48个像素、96个fragment(用于MSAA抗锯齿)。

另外还有GMU，也就是GPU管理单元，完整支持虚拟化(最多8个虚拟机)，还有电源管理的作用。

细看SP部分，也就是SIMD着色处理器，属于核心执行模块，分为两个uSPTP(微型着色与纹理流水线)。

整个SP，分布着256个FP32 ALU(单精度浮点算术逻辑单元)，支持FP32/16、INT32/16、BF16数据类型，支持DP4ACC指令(四路INT8点积)，以及512个FP16 ALU(半精度浮点算术逻辑单元)，支持FP16、INT16、BF16数据类型。

此外，还有32个32位EFU(基本功能单元)、384KB GPR(通用寄存器)、指令缓存、本地缓冲、载入/存储单元、纹理流水线和纹理缓存、GMEM单元，等等。

GPU内还集成了384KB集群缓存(每两个SP共享128KB)、1MB一体化二级缓存、6MB系统级缓存(即三级缓存)，还有一些其他较小的缓存，用于着色器指令、本地纹理数据等。

GMEM是个特殊功能单元，也就是高带宽的本地GPU显存，容量3MB，带宽达2TB/s，与系统内存完全异步。

而且，它不仅仅是缓存，还可以全部或部分灵活地用于色彩与景深缓存、通用本地内存，无论是图形渲染还是通用计算都可以使用。

它可以让GPU大大减少对系统内存的依赖，降低对延迟和带宽的需求，还有着超高的性能与能效。

FlexRender弹性渲染技术也值得一提，可以由驱动控制，针对每一个不同的表面动态切换不同的渲染模式，提升性能的同时尽可能降低功耗。

具体分为三种模式：

一是Direct Mode，PC标准渲染方式，兼容性最好。

二是Binned Mode，将每一帧画面切分为不同的区块(Tile)，每一个都都会进入GMEM，可尽可能减少数据移动，提高能效。

三是Bined Direct Mode，前述两种方式的混合。

软件方面，高通承诺每月升级GPU驱动，Adreno控制面板可调节性能和各项功能，而在兼容性方面已经是数百款流行的Windows应用，已测试的游戏均可查询，还有丰富的开发工具。

高通声称，Adreno X1对比酷睿Ultra的锐炫核显，同等功耗下性能领先最多67％，同等行下功耗低最多62％！

对比锐龙9 7040系列中的Radeon 780M更是性能、能效都遥遥领先。

在流行的3A游戏中，官方列出了9款，都基本持平或者优于Intel锐炫核显，优势项目包括《地平线：零之曙光》、《火箭联盟》等。

标签：缓存性能

分享

发表评论取消回复

评论列表（暂无评论，71178人围观）参与讨论

还没有评论，来说两句吧...