2025-03-05
又 N 卡殺手 !? RDNA 4 登場
AMD Radeon RX 9070 XT 顯示卡評測
文: Dominic Chan / 評測中心


N 卡殺手 !! AMD 正式發布 Radeon RX 9070 XT 顯示卡,今代 AMD 完全放棄高階市場全力做好中階產品,該卡採用了全新 RDNA 4 GPU 微架構,搭載第 3 代 Ray Accelerators 光線追蹤引擎,定價 US$599 性能卻可媲美定價 US$749 的 GeForce RTX 5070 Ti,被全球媒體評為「良心之作」。究竟這張新卡能否為 NVIDIA 帶來威脅?HKEPC 編輯部找來 SAPPHIRE Pure Radeon RX 9070 XT 與 GeForce RTX 5070 Ti 進行對比測試。



N 卡殺手 !! 專心做好中階

 

RNDA 4

 

 

每一代都號稱 N 卡殺手,但每一代都恨鐵不成鋼!AMD 明白要在高階市場追上 NVIDIA 的難度不低,因此 RDNA 4 GPU 微架構改變策略,直接跳過高階型號,推出代號為 Navi 48 的 Radeon RX 9070 系列。根據 AMD 官方調查,約 85% 的遊戲玩家僅會購買 US$700 美元或以下的顯示卡,並且玩家更希望沿用 PCIe 8-Pin 供電接口,因此 AMD 目標非常明確,就是要在中階或以下提供比 NVIDIA 價格更低、效能更強的產品,對 GeForce RTX 5070 系列進行全方位壓制。

 

 

RNDA 4

 

 

定位方面,AMD 在 5 日正式發布 Radeon RX 9070 與 Radeon RX 9070 XT 兩款型號,其中 Radeon RX 9070 擁有 56 個 CU、3,584 個 Stream Processors、56 個 RT 加速運算單元、112 個 AI 加速運算單元,擁有 256-bit 記憶體介面、16GB GDDR6 記憶體,最高 TBP 220W,官方定價為 US$549,與 GeForce RTX 5070 一樣。

 

Radeon RX 9070 XT 則擁有完整的 64 個 CU、4,096 個 Stream Processors、64 個 RT 加速運算單元、128 個 AI 加速運算單元,擁有 256-bit 記憶體介面、16GB GDDR6 記憶體,最高 TBP 304W,官方定價為 US$599,對手將會是 GeForce RTX 5070 Ti 但價格便宜多了。

 

 

AMD Radeon RX 9070 / RX 9070 XT Specs

FeatureRX 9070RX 9070 XT
ArchitectureRDNA™ 4RDNA™ 4
Manufacturing ProcessTSMC N4PTSMC N4P
Transistor Count53.9 billion53.9 billion
Die Size357 mm²357 mm²
Compute Units5664
Ray Accelerators5664
AI Accelerators112128
Stream Processors35844096
Game GPU Clock2070 MHz2400 MHz
Boost GPU ClockUp to 2520 MHzUp to 2970 MHz
Peak Single Precision ThroughputUp to 36.1 TFLOPSUp to 48.7 TFLOPS
Peak Half Precision ThroughputUp to 72.3 TFLOPSUp to 97.3 TFLOPS
Peak INT8 AI TOPSUp to 578 TOPS w/ SparsityUp to 779 TOPS w/ Sparsity
Peak INT4 AI TOPSUp to 1156 TOPS w/ SparsityUp to 1557 TOPS w/ Sparsity
Peak Texture Fill-RateUp to 564.5 GT/sUp to 760.3 GT/s
ROP128128
Peak Pixel Fill-RateUp to 322.6 GP/sUp to 380.2 GP/s
AMD Infinity Cache™64 MB (3rd Gen.)64 MB (3rd Gen.)
Memory16GB GDDR616GB GDDR6
Memory Speed20 Gbps20 Gbps
Memory Bus Interface256-bit256-bit
PCIe® InterfacePCIe 5.0 x16PCIe 5.0 x16
Total Board Power220 W304 W

 

◾Power and clock specifications may be higher on some board models.

 

 

 

經改良的 RDNA 4 GPU 架構

 

AMD 新一代 RDNA 4 GPU 微架構的設計方向非常明確,放棄與 NVIDIA 爭奪高階 GPU 市場,將所有資源集中於中階 GPU 型號,全力提升遊戲性能與功耗效率,以滿足時下 3A 遊戲大作的高負載需求。經改良的 CU 運算單元、升級全新的 RT 光線追蹤功能,針對 AI 運算及路徑追蹤運算進行了全面強化。

 

與 RDNA 2 相比,RDNA 4 GPU 在光柵化方面幾乎提升了 2 倍,在光線追蹤方面接近提升 2.5 倍,而在機器學習(FP16 密集矩陣)工作負載方面更提升了 3.5 倍。接下來,我們會分析 RDNA 4 的主要改良之處。

 

AMD 新一代 RDNA 4 GPU 微架構的設計方向非常明確,放棄與 NVIDIA 爭奪高階 GPU 市場,將所有資源放在中階 GPU 型號, 全力提升遊戲性能與功耗效率,以滿足世代 3A 遊戲大作的高負載需求,經改良的 CU 運算單元、升級全新的 RT 光線追蹤,針對 AI 運算及路徑追蹤運算全面強化。
 
 
 
與 RDNA 2 相比,RDNA 4 GPU 在光柵化方面幾乎提升了 2 倍,在光線追蹤方面接近提升 2.5 倍,在機器學習(FP16 密集矩陣)工作負載方面提升了 3.5 倍,每個計算單元。因此,接下來我們將深入探討 RDNA 4 架構方塊圖的基本組件,以了解整個晶片是如何組合在一起的

RDNA4

 

 

 

全新 RDNA 4 GPU 微架構針對 Compute Unit 作出大幅度改良。作為中階 GPU 的 Navi 48 繪圖核心,採用 TSMC 4nm (N4P) 制程,晶片尺寸為 356.5mm²,電晶體數目為 539 億個。它擁有 4 個 Shader Engine,每個 Shader Engine 包含 2 個 Graphics Array 運算群,而每個 Graphics Array 內含 4 個 Dual Compute Unit (DCU),並共享該 Shader Engine 內的 L1 Cache、Rasterizer、RB+、Prim Unit 等單元。因此,完整的 Navi 48 繪圖核心總共擁有 64 個 CU。

 

RDNA 4 微架構針對 Cache 系統作出了重大改良。Navi 48 配備 64 個 CU,合共有 2MB L0 Cache、2MB L1 Cache,而 L2 Cache 容量則提升至 8MB,並升級至第 3 代 Infinity Cache 技術。今代不再採用 Chiplet 架構,而是回歸單一晶片設計,這使得 Infinity Cache 與記憶體控制器的延遲降低了 25%。

 

 

 

RDNA4

 

 

受惠於增強的記憶體子系統、改進的標量單元及動態寄存器分配,RDNA 4 每個 CU 的運算效率大幅提高。再加上 TSMC 4nm 制程的優勢令時脈進一步提升,雖然 CU 總數較少,但 Radeon RX 9070 系列的性能可望超越前代 RX 7900 系列。

 

RDNA 4 的 Compute Engine 相較於前幾代作出了多項重要改良,從 SIMD 計算單元到光線加速器均有強化,包括雙 SIMD32 向量單元 (Dual SIMD32 Vector Unit)、增強的矩陣運算 (Enhanced Matrix Operations)、經改良的標量單元 (Scalar Unit)、新一代光線加速器 (Ray Accelerator)、以及強化的調度器 (Scheduler)。

 

 

RDNA4

 

 

今代 RDNA 4 的其中一項性能提升來自雙 SIMD32 向量單元設計,每個 CU 單元包含 2 組 SIMD32 向量單元,進一步提升平行計算能力,支援更高效的運算密集型工作負載。每組 SIMD32 單元擁有獨立的 192 KB 向量通用暫存器(Vector GPR),為處理更複雜的數據運算提供充足的暫存器空間。

 

此外,RDNA 4 的 CU 單元大大提升了矩陣運算能力,支援 2×16b 和 4×8b 的稠密矩陣速率,提供更快的矩陣運算速度。4:2 結構化稀疏性功能透過稀疏性特徵提高運算效率,減少不必要的計算。新增的 8 位浮點數據類型 (8b Float Data Types) 及矩陣加載與轉置支援,進一步提升矩陣處理能力,增加數據訪問與運算的靈活性。經改良的標量單元新增了 Float32 運算支援,並加入 16KB Scalar Cache,進一步提升 RDNA 4 架構的標量運算能力。

 

 

RDNA 4 的 RT 性能翻倍

 

過去 AMD 的光線追蹤性能表現不盡人意,因此 RDNA 4 微架構特別針對 RT 性能作出了提升。第三代 Ray Accelerator 單元的光線遍歷能力是上代 RDNA 3 的兩倍。這些升級包括增加第二個光線交集引擎,以及智能優化以減少執行光線追蹤計算所需的開銷。

 

光線追蹤工作負載的一個關鍵組成部分是構建邊界體積層次結構(BVH)數據結構,該結構定義了圖像的幾何數據屬性。在 RDNA 4 的 Ray Accelerator 單元中,處理 BVH 的創新方法是值得關注的改進之一。此方法有效減少了 BVH 數據的大小和複雜性,使得光線在幾何體中的遍歷更加高效,同時大幅降低記憶體使用量與頻寬需求。

 

 

RDNA 4

 

 

在 RDNA 4 的 Ray Accelerator 單元中,新增多一個交集引擎,讓 Ray/Box 和 Ray/Triangle 性能翻倍,單一週期可處理 8 個 Ray/Box 和 2 個 Ray/Triangle 單元。同時,還新增了一個專用的光線變換區塊,大幅提升 RT 硬體性能,能更高效地處理 BVH 樹的較低層級遍歷。

 

此外,RDNA 4 新增了著色處理加速技術 (Accelerated Shading),支援動態向量通用暫存器 (VGPR) 管理,動態分配向量暫存器資源,提高光線處理的佔用率。同時,支援亂序內存返回 (Out-of-Order Memory Returns),以減少等待時間,降低光線追蹤任務對內存的依賴性。這些改良進一步減少延遲,大幅提升 RT 性能。

 

發表評論