2022-11-15
較 RTX 3080 Ti 快 100% ?
NVIDIA GeForce RTX 4080 FE 實測
文: John Lam / 評測中心


NVIDIA 正式發佈全新 GeForce RTX 4080 顯示卡,採用全新 AD103 繪圖核心、升級新一代 Ada Lovelace GPU 微架構,增至 9,728 個 CUDA Core、第 3 代 RT Core 及第 4 代 Tensor Core、16GB GDDR6X 容量,與上代架構相比光刪化性能提升 2 倍、Ray Tracing 性能提升 4 倍,啟動 DLSS 3 後新卡性能較 RTX 3080 Ti 快 1 倍但功耗降低 10%,MSRP 定價 US$1,199,HKEPC 收到GeForce RTX 4080 Founder Edition 與 RTX 3080 Ti 進行測試。



經改良的 Ada Lovelace 架構

 

GPC 是 NVIDIA GPU 中最頂層的硬體塊,所有關鍵圖形處理單元都位於 GPC 中。 Ada Lovelace 每個 GPC 包括 1 個專用的光柵引擎、 2 個光柵操作 (ROP) 分區,每個分區包含 8 個單獨的 ROP 單元和 6 個 TPC,每個 TPC 包括 1 個 PolyMorph 引擎和 2 個 SM。

 

AD102 GPU 中的每個 SM 包含 128 個 CUDA  Core、 1 個 Ada Lovelace 第三代 RT 核心、4 個 Ada Lovelace 第四代張量核心、4 個 Texture 紋理單元、 1 個 256 KB 寄存器文件和 128 KB 的 L1/共享內存,可配置為根據圖形或計算工作負載的需要不同的內存大小。

 

 

Ada SM
▲ Ada Lovelace GPU 的 GPC 框架設計

 

 

與 Ampere GPU 一樣,AD102 的 SM 單元分為 4 個分區,每個分區包含 1 個 64 KB 寄存器文件、一個 L0 指令緩存、一個 warp 調度程序、一個調度單元、16 個專用於處理 FP32 的 CUDA 內核操作,每個週期最多可處理 16 個 FP32 操作,16 個可以處理 FP32 或 INT32 操作的 CUDA 內核,每個週期 16 個 FP32 操作或每個時鐘 16 個 INT32 操作, 4 個加載 / 存儲單元,以及執行超越和圖形插值指令的特殊功能的 SFU 單元,除了換上第 4 代的 Tensor Core 設計,FP 單元在微架構上並沒有太大變動。

 

 

Ada SM

 

 

 

與上代 Ampere GPU 相比,Ada Lovelace GPU 的 L2 Cache 進行了徹底改造,完整的 AD103 GPU 擁有高達 65536 KB 的二級緩存,相比 GA102 中的 6144 KB 提高了 10 倍,所有應用程序都將受益於擁有如此龐大、更高速的 L2 Cache 緩存,例如 Ray Tracing 光線追踪當中的路徑追踪之類的複雜操作將產生最大的好處,相較 AMD 的 Infinity Cache 作為 L3 Cache 擁有更高效率,能大幅升遊戲 Workload 資料命中率,降低讀取延遲並減少 GDDR6X 記憶體頻寬使用。

 

 

此外,AD103 GPU 受惠於 TSMC 4N 制程,在 NVIDIA 工程師與 TSMC 密切合作下令 AD103 包含的 CUDA 內核比上一代 GA102 相約,但 Die Size 卻縮減少約 39%,擁有高達 459 億個電晶體較上代多 38%,並且關鍵路徑中使用高速晶體管設計,令 AD103 GPU 時脈可運作於 2.5GHz 甚至更高,並提供了更出色的能耗比,RTX 4080 性能是 RTX 3080 Ti 的 1 倍,但功耗卻降低了 10%,如果啟用RT + DLSS 3 技術後,性能提升甚至最高可達 3 倍。

分享到:
發表評論