2022-10-11
全新 Ada Lovelace 架構 !!
NVIDIA GeForce RTX 4090 FE 顯示卡
文: John Lam / 評測中心


NVIDIA 正式發佈全新 GeForce RTX 4090 顯示卡,採用全新 AD102 繪圖核心、升級新一代 Ada Lovelace GPU 微架構,增至 16,384 個 CUDA Core、第 3 代 RT Core 及第 4 代 Tensor Core、24GB GDDR6X 容量,與上代架構相比光刪化性能提升 2 倍、Ray Tracing 性能提升 4 倍,並且在絕大部份遊戲下 4K 光追能夠達至 100 FPS+,HKEPC 收到 NVIDIA GeForce RTX 4090 Founder Edition 與舊代旗艦卡進行測試。



經改良的 Ada Lovelace 架構

 

GPC 是 NVIDIA GPU 中最頂層的硬體塊,所有關鍵圖形處理單元都位於 GPC 中。 Ada Lovelace 每個 GPC 包括 1 個專用的光柵引擎、 2 個光柵操作 (ROP) 分區,每個分區包含 8 個單獨的 ROP 單元和 6 個 TPC,每個 TPC 包括 1 個 PolyMorph 引擎和 2 個 SM。

 

AD102 GPU 中的每個 SM 包含 128 個 CUDA  Core、 1 個 Ada Lovelace 第三代 RT 核心、4 個 Ada Lovelace 第四代張量核心、4 個 Texture 紋理單元、 1 個 256 KB 寄存器文件和 128 KB 的 L1/共享內存,可配置為根據圖形或計算工作負載的需要不同的內存大小。

 

 

Ada SM
▲ Ada Lovelace GPU 的 GPC 框架設計

 

 

與 Ampere GPU 一樣,AD102 的 SM 單元分為 4 個分區,每個分區包含 1 個 64 KB 寄存器文件、一個 L0 指令緩存、一個 warp 調度程序、一個調度單元、16 個專用於處理 FP32 的 CUDA 內核操作,每個週期最多可處理 16 個 FP32 操作,16 個可以處理 FP32 或 INT32 操作的 CUDA 內核,每個週期 16 個 FP32 操作或每個時鐘 16 個 INT32 操作, 4 個加載 / 存儲單元,以及執行超越和圖形插值指令的特殊功能的 SFU 單元,除了換上第 4 代的 Tensor Core 設計,FP 單元在微架構上並沒有太大變動。

 

 

Ada SM

 

 

 

與上代 Ampere GPU 相比,Ada Lovelace GPU 的 L2 Cache 進行了徹底改造,完整的 AD102 GPU 擁有高達 98304 KB 的二級緩存,比 GA102 中的 6144 KB 提高了 16 倍,所有應用程序都將受益於擁有如此龐大、更高速的 L2 Cache 緩存,例如 Ray Tracing 光線追踪當中的路徑追踪之類的複雜操作將產生最大的好處,相較 AMD 的 Infinity Cache 作為 L3 Cache 擁有更高效率,能大幅升遊戲 Workload 資料命中率,降低讀取延遲並減少 GDDR6X 記憶體頻寬使用。

 

 

此外,AD102 GPU 受惠於 TSMC 4N 制程,在 NVIDIA 工程師與 TSMC 密切合作下令 AD102 能包含更多的運算內核,AD102 包含的 CUDA 內核比上一代 GA102 GPU 多 70%,擁有高達 763 億個電晶體,並且關鍵路徑中使用高速晶體管設計,令 AD102 GPU 時脈可運作於 2.5GHz 甚至更高,並且提供了出色的能耗比,比較 RTX 3090 Ti GPU 在相同功耗運作時,RTX 4090 GPU 可以提供接近 2 倍的性能表現,如果啟用 DLSS 3 技術後甚至最高可達 4 倍。

發表評論