
繼 RTX 5090 D 之後 !! 緊接是 GeForce RTX 5080 顯示卡正式解禁,採用全新 GB203 繪圖核心,升級新一代 Blackwell GPU 微架構,具備 10,752 CUDA Core 雖然和上代差距沒很大,但憑著第 4 代 RT Core、第 5 代 Tensor Core 及 16GB GDDR7 記憶體,在 DLSS 4 多幀生成技術加持下令 FPS 幀率大幅提升。HKEPC 編輯部收到 NVIDIA 送測 RTX 5080 FE 新卡,並與上代 RTX 4080 SUPER 進行對比測試。
全新 GeForce RTX 5080 登場 !!
▲ GeForce RTX 5080 (Blackwell GPU)
NVIDIA 在農曆初一 (29 日) 正式發布第二款 Blackwell GPU 架構、核心代號 GB203 的高階 GeForce RTX 5080 顯示卡,由於摩爾定律逐漸失效,傳統 GPU 設計已經無法以原生渲染方式維持理想的遊戲幀率,可以看到 RTX 5080 新卡相較上代 CUDA Core 數目相差不遠,NVIDIA 改向 Neural Rendering 神經渲染技術發展,將 AI 技術導入遊戲應用中,Microsoft 亦宣布在未來的 DirectX 中正式支援向量運算協作,完全解放 Tensor Cores 用於遊戲運算,GPU 硬體與 PC 遊戲界正迎來重大變革。
因此,NVIDIA 新一代 Blackwell GPU 非常著重於 Neural Rendering 神經渲染的性能提升,透過原生傳統渲染的一小部分成本生成絕大多數圖元。配合 DLSS 4 超解析度和 MFG 多幀生成技術,大幅提高遊戲幀率;再透過 DLSS 光線重建(RR),通過使用先進的 AI 方法對缺失的細節進行降噪和重建,以更低的運算成本和記憶體佔用達成原生渲染級畫質。
此外,全新 Neural Rendering 神經渲染與 Neural Shaders 神經著色技術將加速遊戲開發人員對 AI 的應用,例如即時生成和創建各種地形、物理模擬、更複雜的 NPC 角色行為,甚至即時生成遊戲背景故事等等。Blackwell GPU 正在改變整個 PC 遊戲的生態發展。
與上代 RTX 4080 / RTX 4080 SUPER相比,NVIDIA GeForce RTX 5080 在 Shader Cores 性能提升大約為 8~15%,雖然幅度不算顯著,但在 RT Core 和 Tensor Core 的全新 FP4 技術支援下,遊戲性能卻實現接近倍數增長,沒錯 !! 就是靠 DLSS 4 充撐場面。以下是 Blackwell GPU 的主要關鍵創新:
◾為神經渲染而生的全新 SM 單元︰大幅增強神經渲染運算能力。與 NVIDIA Ada GPU 相比,NVIDIA RTX Blackwell SM 在每個時鐘週期的整數數學輸送量提高了一倍,這對於提高神經著色中至關重要的位址生成工作負載性能極為有利。
◾全新第 4 代 RT Core︰Blackwell GPU 對 RT Core 架構進行了重大革新,帶來全新的光線追蹤體驗和神經渲染技術,進一步提升圖形性能。
◾全新第 5 代Tensor Core︰引入全新的 FP4 功能,能將 AI 輸送量提升一倍,同時將記憶體需求減半。此外,Blackwell 的數據中心級 GPU 還搭載第二代 FP8 Transformer 引擎,進一步提升處理效能。
◾NVIDIA DLSS 4︰全新 NVIDIA RTX Blackwell 架構支援 AI 多幀生成功能,能將 DLSS 4 的幀速率提升至上一代 DLSS 3/3.5 的兩倍,同時保持甚至超越原生畫質,並確保低系統延遲。
◾RTX 神經著色器︰引入小型神經網路至可程式設計著色器,開啟 GPU 圖形運算的新時代,為遊戲開發者提供更靈活的創作工具。
◾AI 管理處理器(AMP) - AMP 支援多個 AI 模型(包括語音、翻譯、視覺、動畫、行為等)與圖形工作負載同時共用 GPU,提升多任務處理能力。
◾GDDR7 Memory - GDDR7 ︰採用全新的超低電壓 GDDR 顯存標準,並使用 PAM3(脈衝幅度調製)信號技術,實現更高速的顯存子系統,同時進一步提升能效。
◾Mega Geometry 技術︰一種新的 RTX 技術,旨在大幅提升光線追蹤應用中的幾何細節,帶來更逼真的視覺效果。
GeForce RTX 5080 定價 US$999
定價方面,NVIDIA 將會於 1 月 30 日正式發佈 GeForce RTX 5080 及 GeForce RTX 5090 / 5090 D 顯示卡。GeForce RTX 5080 型號基於 GB203 繪圖核心,擁有 10,752 個 CUDA Cores、16GB GDDR7 記憶體,MSRP 定價 US$999。官方宣稱其性能等同於 RTX 4080 的兩倍。
GeForce RTX 5090 / 5090 D 型號則基於 GB202 繪圖核心,擁有 21,760 個 CUDA Cores、32GB GDDR7 記憶體,MSRP 定價 US$1,999,官方聲稱可實現 4K 240Hz 特效全開並啟用 Path Tracing。
緊接著,NVIDIA 將於 2 月發佈 GeForce RTX 5070 及 GeForce RTX 5070 Ti 顯示卡,GeForce RTX 5070 型號擁有 6,144 個 CUDA Cores、12GB GDDR7 記憶體,MSRP 定價 US$549,官方聲稱其性能等同於 RTX 4090。GeForce RTX 5070 Ti 型號則擁有 8,960 個 CUDA Cores、16GB GDDR7 記憶體,MSRP 定價 US$749,官方宣稱其性能等同於 RTX 4070 Ti 的兩倍。
需要注意的是,以上性能宣稱均基於 DLSS 4 的情況下作出的。
TSMC 4N 制程、NVIDIA GB203 繪圖核心
NVIDIA GB203 繪圖核心基於全新 Blackwell 微架構,並應用於 GeForce RTX 5080 系列產品之中。由於今代仍維持採用 TSMC 4N 制程,CUDA Core 運算單元的數目提升幅度相當有限,加上時脈亦相差無幾,因此傳統光柵圖形運算性能提升只有約 8~15% 提升,主要的遊戲性能提升仍是來自第 4 代 RT Cores 與第 5 代 Tensor Cores,光線追蹤性能以及神經渲染運算能力大約提升了近 1 倍。
▲ NVIDIA GB203 Block Diagram
GB203 GPU 晶片尺寸為 378mm²、電晶體數目為 456 億個,數字與上代 AD103 大致相若。GeForce RTX 5080 採用了完整的 GB203 晶片,包含了 7 個圖形處理集群 (GPC)、42 個紋理處理集群 (TPC)、84 個串流多處理器 (SM),總計 10,752 個 CUDA Cores、84 個 RT Cores、336 個 Tensor Cores 及 336 個 Texture Units。
GB203 GPU 還包括 168 個 FP64 核心(每個 SM 配備兩個),這些核心並未被描繪在上圖內。此外,FP64 的 TFLOP 速率是 FP32 操作 TFLOP 速率的 1/64,並包含少量 FP64 核心及極少量的 FP64 Tensor Core,以確保任何包含 FP64 代碼的程式能夠正常運行。
在核心時脈方面,GeForce RTX 5080 所採用的 GB203-400 晶片時脈相較上代略為提升,預設時脈為 2,295MHz、Boost 時脈為 2,617MHz,最高 TGP 為 360W。
此外,GeForce RTX 5080 採用了 30Gbps 的 GDDR7 記憶體,配備 256-bit 記憶體介面、總頻寬達 960GB/s,L2 Cache 容量為 64MB。如此大記憶體頻寬令所有應用程式均能受益,尤其是在光線追蹤(特別是路徑追蹤)等複雜操作中,將帶來巨大的性能提升。
GeForce RTX 5080 vs GeForce RTX 4080 / 4080 SUPER vs GeForce RTX 3090 Specs
Graphics Card | NVIDIA GeForce RTX 3080 | NVIDIA GeForce RTX 4080 | NVIDIA GeForce RTX 4080 SUPER | NVIDIA GeForce RTX 5080 |
GPU Codename | GA102 | AD103 | AD103 | GB203 |
GPU Architecture | NVIDIA Ampere | NVIDIA Lovelace | NVIDIA Lovelace | NVIDIA Blackwell |
GPCs | 6 | 7 | 7 | 7 |
TPCs | 34 | 38 | 40 | 42 |
SMs | 68 | 76 | 80 | 84 |
CUDA Cores / SM | 128 | 128 | 128 | 128 |
CUDA Cores / GPU | 8704 | 9728 | 10240 | 10752 |
Tensor Cores / SM | 4 (3rd Gen) | 4 (4th Gen) | 4 (4th Gen) | 4 (5th Gen) |
Tensor Cores / GPU | 272 (3rd Gen) | 304 (4th Gen) | 320 (4th Gen) | 336 (5th Gen) |
RT Cores | 80 (2nd Gen) | 76 (3rd Gen) | 80 (3rd Gen) | 84 (4th Gen) |
GPU Boost Clock (MHz) | 1710 | 2505 | 2550 | 2617 |
Peak FP32 TFLOPS (non-Tensor) | 34.1 | 48.7 | 52.2 | 56.3 |
Peak FP16 TFLOPS (non-Tensor) | 34.1 | 48.7 | 52.2 | 56.3 |
Peak BF16 TFLOPS (non-Tensor) | 34.1 | 48.7 | 52.2 | 56.3 |
Peak INT32 TOPS (non-Tensor) | 17 | 24.4 | 26.1 | 56.3 |
RT TFLOPS | 58.1 | 112.7 | 160 | 170.6 |
Peak FP4 Tensor TFLOPS with FP32 Accumulate (FP4 AI TOPS) | N/A | N/A | N/A | 900.4/1801² |
Peak FP8 Tensor TFLOPS with FP16 Accumulate | N/A | 389.9/779.8² | 418.0/836.0² | 450.2/900.4² |
Peak FP8 Tensor TFLOPS with FP32 Accumulate | N/A | 194.9/389.8² | 209.0/418.0² | 225.1/450.2² |
Peak FP16 Tensor TFLOPS with FP16 Accumulate | 119.1/238.2² | 194.9/389.8² | 209.0/418.0² | 225.1/450.2² |
Peak FP16 Tensor TFLOPS with FP32 Accumulate | 59.5/119² | 97.5/195² | 104.5/209.0² | 112.6/225.1² |
Peak BF16 Tensor TFLOPS with FP32 Accumulate | 59.5/119² | 97.5/195² | 104.5/209.0² | 112.6/225.1² |
Peak TF32 Tensor TFLOPS | 29.8/59.6² | 48.7/97.4² | 52.3/104.5² | 56.3/112.6² |
Peak INT8 Tensor TOPS | 238.1/476.2² | 389.9/779.82² | 418.0/836.0² | 450.2/900.4² |
Frame Buffer Memory Size and Type | 10 GB GDDR6X | 16 GB GDDR6X | 16 GB GDDR6X | 16 GB GDDR7 |
Memory Interface | 320-bit | 256-bit | 256-bit | 256-bit |
Memory Clock (Data Rate) | 19 Gbps | 22.4 Gbps | 23 Gbps | 30 Gbps |
Memory Bandwidth | 760 GB/sec | 716.8 GB/sec | 736.3 GB/sec | 960 GB/sec |
ROPs | 96 | 112 | 112 | 112 |
Pixel Fill-rate (Gigapixels/sec) | 164.2 | 280.6 | 285.6 | 293.1 |
Texture Units | 272 | 304 | 320 | 336 |
Texel Fill-rate (Gigatexels/sec) | 465.12 | 761.5 | 816.0 | 879.3 |
L1 Data Cache/Shared Memory | 8704 KB | 9728 KB | 10240 KB | 10752 KB |
L2 Cache Size | 5120 KB | 65536 KB | 65536 KB | 65536 KB |
Register File Size | 17408 KB | 19456 KB | 20480 KB | 21504 KB |
Video Engines | 1 x NVENC (7th Gen) 1 x NVDEC (5th Gen) | 2 x NVENC (8th Gen) 1 x NVDEC (5th Gen) | 2 x NVENC (8th Gen) 1 x NVDEC (5th Gen) | 2 x NVENC (9th Gen) 2 x NVDEC (6th Gen) |
TGP (Total Graphics Power) | 320 W | 320 W | 320 W | 360 W |
Transistor Count | 28.3 Billion | 45.9 Billion | 45.9 Billion | 45.6 Billion |
Die Size | 628.4 mm² | 378.6 mm² | 378.6 mm² | 378 mm² |
Manufacturing Process | Samsung 8nm Custom Process | TSMC 4nm 4N NVIDIA Custom Process | TSMC 4nm 4N NVIDIA Custom Process | TSMC 4nm 4N NVIDIA Custom Process |
PCI Express Interface | Gen 4 | Gen 4 | Gen 4 | Gen 5 |
◾Peak rates are based on GPU Boost Clock
◾Effective TOPS / TFLOPS using the Sparsity Feature