電腦領域 HKEPC Hardware - Powered by Discuz! Board

標題: [測試] 原來跑本地35B LLM大模型跟本不需顯卡速度達20t/s [打印本頁]

作者: wiz123 時間: 2026-5-11 11:09 標題: 原來跑本地35B LLM大模型跟本不需顯卡速度達20t/s

本帖最後由 wiz123 於 2026-5-11 11:11 編輯

原來跑本地35B LLM也跟本不需顯卡，方法是用MOE MODEL，速度達20t/s，即時對話, 養龍蝦都夠用，最重要是文本長度，用DDR5 RAM，要講幾耐都得，不用忘記一開始講乜

load_backend: loaded CPU backend from /app/libggml-cpu-alderlake.so
| model                         |    size |    params | backend | threads |          test |                t/s |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | --------------: | -------------------: |
| qwen35moe 35B.A3B IQ4_XS - 4.25 bpw |  17.63 GiB | 34.66 B | CPU       |    8 |          pp512 |       107.09 ± 0.38 |
| qwen35moe 35B.A3B IQ4_XS - 4.25 bpw |  17.63 GiB | 34.66 B | CPU       |    8 |          tg128 |       20.38 ± 0.13 |

load_backend: loaded CPU backend from /app/libggml-cpu-alderlake.so
| model                         |    size |    params | backend | threads |          test |                t/s |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | --------------: | -------------------: |
| qwen35moe 35B.A3B Q6_K       |  26.55 GiB | 34.66 B | CPU       |    8 |          pp512 |       120.33 ± 4.32 |
| qwen35moe 35B.A3B Q6_K       |  26.55 GiB | 34.66 B | CPU       |    8 |          tg128 |       17.45 ± 0.42 |

ggml_cuda_init: found 2 CUDA devices (Total VRAM: 56237 MiB):
  Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes, VRAM: 32110 MiB
  Device 1: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes, VRAM: 24126 MiB
load_backend: loaded CUDA backend from /app/libggml-cuda.so
load_backend: loaded CPU backend from /app/libggml-cpu-alderlake.so
| model                         |    size |    params | backend | ngl | threads |          test |                t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | --------------: | -------------------: |
| qwen35moe 35B.A3B IQ4_XS - 4.25 bpw |  17.63 GiB | 34.66 B | CUDA    |  99 |    24 |          pp512 |    6033.68 ± 67.15 |
| qwen35moe 35B.A3B IQ4_XS - 4.25 bpw |  17.63 GiB | 34.66 B | CUDA    |  99 |    24 |          tg128 |       203.47 ± 0.73 |

作者: kmb1933 時間: 2026-5-21 20:22

唔想打擊你你貼出黎誤導人都講下數據好呢種prefill 同tok/s 你諗住同佢鬥長命? 如果你手上太多RAM用唔哂可以賣出去換Claude 玩

作者: wiz123 時間: 2026-5-21 22:45

唔想打擊你你貼出黎誤導人都講下數據好呢種prefill 同tok/s 你諗住同佢鬥長命? 如果你手上太多RAM用唔哂 ...
kmb1933 發表於 2026-5-21 20:22

呢幾日出左MTP版，tok/s可以再快多一倍，人類閱讀都係10tok/s左右，快過10tok/s已經可以同AI即時對答沒有問題足夠流暢，如果係用AI黎寫CODE咁一定係越快越好

作者: mlyu 時間: 2026-5-22 06:19

真係裝龍蝦試下先啦, 我驚一行就 loop 死咗

作者: verynothing 時間: 2026-5-22 16:39

而家D ai 會即時搵料再核對,

唔知本地ai 做唔做到

作者: latali 時間: 2026-5-23 06:26

而家D ai 會即時搵料再核對,

唔知本地ai 做唔做到
verynothing 發表於 2026-5-22 08:39

有架，可以加web search 功能