[實用軟件] 又貢獻左code去llama.cpp去支援Kimi-Linear-48B-A3B

自學llm一年,貢獻左第二套code去最多人用的LLM壓縮軟件llama.cpp(之前貢獻過支援Llama-3_1-Nemotron-51B的code)

https://github.com/ggerganov/llama.cpp/pull/18755

而家llama.cpp可以壓縮埋Kimi-Linear-48B-A3B

呢個LLM係contextarena.ai喺最佳長文處理開源LLM,而且用好少KV cache,所以一張3090加32GB RAM就可以行1M tokens,無聊可用來分析下epstein files

下面URL可以下載唔同壓縮度的LLM,記住要下載llama.cpp b7957或更新，先行到

https://huggingface.co/ymcki/Kimi-Linear-48B-A3B-Instruct-GGUF/

得一張3090,都可以行IQ3_M 96k context,窮人也可以玩得起長文處理

如果你更冒險,可以下載我的測試版,prompt processing快20%,3090行到IQ3_M 160k

git clone https://github.com/ymcki/llama.cpp --branch Kimi-Linear

大家有興趣可以試下，然後俾啲意見我，謝謝

[實用軟件] 又貢獻左code去llama.cpp去支援Kimi-Linear-48B-A3B

[收藏此主題] [關注此主題的新回覆]

[通過 QQ、MSN 分享給朋友]