自學llm一年,貢獻左第二套code去最多人用的LLM壓縮軟件llama.cpp(之前貢獻過支援Llama-3_1-Nemotron-51B的code)
https://github.com/ggerganov/llama.cpp/pull/18755
而家llama.cpp可以壓縮埋Kimi-Linear-48B-A3B
呢個LLM係contextarena.ai喺最佳長文處理開源LLM,而且用好少KV cache,所以一張3090加32GB RAM就可以行1M tokens,無聊可用來分析下epstein files
下面URL可以下載唔同壓縮度的LLM,記住要下載llama.cpp b7957或更新,先行到
https://huggingface.co/ymcki/Kimi-Linear-48B-A3B-Instruct-GGUF/
得一張3090,都可以行IQ3_M 96k context,窮人也可以玩得起長文處理
如果你更冒險,可以下載我的測試版,prompt processing快20%,3090行到IQ3_M 160k
git clone https://github.com/ymcki/llama.cpp --branch Kimi-Linear
大家有興趣可以試下,然後俾 啲意見我,謝謝 |