一、基于Ollama运行qwen2.5
参考了这篇文章:https://blog.csdn.net/shishi521/article/details/142104608
补充一些细节
下载qwen2.5的GGUF文件
可以用huggingface的镜像站
https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/tree/main
GGUF有分不同量化的版本,好像有说明可以看适合哪种的,主要看自己显存大小,我找不到哪里可以看,4060的显卡下载了q5_0的还阔以
但是这个qwen2.5-7b的GGUF文件都比较大,所以都有切片,需要使用工具合并成一个GGUF
用下面这个工具
https://github.com/ggerganov/llama.cpp/
右边有个release,可以下载打包好的
win10选择带有vulkan的
llama-b3426-bin-win-vulkan-x64.zip
解压之后,cmd进入到llama-gguf-split.exe所在文件夹
然后我是把被切片的文件放文件夹外面
在llama-b3896-bin-win-vulkan-x64这个文件夹下,
执行cmd命令:
llama-gguf-split.exe --mer