终于将rwkv 3b量化成功,庆祝一下

原来是大佬的github上,少写了一个参数 int4。。。。

自己搞好几天,没搞好。大佬不说,还是不知道。。。。。。。。。。。

上面是大佬转的,估计是fp16

下面是我自己转的,用的fp32

Convert Model
  1. Generate a ChatRWKV weight file by v2/convert_model.py (in ChatRWKV repo) and strategy cuda fp32 or cpu fp32. Note that though we use fp32 here, the real dtype is determined is the following step.

  2. Generate a faster-rwkv weight file by tools/convert_weight.py.

  3. Export ncnn model by ./export_ncnn <input_faster_rwkv_model_path> <output_path_prefix>. You can download pre-built export_ncnn from Releases if you are a Linux users, or build it by yourself.

 要量化的话,最后一步,./export_ncnn <input_faster_rwkv_model_path> <output_path_prefix> 后面加给参数(比如int4,int8等)就行了。

Ubuntu22,亲测成功。效果:

不知道是不是用的fp32的原因,感觉不快啊。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值