RWKV入门

弱冠少年

已于 2024-04-19 12:17:31 修改

阅读量996

点赞数 8

CC 4.0 BY-SA版权

分类专栏： AIGC 文章标签：人工智能

于 2024-01-14 00:05:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40773212/article/details/135575538

AIGC 专栏收录该内容

12 篇文章

订阅专栏

主要参考资料
B站视频《【项目原作解读】RWKV Foundation侯皓文：新型RNN模型RWKV，结合Transformer的并行化训练优势和RNN的高效推理》
RWKV官网: https://www.rwkv.com/
RWKV-6 3B（2.5T Tokens）模型于4月18日开源: https://mp.weixin.qq.com/s/DeSTQFRq2DGgF7Kj9XsQPA

目录

前言
RWKV由来
模型架构
关键结果
劣势
未来展望

前言

RNN无法并行化，Transformer的二次复杂度，RWKV的改善。
请添加图片描述

RWKV由来

RNN的局限是无法进行并行化训练，相较Transformer处于劣势。
请添加图片描述

继《Attention is all you need》横空出世后，针对Transformer的二次Attention，苹果提出AFT的线性Attention，RWKV受苹果启发，提出时间衰减向量的概念。
请添加图片描述

模型架构

一个Embeding Input进入RWKV，首先会进入Time-mixing模块，会跟之前的文本信息进行一次融合。之后是channel-mixing模块，会对每个词的channel进行混合和非线性，增强非线性能力。
在这里插入图片描述

关键结果

在LAMBADA测试集中，RWKV的劣势在参数量小的时候，与Transformer有一定的差距，因为Transformer可以将过去的数据集都拉出来重算一遍。
但是在7B时RWKV已经接近Tranformer，14B时已经不相上下。因此从模型角度RWKV更有优势。
PS：但是GPT-3已经是175B的数据量了。。。
GPT：无所谓，我有钱
在这里插入图片描述

再次重申，RWKV的优越性，时间复杂度更低。
在这里插入图片描述

数据量7B的RWKV至少需要CPU内存12GB 或者显卡显存9GB。。。
在这里插入图片描述

劣势

RNN的特性，让RWKV在对前文的记忆很差，因此需要精心设计prompt。
在这里插入图片描述

未来展望

（1）RWKV可以进一步提高效率（遗忘是不是更严重？）
（2）增加多模态，现在只是decoder
在这里插入图片描述

博客等级

码龄8年

120
原创

958
点赞

1189
收藏

547
粉丝

关注

私信

热门文章

分类专栏

Pyhton 12篇
嵌入式软件 57篇
嵌入式硬件 19篇
sql 1篇
go 1篇
后端 1篇
git 1篇
Linux 4篇
踩坑 1篇
编程哲学 4篇
云原生 1篇
AIGC 12篇
专利 1篇
JavaScript 1篇
工业设计 1篇
开源 1篇

展开全部收起

上一篇：: 国内外十大语言模型横向对比测评（截至2023.12.8）

下一篇：: 错误处理（基于ESP-IDF）

最新评论

logger入门（基于Python3）
北风之神c: 总结的很全面的日志使用，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
ubuntu入门
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
esp32-camera入门（基于ESP-IDF）
smartandcat: 这几个函数应该是适用于esp32支持的摄像头吧，不支持的好像用不了
esp32-camera入门（基于ESP-IDF）
弱冠少年: 有例程，可以简单的显示
Python3语法入门（个人学习笔记）
CSDN-Ada助手: 那些刻骨铭心的日子，总会在未来的某一天闪闪发光。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。