Llama 2 模型

原创

于 2024-03-22 17:32:14 发布 · 762 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文详细解读了Llama2模型，强调了其与标准TransformerDecoder的区别，包括RMSNorm与RoPE的使用，以及为何不直接缓存Q。特别提到GQA的引入以改善内存效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

非常清楚！！！Llama 2详解 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/649756898?utm_campaign=shareopn&utm_medium=social&utm_psn=1754103877518098432&utm_source=wechat_session一些补充理解：

序列化：将文本进行Tokenization，将其切分成单词或字符，形成Token序列。之后将文本序列转换为索引序列(语料库中的index) ---- sentencepiece （开源的文本Tokenzier工具）

input_tensor:[batch_size,seq_len,hidden_dim]

batch_size：批量大小，每次处理的样本数

seq_len：句子的长度

hidden_dim：每个word映射的embedding长度

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。