Llama 2 模型

本文详细解读了Llama2模型,强调了其与标准TransformerDecoder的区别,包括RMSNorm与RoPE的使用,以及为何不直接缓存Q。特别提到GQA的引入以改善内存效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

非常清楚!!!Llama 2详解 - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/649756898?utm_campaign=shareopn&utm_medium=social&utm_psn=1754103877518098432&utm_source=wechat_session一些补充理解:

序列化:将文本进行Tokenization,将其切分成单词或字符,形成Token序列。之后将文本序列转换为索引序列(语料库中的index)    ----    sentencepiece (开源的文本Tokenzier工具)

input_tensor:[batch_size,seq_len,hidden_dim]  

batch_size:批量大小,每次处理的样本数

seq_len:句子的长度

hidden_dim:每个word映射的embedding长度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值