LLM 中MLP 的长度和词嵌入向量维度一般关系
目录
4 c
在Qwen2等现代LLM的MLP模块中,gate_proj
和 up_proj
的 out_features=18944
与 in_features=3584
不能整除(18944 ÷ 3584 ≈ 5.2857),这看似“不规整”,但本质是**模型设计中“实验驱动优化”优先于“数学规整性”**的结果。
1. 传统设计与现代设计的区别:从“规则倍数”到“灵活适配”
早期Transformer(如BERT、GPT-2)的MLP中间维度通常是 hidden_size
的整数倍(最常见为4倍),例如:
- BERT-base:
hidden_size=768
,MLP中间维度=3072(768×4); - GPT-2(1.5B):
hidden_size=1600
,MLP中间维度=6400(1600×4)。
这种设计的初衷是简化工程实现(整数倍便于并行计算)和经验性选