大模型基础参数学习
权重
在大型模型(尤其是大语言模型)中,“权重”(Weights)是模型的核心组成部分,决定了模型如何理解和生成信息。
1. 权重是什么?
- 权重是模型内部存储的数值参数,像大脑神经元的连接强度。
- 每个权重代表模型对输入数据中不同特征的"重视程度"。
- 例如,输入词"苹果"时,某些权重会判断它是水果还是手机品牌。
2. 权重的作用
- 特征提取:权重自动学习哪些数据特征重要(如词义、语法、上下文)。
- 信息传递:通过矩阵运算(如
y = Wx + b
),权重将输入转化为有意义的输出。 - 知识存储:模型的所有"知识"都编码在数百亿个权重中(比如GPT-3有1750亿个权重)。
3. 直观理解
- 把权重想象成一个巨大的过滤网:
- 输入数据(文字/图片)经过多层权重过滤,每一步被强化或弱化。
- 最终输出是经过无数权重调整后的结果。
- 例如:看到"猫"这个词后,某些权重会激活"动物"“宠物”"喵叫"等相关概念。
4. 权重的特点
- 不可直接解读:单个权重无意义,但整体形成复杂模式(类似神经元)。
- 动态调整:训练时通过反向传播(Backpropagation)不断更新权重;这个还不知道是什么意思,后面看下
- 规模效应:模型越大(权重越多),学习能力越强(但需要更多数据)。
总结下,更多权重意味着更细粒度的特征捕捉
问题:微调是不是改变在某些特征下的权重