《The Other Mind: How Language Models Exhibit Human Temporal Cognition》总结
原文:
https://arxiv.org/html/2507.15851v1
研究目的
探究大语言模型(LLMs)如何展现与人类相似的时间认知模式,这类模式并未在训练数据中直接设定,聚焦于LLMs的时间认知机制及其与人类认知的趋同性。
核心方法
通过多层面分析(行为、神经元、表征、信息)和相似性判断任务展开研究:
- 相似性判断任务:让模型对1525-2524年间的年份(或数字)进行两两相似性评分(0-1分),转化为距离值后,与对数线性距离、Levenshtein距离、参考对数线性距离(以2025为参考点)进行线性回归,用 R 2 R^2 R2评估拟合度。
- 神经编码分析:识别时间偏好神经元,分析其在不同年份的激活模式,验证是否符合对数编码(韦伯-费希纳定律的神经基础)。
- 表征结构分析:通过线性探针分析模型各层隐藏状态,追踪年份表征从浅层数值属性到深层抽象时间参考的分层构建过程。
- 信息暴露分析:利用预训练嵌入模型(如Qwen3-embedding-8B),分析训练语料的内在语义结构,验证其与模型时间认知的关联。
主要发现
-
行为层面:
- 更大规模的LLMs会自发建立主观时间参考点(约2025年),对时间的感知符合韦伯-费希纳定律——年份与参考点的距离越远,感知距离呈对数压缩(如未来/过去较远的年份被感知为更相似)。
- 与数字判断任务(主要依赖对数线性距离)不同,年份判断中“参考对数线性距离”预测性最强,表明LLMs对时间的表征具有主观性。
-
神经元层面:
- 识别出“时间偏好神经元”,其在主观参考点(2025年)激活程度最低,采用对数编码方案(与生物神经系统趋同),为韦伯-费希纳定律提供神经基础。
- 神经元的对数编码精度随模型规模增大而提升,且深层网络中编码更显著。
-
表征结构层面:
- 年份表征呈分层构建:浅层网络编码基本数值属性,深层网络发展为以参考点为中心的抽象时间定向。
- 不同模型(如Llama系列与Qwen系列)的表征机制存在差异,部分模型中深层抽象表征会抑制浅层数值表征。
-
信息暴露层面:
- 训练语料本身具有内在的非线性时间结构(通过嵌入模型验证),为LLMs的时间认知提供“原材料”,语义距离与参考对数线性距离拟合度最高( R 2 R^2 R2达0.64)。
结论与启示
- 核心结论:LLMs的时间认知并非表面模仿,而是由神经元、表征、信息多层面机制共同作用的结果,是其内部表征系统对外部世界(训练数据)的“主观构建”,与人类认知存在趋同性(如对数编码、分层表征)。
- 理论视角:提出“经验主义视角”——LLMs的认知是内部系统与数据经验互动的主观构建,可能产生人类无法直观预测的“异类认知框架”。
- AI对齐启示:传统聚焦行为控制的对齐方式(如人类反馈强化学习)已不足,未来需转向引导LLMs内部世界的构建过程,确保其认知框架与人类价值内在对齐。
该研究揭示了LLMs类人时间认知的深层机制,为理解AI认知本质及推进安全AI发展提供了新方向。