没有合适的资源?快使用搜索试试~ 我知道了~
### 【人工智能与物理学】基于MASS模型的AI科学家在物理系统中的理论一致性研究
0 下载量 171 浏览量
2025-04-08
20:56:56
上传
评论
收藏 594KB DOCX 举报
温馨提示
内容概要:本文探讨了两位AI科学家是否能在同一科学任务上达成一致。研究提出了MASS(作为AI科学家的哈密顿-拉格朗日神经网络),通过训练多个AI科学家在经典力学问题上学习不同理论,并通过实验验证了AI科学家在不同物理系统上学习理论的一致性和多样性。研究表明,AI科学家倾向于学习相似的理论,尤其是在复杂系统上,拉格朗日描述表现出了更好的泛化能力。此外,研究还展示了MASS在高维物理问题上的适用性,如混沌双摆和多体引力问题。 适合人群:对机器学习、物理学和AI科学家感兴趣的科研人员,尤其是从事物理系统建模和机器学习算法设计的研究者。 使用场景及目标:①理解AI科学家在不同物理系统上学习理论的一致性和多样性;②探索AI科学家在复杂物理问题上的表现,如拉格朗日描述的优越性;③评估MASS在高维物理问题上的适用性和准确性。 其他说明:本文不仅展示了AI科学家在学习物理理论方面的潜力,还强调了拉格朗日描述在复杂物理系统中的优势。研究结果为进一步构建更具可解释性和能力的AI科学家奠定了基础。未来工作可以扩展到更高维度问题、不同坐标系下的实验,以及探索不同的损失函数和模型架构。
资源推荐
资源详情
资源评论






























两位AI科学家是否达成一致?
Xinghong Fu,* Ziming Liu, 和 Max
Tegmark麻省理工学院物理系,人工智能与基本相互作用研究所,美国剑桥
(日期:2025年4月4日)
摘要
当两个AI模型在同一科学任务上进行训练时,它们是学习了相同的理论还是两种不同的理
论?在科学史中,我们见证了由实验验证或证伪驱动的理论兴衰:当实验数据缺乏时,许
多理论可能共存,但随着更多实验数据的出现,幸存理论的空间变得更加受限。我们展示
了同样的故事也适用于AI科学家。随着训练数据中提供的系统数量不断增加,AI科学家倾
向于在其学习的理论中趋于一致,尽管有时它们会形成对应于不同理论的独立群体。为了
机制性地解释AI科学家学习的理论并量化它们的一致性,我们提出了MASS(作为AI科学
家的哈密顿-
拉格朗日神经网络),这些网络在物理学的标准问题上进行训练,并通过多个种子模拟AI
科学家的不同配置来汇总训练结果。我们的主要发现包括:1)当在经典力学教科书问题
上进行训练时,AI科学家更倾向于完全的哈密顿描述或拉格朗日描述;2)当扩展到非标
准物理问题时,拉格朗日描述具有泛化性,表明拉格朗日动力学仍然是丰富理论空间中唯
一准确的描述家族。我们还观察到训练动态和最终学习权重对种子的强烈依赖性,这种依
赖性控制了相关理论的兴衰。除了可解释性外,MASS统一并超越了拉格朗日神经网络和
哈密顿神经网络,为动力系统的学习提供了一种新工具。我们将在https://github.com/shi
nfxh/ai-scientists发布代码。
I. 引言
纵观人类历史,我们集体的好奇心推动了科学的进步。从阿基米德的浮力原理,到伽利略
对运动的系统研究,再到牛顿的经典力学公式化,最后到爱因斯坦革命性的相对论理论,
这些伟人精心分析观察和实验,发展出能够解释已知现象并预测新现象的强大假设。几个
世纪以来,随着技术的进步,我们也提高了精炼实验、用日益精确的数据集测试理论以及
相应更新框架的能力。一些假设最终被淘汰,而另一些则演变成更精细的理论,能够在以
前未探索的尺度上描述现象[1]。
今天,在二十一世纪,我们正在见证一种新范式的出现。机器学习(ML)和数据驱动方
法已经在粒子物理学[2]、天文学[3]、材料科学[4]和量子化学[5]等不同领域开始取代传统
的统计工具。一个自然的下一步是设想一个未来,在这个未来中,ML方法从单纯的辅助
工具转变为成为“AI科学家”,具备提出假设、设计实验和在最少人为干预的情况下解释结
果的能力。开创性的努力已经产生了端到端的AI平台,可以发现物理定律[6,
7],以及从蛋白质序列中发现分子结构[8]。最近架构的改进[9],具有吸收和处理大量数
据的能力,推动了大型语言模型的发展[10-
15]。这些LLMs已经开始成为全自动AI研究科学家的核心[16]。

随着这些AI科学家开始自主运行,值得问的是:它们将提出什么科学理论?历史表明,不
同的研究人员,如牛顿和莱布尼茨,可以到达同一现象的互补但不同的表述形式(例如微
积分)。类似地,现代ML系统在架构、初始化方案和训练范式上有所不同[17],这导致
了独立训练的AI科学家可能会收敛到不同的理论表述或互补的观点的可能性。此外,随着
AI科学家涉足更大和更复杂的数据库——从高维宇宙学调查到复杂的分子动力学模拟——
它们学习的表示和理论可能会以意想不到的方式演变[18]。
本文并不试图精确预测AI在未来几十年将如何改变科学。相反,我们提供了一系列受控实
验,以调查在不同条件下训练的多个AI科学家在科学理论上的收敛或分歧情况。通过探索
合成数据集,我们希望阐明数据复杂性、模型架构选择和训练方法选择如何不仅影响这些
AI系统学到的内容,而且影响其内部表示和生成理论的随时间发展[19]。
通过这样做,我们希望为将塑造未来关于AI在科学中的角色的讨论提供一个窗口:AI科学
家是否会统一不同的理论,还是会分裂成多个同样有效的观点?他们的理论是否能被人类
理解,还是可解释性将成为更大的挑战?本文提出的实验框架和初步结果为这些讨论提供
了起点,突显了新兴AI科学家的潜力及其潜在缺陷。
以下是本文的贡献:
1. 我们提出了一种新的架构,MASS(Multiple AI Scalar
Scientists),允许单一神经网络在多个物理系统中学习多样化的理论。
2. 我们在包含简单摆、开普勒问题和合成势的数据集上训练MASS。
3. 我们分析MASS中的显著激活,并提炼MASS学习到的理论。
使用MASS作为AI科学家的代理,我们的发现表明:
1. 一位AI科学家可以学习对同一物理现象的多种不同解释。
2. 遇到更复杂的系统时,成功的AI科学家会修改其现有理论以适应新的观察。
3. AI科学家倾向于学习相似的理论,评估依据是网络内部激活的相似性。这些理论也
与哈密顿或拉格朗日描述非常接近。
4. 回收的理论最初类似于哈密顿动力学,然后随着系统复杂性的增加逐渐接近拉格朗
日表述。这表明即使在丰富的理论空间内,拉格朗日表述仍然是唯一的正确理论。
II. 相关工作
科学家的目标是从观察中恢复方程。AI科学家也是如此。给定某物理系统的数据集,我们
的目标是揭示底层的物理方程所代表的“真相”。解决这个问题的努力结合了离散方法(如
组合优化,利用遗传编程的方法[20])和连续方法(围绕符号回归展开[6])。底层假设是
最终表达式中的项数较少,这启发了稀疏线性回归的方法[21]。引入了物理先验条件[22]
以提高符号回归技术在发现已知物理方程方面的能力。在本文中,我们提出了一种方法,
通过最小物理先验条件,利用作用量平稳原理,学习单个标量函数来发现底层物理定律。
这两个特性由哈密顿神经网络(HNN)[23]和拉格朗日神经网络(LNN)[24]共享。

受经典力学哈密顿表述的启发,HNN将学习物理系统运动方程的任务分解为首先学习一
个标量函数——哈密顿量
H
,然后使用哈密顿正则方程获取
(
q
,
p
)
:
q
=
∂
H
∂
p
,
p
=
−
∂
H
∂
q
其中
q
,
p
分别是正则位置和动量。然而,在某些情况下,写出这些正则坐标的表达式并不容易。L
NN解决了这个问题,通过学习拉格朗日量而不是哈密顿量,并根据欧拉-
拉格朗日方程取导数:
d
d
t
∂
L
∂
q
−
∂
L
∂
q
=
0
这避免了需要明确表达正则动量的需求,使LNN在某些物理系统中具有优势。
自从这些工作的引入以来,已有重大进展提升了训练效率[25,
26],并将这些网络应用于刚体动力学[27]、粒子相互作用[28]、视频预测[29]和生成建模[
30]等领域的问题。然而,在这些工作中,底层运动方程(方程1和2)被嵌入到模型架构
中,模型因此学习由该方程支配的相应理论。相反,我们提出以下问题:当模型被赋予学
习多种理论的自由时,它会学习什么?
在本工作中,我们提出的模型Multiple AI Scalar Scientists
(MASS)是一个通用框架,包含了LNN和HNN作为特殊情况。MASS同样受到作用量平稳
原理的启发。像LNNs和HNNs一样,我们的目标是从数据中学习一个自由形式的标量函
数。然而,与LNN和HNN不同的是,它们有硬编码的运动方程,而我们为MASS配备了
学习运动方程的能力。对于由广义坐标
q
和速度
q
描述的物理系统,可以学习一个标量函数(类似于拉格朗日量或哈密顿量),该函数支配
系统的演化,使得路径遵循作用量平稳原理。
MASS的架构设计使其能够学习由MASS学习的每个项系数定义的丰富理论空间。与[24]
类似,我们的实验是在广义坐标下进行的。通过一系列对这些坐标下的MASS科学家集合
的受控实验,我们将探究所学习的基础理论。
III. MASS: AI科学家
为了模仿人类科学家的操作方式,MASS背后的核心思想是在单一神经网络中嵌入从多个
物理系统中学习和统一信息的能力。与其为每个系统单独拟合模型,MASS旨在内化一个
捕捉所有数据集中基本模式的共享框架。具体来说,它是通过学习一个标量函数——
类似于拉格朗日量或哈密顿量——
其导数编码系统特定的动力学来实现这一点的。如图2所示,MASS采用以下工作流程:
1. 数据摄取:MASS接收来自各种物理系统(如摆、轨道问题或其他合成势)的观测
数据(例如轨迹、状态或能量值)。

2. 假设形成:每个系统都有一个独立的神经网络学习一个单一的标量函数,该函数封
装了系统特定的动力学。
3. 理论评估:一个在所有系统中共享的最终层对标量函数相对于系统坐标(位置、动
量和/或速度)进行求导,MASS推断出系统的控制方程。这强制执行跨越多个系
统的总体理论一致性。
4. 精炼与泛化:模型的输出(在这种情况下是输入的时间导数)随后与真实训练数据
进行比较以计算误差。误差在所有系统中求和,然后通过反向传播优化一个同时与
多物理观测一致的单一理论。
通过迭代这些步骤,MASS力求为每个系统发现一个单一的标量函数,并形成一个跨系统
的共享最终层以形成一个广义理论。一起,标量函数和最终层中的权重(即MASS如何取
导数)构成了它学习的理论。
IV. 方法
我们用
M
表示一个单一的MASS科学家网络。
M
从
n
个不同的物理系统中学习。一些系统的例子包括弹簧质量系统、引力系统和量子力学系统
等。每个系统都遵守某种底层物理定律,无论是引力吸引的平方反比定律,还是薛定谔方
程。为简单起见,并作为一个概念验证,我们将系统限制在经典力学以下。
数据摄取:系统
j
输入
M
的变量是
d
维的广义坐标,表示为
x
j
,
y
j
∈
R
d
,其中
x
j
和
y
j
分别是广义坐标及其时间导数。对于一个简单的摆,我们可以将
(
x
j
,
y
j
)
:
=
(
θ
,
θ
)
表示为一维问题,或者用
x
j
:
=
(
x
,
y
)
和
y
j
:
=
(
x
,
y
)
表示二维笛卡尔坐标中的问题。
假设形成:此模块由
n
个独立的神经网络组成,每个网络为系统
j
学习一个独立的势能函数
S
j
。我们将这一前向传递记为
S
j
=
f
j
(
x
j
,
y
j
)
在本文中,我们专注于MLP,这对于学习
S
已经足够。
理论评估:共享导数层计算
S
j
相对于输入变量
x
j
,
y
j
的导数,直至二阶导数。注意,给定
d
维输入,即
x
j
,
y
j
∈
R
d
,单变量导数
S
x
,
S
y
∈
R
d
为列向量,而二阶导数(及其逆)为海森矩阵,即
S
x
x
,
S
y
y
,
S
x
y
,
S
−
1
x
x
,
S
−
1
y
y
,
S
−
1
x
y
∈
R
d
×
d
。为了允许网络学习一组多样化的理论,我们计算至多三个项乘积的所有项,使得最终结
果是一个
R
d
向量,预测时间导数
x
j
,
y
j
∈
R
d
。特别地,令
R
d
向量集为
V
=
{
x
,
y
,
S
x
,
S
y
}
,
R
d
×
d
矩阵集为
A
=
S
x
x
,
S
y
y
,
S
x
y
,
S
−
1
x
x
,
S
−
1
y
y
,
S
−
1
x
y
。有三种类型的项可以潜在地预测
x
j
,
y
j
:
1.
v
∈
V
2.
A
v
其中
A
∈
A
且
v
∈
V
3.
A
1
A
2
v
其中
A
1
,
A
2
∈
A
且
v
∈
V
在我们的实现中,总共有
T
=
172
种不同类型的项,我们显式计算它们为

t
j
=
D
(
f
j
(
x
j
,
y
j
)
)
其中
D
是导数层,
t
∈
R
T
×
d
给出了可能进入最终方程的项。
在最后一层,网络学习这些
R
d
向量的线性组合以预测输入的时间导数。注意,由于我们使用广义位置和动量,
x
=
y
几乎不变(最多相差一个常数因子)。本文其余部分聚焦于调查预测
y
的最终层的激活集。我们将此最终层记为
L
f
,
y
的输出预测将由
y
j
=
L
f
(
t
j
)
=
L
f
(
D
(
f
j
(
x
j
,
y
j
)
)
)
精细化与泛化:对于特定系统
j
,我们预测
y
j
并计算与真实数据的均方误差损失。然后我们将所有系统上的损失求和,并对累积梯度进
行反向传播。经过收敛后,模型发展出一套在多个物理系统中一致的理论。优化目标写为
min
θ
n
j
=
1
E
(
X
,
V
)
∥
Y
j
−
Y
†
j
∥
2
2
其中
Y
j
∈
R
N
×
d
是系统
j
中
N
个样本的拼接,期望是对每个系统独立抽取的样本
X
,
Y
进行的。
我们发现参数化
M
的
θ
优化高度不稳定(如[24]中观察到的那样),这是由于矩阵
A
中导数和逆的计算所致。实验程序和超参数设置在附录 A
中更详细说明,但一些关键设计选择有助于实现稳定训练:
� 使用带正则化稳定项的伪逆计算。不计算
inv
(
S
x
x
)
,而是计算
pinv
(
S
x
x
+
b
)
,其中
b
被惩罚为训练中的正则化项。
� AdamW [31] 优化器与余弦学习率调度 [32] 和温暖重启。
� 扩展输入以包括
x
,
y
的二阶项。
V. 实验
A. 单个科学家:相关理论
“或许,为了描述宇宙,我们必须在不同情况下运用不同的理论。每个理论可能有自己的
现实版本,但根据模型依赖的现实主义,只要理论在重叠时预测一致,即两者都能适用时
,这是可以接受的。”
剩余32页未读,继续阅读
资源评论


Paper易论
- 粉丝: 5347
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 10kV氧化锌避雷器技术规范.doc
- 海氏评估系统因素表及说明.doc
- 知名房地产工程现场精细化管理讲义(附案例).pdf
- 白云国际会议中心花城厅(原一层多功能厅)维护保养、1号楼东座三楼客房改造项目招标文件(第一标段).docx
- 3d3s吊车梁设计流程.doc
- 微信小程序开发资源汇总 .zip
- 微信小程序-公众号热门文章信息流.zip
- 淘宝客项目,支持App,微信小程序,QQ小程序.zip
- 国家电网公司优秀QC成果1764页-1953页.docx
- 酒店类微信小程序模板.zip
- 软弱土地基处理—教学讲稿.ppt
- 安全文明施工监理细则.doc
- 对工程总承包相关问题的认识.doc
- 患者外跑应急演练脚本.doc
- 桥深基坑土钉墙支护施工方案.doc
- 11G101系平法新规则交底广联达实训课程.ppt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
