建模杂谈系列67 关于模型的本质:应用和局限

本文探讨了模型的本质,强调其作为人类认知模拟的作用,区分了时间与空间模型,并揭示了模型的局限性,指出优化方法的重要性。核心在于决策支持而非绝对预测,同时讨论了自扰与互扰的概念以及模型在可测与不可测领域的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说明

背景大概是这样一个过程:

  • 1 专注搞模型/算法比较长时间
  • 2 发现模型/算法需要开发特定的架构进行配合,于是又专注搞了一段时间架构(IL , Integrated Logic)
  • 3 架构基本通了,回过头准备搞更大/深的模型和算法

忽然间对建模这事又有点迷茫,所以稍微梳理一下。

内容

1 模型的本质

所有模型都是错的,但是有一些模型有用。

模型的概念其实比算法要大,是一套组合拳。这套组合拳模拟了人对于信息的获取、处理、提炼抽象规则、应用抽象规则和修改的一个过程。简单来说,模型是模拟人类认知的过程

作为一个个体,我们的认知经常会有偏差,但是在某些情况下是有效的。一个更广义的模型则是找到一种更抽象的规则,具有更好的适用性;或者是为多种场景找到合适的模型(多)。

但无论如何,我们要承认一个现实:

  • 1 处处可适用的模型,效果一般比较弱
  • 2 准确的模型,不是每个时刻都能用(择机)

2 模型的类别

天地四方谓之宇,古往今来谓之宙。

模型也就分为时间和空间两种。按技术类别来分就会显得有点杂(经典统计、深度学习和概率图),其实每种类型的模型都是分为时间和空间两大类型的,因此倒过来其实更简洁。

2.1 时间模型

时间模型是指从时间维度上体现的特征,简单的可以用滑动平均预测来理解。当然事实上时间维度上的特征提取和预测比空间上难很多。或者说是人类不是天生的时间动物。

2.2 空间模型

空间模型则是从空间维度上找特征。最经典的其实是图像识别,人类为了在大自然生存下来,天生就在图像识别方法有特别的优化。相比之下,类似逻辑回归这样的表格模型,其实还更难一些,因为列之间的顺序不存在约束。

2.3 站在某个时间上预测

我们通常会选择一个时间点,归纳那个时间点可以获得的数据,提取信息,然后做出决策。所以模型最终的目的是帮助人类做出决策,而不是仅仅预测个猫或者狗。一般谈到的模型都是比较狭义的,不含决策部分。

3 万物相连

在天成象,在地成形。

古人最极端的联想是把天上的星象和地上发生的一些事联系起来,比如大旱大涝这些。虽然从今天的自然科学看这个有点牵强,但是某种程度上是对的。

3.1 自扰

当前所处的位置一定会对下一时刻的位置有很大的约束,这就是自扰。还可以理解类似惯性这样的物理现象,自扰可以理解为时间序列上的一个相关性问题。

3.2 互扰

互扰指两个不同维度上的变量的相互影响,例如我们经常看的相关矩阵。主要研究不同变量在一起的作用,经常用的有协方差矩阵这样的工具。

4 不可测与可测

本质上我们是无法进行准确预测的,只不过有一些预测有用

我们的一些物理常量都是会变动的,这点三体就很有想象力,我觉得我们之所以觉得可测大体上是我们处在某个「恒纪元」。

不可测的一个典型例子是股票价格。有非常多因素都可能影响股价,例如概念、汇率、舆论等等。所以次日股价可以看成一个随机过程,我们是无法准确预测的。所以按照这个假设,至少说明模型肯定不是在100%的时间生效的。

我们不能准确预测价格,但有可能准确预测分布

如果完全是uniform随机的,那就真的没啥可玩的,但通常来说,会有一些足够强大的条件(condition)能够让我们预测当前的分布特征。例如我们能预测当前处于均值为10, 方差为5的正态分布,这个是相对准确的;但是我们无法预测下一个值究竟是11还是12(不可测)。

5 优化

我们只能确保对的方向,而不能确保对的模型

能确保找到一个对的方向已经不容易,确保模型是对的这件事情人类几乎无能为力。主要是由于有太大的参数空间,调整也非常频繁,人力无法覆盖。

所以:找到正确的方向,其余的留给计算机

6 总结

  • 1 模型是人类抽象思维的模拟,最终是为了决策
  • 2 模型的使用是有很大局限性的,不要期待一个模型总是有用
  • 3 人类找到模型的正确方法,探索和调优则由优化方法完成
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值