说明
背景大概是这样一个过程:
- 1 专注搞模型/算法比较长时间
- 2 发现模型/算法需要开发特定的架构进行配合,于是又专注搞了一段时间架构(IL , Integrated Logic)
- 3 架构基本通了,回过头准备搞更大/深的模型和算法
忽然间对建模这事又有点迷茫,所以稍微梳理一下。
内容
1 模型的本质
所有模型都是错的,但是有一些模型有用。
模型的概念其实比算法要大,是一套组合拳。这套组合拳模拟了人对于信息的获取、处理、提炼抽象规则、应用抽象规则和修改的一个过程。简单来说,模型是模拟人类认知的过程
作为一个个体,我们的认知经常会有偏差,但是在某些情况下是有效的。一个更广义的模型则是找到一种更抽象的规则,具有更好的适用性;或者是为多种场景找到合适的模型(多)。
但无论如何,我们要承认一个现实:
- 1 处处可适用的模型,效果一般比较弱
- 2 准确的模型,不是每个时刻都能用(择机)
2 模型的类别
天地四方谓之宇,古往今来谓之宙。
模型也就分为时间和空间两种。按技术类别来分就会显得有点杂(经典统计、深度学习和概率图),其实每种类型的模型都是分为时间和空间两大类型的,因此倒过来其实更简洁。
2.1 时间模型
时间模型是指从时间维度上体现的特征,简单的可以用滑动平均预测来理解。当然事实上时间维度上的特征提取和预测比空间上难很多。或者说是人类不是天生的时间动物。
2.2 空间模型
空间模型则是从空间维度上找特征。最经典的其实是图像识别,人类为了在大自然生存下来,天生就在图像识别方法有特别的优化。相比之下,类似逻辑回归这样的表格模型,其实还更难一些,因为列之间的顺序不存在约束。
2.3 站在某个时间上预测
我们通常会选择一个时间点,归纳那个时间点可以获得的数据,提取信息,然后做出决策
。所以模型最终的目的是帮助人类做出决策,而不是仅仅预测个猫或者狗。一般谈到的模型都是比较狭义的,不含决策部分。
3 万物相连
在天成象,在地成形。
古人最极端的联想是把天上的星象和地上发生的一些事联系起来,比如大旱大涝这些。虽然从今天的自然科学看这个有点牵强,但是某种程度上是对的。
3.1 自扰
当前所处的位置一定会对下一时刻的位置有很大的约束,这就是自扰。还可以理解类似惯性这样的物理现象,自扰可以理解为时间序列上的一个相关性问题。
3.2 互扰
互扰指两个不同维度上的变量的相互影响,例如我们经常看的相关矩阵。主要研究不同变量在一起的作用,经常用的有协方差矩阵这样的工具。
4 不可测与可测
本质上我们是无法进行准确预测的,只不过有一些预测有用
我们的一些物理常量都是会变动的,这点三体就很有想象力,我觉得我们之所以觉得可测大体上是我们处在某个「恒纪元」。
不可测的一个典型例子是股票价格。有非常多因素都可能影响股价,例如概念、汇率、舆论等等。所以次日股价可以看成一个随机过程,我们是无法准确预测的。所以按照这个假设,至少说明模型肯定不是在100%的时间生效的。
我们不能准确预测价格,但有可能准确预测分布
如果完全是uniform
随机的,那就真的没啥可玩的,但通常来说,会有一些足够强大的条件(condition
)能够让我们预测当前的分布特征。例如我们能预测当前处于均值为10, 方差为5的正态分布,这个是相对准确的;但是我们无法预测下一个值究竟是11还是12(不可测)。
5 优化
我们只能确保对的方向,而不能确保对的模型
能确保找到一个对的方向已经不容易,确保模型是对的这件事情人类几乎无能为力。主要是由于有太大的参数空间,调整也非常频繁,人力无法覆盖。
所以:找到正确的方向,其余的留给计算机
6 总结
- 1 模型是人类抽象思维的模拟,最终是为了决策
- 2 模型的使用是有很大局限性的,不要期待一个模型总是有用
- 3 人类找到模型的正确方法,探索和调优则由优化方法完成