线性与非线性逆问题的深入解析
立即解锁
发布时间: 2025-09-05 01:46:26 阅读量: 10 订阅数: 22 AIGC 


地球物理反演入门指南
# 线性与非线性逆问题的深入解析
## 1. 线性逆问题中的稀疏解求解
在许多实际应用中,确定某些参数值时,往往通过反复试验来选择,而非依据先验信息的定量估计。例如,存在一个参数 μ,有分析表明 μ₀ ≈ μ/4,但在实际应用里,μ 的值通常是通过试错法来确定的。
下面通过一个具体例子来说明寻找稀疏解的过程。我们的目标是找到一个滤波器 mest,使得预测误差和解决方案长度的加权和 $||e||_2^2 + μ||m||_0^0$ 最小。这里,预测误差 $e = d_{obs} - Gm$,N 个观测数据 $d_{obs} = Gm_{true} + n$,其中 n 是服从正态分布的噪声,数据核 G 是一个 Toeplitz 矩阵,它通过滤波器 g 实现卷积。
我们选择 g 为一个平滑脉冲,$m_{true}$ 是稀疏的,由三个间隔较远的尖峰组成。然后比较 L₀、L₁、L₂ 三种解,其中 L₀ 和 L₁ 解使用重加权算法计算,对应关系为 $v = m$,并使用最小二乘法公式:
$m^{(j)} = [G^TG + μW^{(j - 1)}]^{-1}G^Td_{obs}$
这三种解都能以相似的误差拟合数据。L₀ 解与真实解非常匹配,几乎能精确恢复三个尖峰;L₁ 解也比较尖锐,但不如 L₀ 解稀疏;而 L₂ 解则有明显的振荡。
如果真实模型是一个方波函数,那么使预测误差和解决方案斜率的加权和 $||e||_2^2 + μ||Dm||_0^0$ 最小的解会更合适。在这种情况下,L₀ 和 L₁ 解使用重加权算法计算,对应关系为 $v = Dm$,并使用最小二乘法公式:
$m^{(j)} = [G^TG + μD^TW^{(j - 1)}D]^{-1}G^Td_{obs}$
同样,这三种解都能以相似的误差拟合数据。L₀ 解与真实解极为匹配,几乎能精确恢复方波函数;L₁ 解表现也不错,只是在台阶处有轻微的倾斜;L₂ 解依旧有明显的振荡。
### 1.1 相关问题
这里还列出了一些相关问题,供大家进一步探索:
1. 求解在 L₁ 范数下的最佳拟合平面问题,并与在 L₂ 范数下确定的估计模型参数进行比较,观察平面的估计走向和倾角变化了多少。
2. 通过两种方法求解在 L₁ 范数下的约束最佳拟合直线问题:
- 将点 $(z_0, d_0)$ 视为方差非常小的正常数据。
- 将约束作为线性等式约束明确包含在线性规划问题中。然后比较估计的模型参数与在 L₂ 范数下确定的参数。
3. 考虑将三次多项式 $d_i = m_1 + m_2z_i + m_3z_i^2 + m_4z_i^3$ 拟合到 N = 20 个数据 $d_i^{obs}$,其中 z 在区间 (0, 1) 上均匀分布,$m_2 = m_3 = m_4 = 1$,$m_1$ 在 -1 到 1 之间变化。
- 编写一个脚本,为特定的 $m_1$ 选择生成合成观测数据(包括指数分布噪声),并在 L₁ 范数下估计模型参数,同时加上额外的不等式约束 $m ≥ 0$。
- 对一系列 $m_1$ 值运行测试案例,并对结果进行评论。
4. 考虑寻找 M = 100 个模型参数 m,使 $||e||_2^2 + μ||Hm||_n^n$ 最小,其中 μ 是一个小的正数,$e = d_{obs} - Gm$ 是误差向量,$d_{obs} = Gm_{true} + n$ 是观测数据,n 是正态分布噪声。
- 证明真实解 $m_{true}$ 也是 L₂ 最小长度解 $m_{ML} = G^T[GG^T]^{-1}d_{obs}$。
- 计算 n = 0, 1, 2 时的解,并绘制和解释结果。
- 重复上述计算,但将 $a_k$ 改为 $1 + 0.001(M - k + 1)$,观察解的不同之处并解释原因。
5. 解决上述问题,但将 H 设为 $(M - 2)×M$ 的一阶差分算子 D,证明当 $n → 0$ 时,模型参数向量变为分段常数。
## 2. 非线性逆问题的参数化
在任何逆问题开始时,都需要选择表示数据和模型参数的变量,即参数化。在很多情况下,这种选择是比较随意的,可能没有很强的理由选择一种参数化而不是另一种。但在非线性逆问题中,这可能会成为一个重大问题,因为求解得到的答案依赖于参数化,也就是说,解在变量的非线性变换下不是不变的。这与具有正态统计的线性逆问题不同,在线性逆问题中,解对于数据和模型参数的任何线性重新参数化都是不变的。
例如,考虑将一条直线拟合到数据对 (1, 1)、(2, 2)、(3, 3)、(4, 5)。如果将这些数据视为 (z, d) 对,其中 z 是辅助变量,最小二乘法拟合得到 $d = 0.500 + 1.3z$;如果将它们视为 $(d', z')$ 对,其中 $z'$ 是辅助变量,最小二乘法得到 $d' = 0.457 + 0.743z'$,可重新排列为 $z' = 0.615 + 1.346d'$。这两条直线的截距相差 20%,斜率相差 4%。
这种差异源于两个原因:
1. **概率理论的不一致应用**:在前面的例子中,我们交替假设 z 是精确已知的,但 d 包含正态分布的噪声;以及 d 是精确已知的,但 z 包含正态分布的噪声。这是关于误差分布的两种截然不同的假设,所以解不同也就不足为奇了。在理论上,通过认识到并考虑到重新参数化问题会改变相关的概率密度函数这一事实,可以完全避免这种差异。
2. **更严重的差异来源**:即使我们可以使用某种逆理论计算在特定参数化下模型参数的分布,然后使用公式转换到任意参数化下的联合概率密度函数,但我们通常需要的是基于概率密度函数的估计值(如最大似然点或均值),而估计值在参数化变化时不是不变的。
因此,尽可能直接处理概率密度函数是有好处的,只在最后一步形成估计值。但需要注意的是,第二种方法的数学计算通常比第一种方法困难得多。
一个好的模型参数估计应该满足一定的客观标准。如果我们对一个模型参数 m 的值感兴趣,这个参数要么有一个确定的真实值,要么(如果它是一个随机变量)有一个定义明确的概率密度函数,从中可以计算出真实的期望值。但我们无法知道真实值,只能通过实验并应用逆理论来推导模型参数的估计值。由于任何一次实验都包含噪声,我们得到的估计值不会与模型参数的真实值重合。但我们至少可以期望,如果我们进行足够多次的实验,估计值会围绕真实值分散。如果是这样,那么这种估计方法就是无偏的。通过对其他模型参数的估计值进行非线性组合来估计模型参数几乎总是会导致偏差。
### 2.1 线性化变换
改变参数化的一个原因是,有时可以将逆问题转换为一种更简单的形式,从而可以用已知的方法求解。最常受益于这种变换的问题包括将指数函数和幂函数拟合到数据。
考虑一组 $(z_i, d_i)$ 数据对,假设它们服从模型 $d_i = m_1exp(m_2z_i)$。通过进行变换:
$m_1' = log(m_1)$,$m_2' = m_2$,$d_i' = log(d_i)$
我们可以将模型写成线性方程 $d_i' = m_1' + m_2'z_i$,然后可以用简单的最小二乘法求解。但为了严格证明在这个问题中应用最小二乘法的合理性,我们必须假设 $d_i'$ 是独立的、具有均匀方差的正态分布随机变量。因此,数据在其原始参数化下的概率密度函数必须是非正态的(必须具有对数正态概率密度函数)。
取对数的过程会放大接近零的点的散射。因此,对于衰减指数函数,变换后的数据围绕 $(d_i')_{true}$ 的散射会随着 z 的增加而增加。假设 $d_i'$ 具有均匀方差,意味着未变换的数据 $d_i$ 的测量精度随着 z 的增加而提高,而这种假设可能与实验事实不一致。所以,线性化变换必须谨慎使用。
### 2.2 非线性逆问题中的误差和对数似然
假设逆问题中的数据 d 具有可能非正态的概率密度函数 $p(d; \langle d \rangle)$,其中 $\langle d \rangle$ 是均值(或期望值),分号用于表示 $\langle d \rangle$ 只是 d 的概率密度函数中的一个参数(与随机变量相对)。最大似然原理,即观测数据是最可能的数据,无论 $p(d_{obs}; \langle d
0
0
复制全文
相关推荐










