非线性逆问题的求解方法与分析
立即解锁
发布时间: 2025-08-31 00:51:48 阅读量: 13 订阅数: 39 AIGC 


地球物理反演入门
# 非线性逆问题的求解方法与分析
## 1. 预测数据与模型更新
在非线性逆问题中,通过插入 $m(p + 1)$ 的结果并应用泰勒级数方法,可以简化预测数据 $d(p + 1)$ 的表达式:
\[
\begin{align*}
d^{(p + 1)}&= d_{obs}+ \left\{-d_{obs}+ g(m^{(p)}) + G^{(p)}\left[ \langle m \rangle - m^{(p)} \right] \right\} - G^{(p)}\left[ m^{(p + 1)} - \langle m \rangle \right]\\
&= g(m^{(p)}) + G^{(p)}\left[ m^{(p + 1)} - m^{(p)} \right] \approx g(m^{(p + 1)})
\end{align*}
\]
这表明预测数据 $d(p + 1)$ 等于更新后的模型 $m(p + 1)$ 所预测的数据。
## 2. 非线性问题的协方差与分辨率
### 2.1 协方差计算
对于显式问题 $d_{obs} = g(m)$ 并补充先验信息 $m = \langle m \rangle$ 的迭代解为:
\[m^{(p + 1)} = G_g^{-1(p)}d_{obs} + \langle m \rangle - G_g^{-1(p)}g(\langle m \rangle)\]
应用标准误差传播规则时,由于对 $g(\langle m \rangle)$ 的协方差未知,我们通过泰勒级数的前两项近似 $g(\langle m \rangle)$,即 $g(\langle m \rangle) \approx g(m_0) + G_0[\langle m \rangle - m_0]$,其中 $m_0$ 是接近 $\langle m \rangle$ 的参考点,$G_0$ 是 $g(m)$ 在 $m_0$ 处的梯度。代入并整理可得:
\[m^{(p + 1)} \approx G_g^{-1(0)}d_{obs} + \left( I - G_g^{-1(0)}G_0 \right)\langle m \rangle - G_g^{-1(0)}\left\{ g(m_0) - G_0m_0 \right\}\]
因为 $m_0$ 不是随机变量,所以右边第三项对 $m(p + 1)$ 的协方差无贡献。令 $m_0 = m(p)$,根据标准误差传播可得:
\[\left\langle cov\left( m^{(p + 1)} \right) \right\rangle \approx G_g^{-1(p)} \left[ cov(d) \right] {G_g^{-1(p)}}^T + \left( I - G_g^{-1(p)}G^{(p)} \right)^T \left[ cov(m) \right]_A \left( I - G_g^{-1(p)}G^{(p)} \right)\]
除了索引 $p$ 外,该公式与线性问题中的公式相同。其准确性取决于泰勒级数近似的有效性,当 $g(m)$ 在 $m(p)$ 和 $\langle m \rangle$ 附近呈线性时,公式最为准确。
### 2.2 分辨率分析
在分析分辨率之前,需要明确非线性问题中“分辨率”的含义。我们通过对比两个简单问题(一个线性,一个非线性,均有 $N = 2$ 和 $M = 3$)来聚焦欠定问题($M > N$)的模型分辨率。
- **线性问题**:方程 $d_1 = m_1 + m_2$ 和 $d_2 = m_2 + m_3$ 在模型参数空间中定义了两个平面,它们相交于一条直线 $AB$,解是非唯一的。引入新坐标 $(m_1', m_2', m_3')$,其中 $m_3' \propto [1, -1, 1]^T$ 平行于 $AB$,数据仅约束 $(m_1', m_2')$ 的值,而不约束 $m_3'$。分辨率矩阵
\[
R =
\begin{bmatrix}
& & 0 \\
& & \\
0 & &
\end{bmatrix}
\]
定义的局部平均是唯一的,因为它们都将 $[1, -1, 1]^T$ 平均为零,并且具有一定的局部性。
- **非线性问题**:方程 $d_1 = \sqrt{m_1^2 + m_2^2}$ 和 $d_2 = \sqrt{m_2^2 + m_3^2}$ 在模型参数空间中定义了两个圆柱,它们相交于一条曲线 $\widehat{AB}$。令 $m = \langle m \rangle + \Delta m$,使用泰勒定理线性化方程:
\[\Delta d_1 = \Delta m_1 + \Delta m_2 \quad (\Delta d_1 = \sqrt{2}d_1 - 2)\]
\[\Delta d_2 = \Delta m_2 + \Delta m_3 \quad (\Delta d_2 = \sqrt{2}d_2 - 2)\]
在 $\langle m \rangle$ 附近,线性化方程与线性问题的形式相同,因此相同的分辨率矩阵 $R(p) = R$ 定义了 $\Delta m$ 的唯一平均。但由于 $\widehat{AB}$ 的方向沿其长度变化,这些平均仅在指定点 $\langle m \rangle = [1, 1, 1]^T$ 附近是唯一的。
在非线性问题中,模型分辨率是局部的,它体现了仅对模型参数的小扰动唯一的平均。对于线性问题,模型分辨率矩阵通过将数据方程 $d = Gm_{true}$ 代入解 $m_{est} = G_g^{-1}d$ 得到:
\[m_{est} = G_g^{-1}Gm_{true} = Rm_{true} \quad (R = G_g^{-1}G)\]
对于非线性问题 $d = g(m_{true})$,我们可以使用泰勒定理在参考值 $m(p)$ 附近线性化 $g(m_{true})$:
\[g(m_{true}) \approx g(m^{(p)}) + G^{(p)}[m_{true} - m^{(p)}]\]
从而得到:
\[\Delta m_{est} = R^{(p)}\Delta m_{true} \quad (R^{(p)} = G_g^{-1(p)}G^{(p)}, \Delta m_{true} = m_{true} - m^{(p)}, \Delta m_{est} = m_{est} - m_{est}^{(p)}, m_{est}^{(p)} = G_g^{-1(p)}g(m^{(p)})\]
线性化的模型分辨率矩阵 $R(p)$ 与通常的分辨率矩阵 $R$ 作用相似,但它连接的是表示模型参数相对于参考值小扰动的偏差量。
我们的实践是在模型和数据分辨率的标准公式中,将 $G$ 替换为 $G(p)$,将 $G_g^{-1}$ 替换为 $G_g^{-1(p)}$。在有先验信息的问题中,使用第 6.9 节中描述的分辨率矩阵形式。
## 3. 梯度下降法
### 3.1 基本原理
在某些逆问题中,误差 $E(m)$ 及其梯度 $[\nabla E]_i = \frac{\partial E}{\partial m_i}$ 特别容易计算。此时,可以仅利用这些信息求解逆问题。单位向量
\[\nu = - \frac{\nabla E}{\vert\vert \nabla E \vert\vert}\big|_{m^{(p)}}\]
指向 $E$ 减小的方向。当前解 $m(p)$ 可以改进为 $m(p + 1) = m(p) + \alpha\nu$,其中 $\alpha$ 是正数。
### 3.2 步长选择
选择合适的 $\alpha$ 值是一个问题。$\alpha$ 太大可能会跳过最小值,太小则收敛速度会非常慢。Armijo 规则为 $\alpha$ 提供了一个接受准则:
\[E(m^{(p + 1)}) \leq E(m^{(p)}) - c\alpha\nu^T\nabla E\]
其中 $c$ 是经验常数,通常取值约为 $10^{-4}$。一种寻找“好”的 $\alpha$ 的策略是从一个“较大”的 $\alpha$ 值开始迭代过程,只要它通过测试就使用它,失败时则减小它,例如将 $\alpha$ 替换为 $\alpha/2$。
### 3.3 与牛顿法比较
牛顿法和梯度下降法都是迭代方法。牛顿法通常收敛速度非常快,只需几次迭代,但每次迭代的计算成本较高,需要计算 $N \times M$ 个导数以获得线性化数据核 $G(p)$,然后求解一个 $M \times M$ 的最小
0
0
复制全文
相关推荐










