文献学习
Spatial Transcriptomic Alignment, Integration, and de novo 3D Reconstruction by STAIR
abstract
空间转录组学(ST)已成为利用分子特征理解组织结构的一种变革性方法。然而,将离散的二维(2D)转录组快照整合到统一的三维图谱中仍然是一项艰巨的挑战。为此,我们推出了 STAIR,一种用于 ST 对齐、整合和全新三维重建的端到端解决方案。STAIR 利用异构图注意力网络与点级和片级注意力机制来获得统一的嵌入空间,并以无监督的方式指导三维空间重建。我们证明,与之前的方法相比,STAIR 在切片配准和跨样本、跨平台整合方面有明显改善。此外,STAIR 还在全新三维重建方面展示了首创性能,在小鼠下丘脑视前区、小鼠大脑和乳腺肿瘤组织中进行了演示,提供了大脑区域的精确划分,并揭示了肿瘤在三维空间中的发展过程。此外,STAIR 还将额外的切片整合到现有的三维图谱中,其中包括分子特征和物理坐标。STAIR 首次解决了限制三维定位和利用排列来构建和同化地图集的核心障碍。它为构建统一的组织图奠定了计算基础,并从三维角度提供了新颖的生物学见解。
Introduction
最近,空间转录组(ST)数据的生成取得了长足的进步,这些数据可以捕捉到保留了空间背景的基因表达。各种测序技术1-7有助于从空间角度探索组织内的分子特征。为了在三维(3D)空间中研究器官或组织,研究人员以一定的距离间隔对特定样本进行平行切片取样,单个切片在单个平面上捕捉空间分辨的分子特征8-10。目前,基于 ST 的分子图谱正在构建中,如小鼠大脑8、猕猴大脑10 和果蝇胚胎9。通过揭示整个器官的拓扑结构,这些研究推动了我们对组织结构分子驱动因素的理解。
包括 PASTE、PRECAST、STAligner 和 STitch3D 在内的几种计算方法在处理多切片 ST 数据方面取得了重大进展。具体来说,PRECAST 引入了一种新的概率方法,主要侧重于空间嵌入整合。PASTE11 提出了一种创新的二维坐标配准方法,通过平衡表达和物理邻近性来获得切片间的最佳传输。STAligner13 在嵌入和坐标的统一配准方面做出了开创性的工作。它首先采用了具有三重损失的图注意网络来整合空间嵌入,然后根据在切片间形状一致的地标域的选择来对齐二维坐标。大多数物理空间配准方法只进行二维坐标配准,而最近,STitch3D14 通过对多个切片进行联合建模,开创了引人入胜的三维分析能力。它重建了组织结构、细胞分布和发育轨迹的三维视图,而不需要额外的单细胞数据。
STaligner 和 STitch3D 等先前的方法利用已知的切片间距或三维坐标进行三维重建。然而,在整合具有非标准化切片距离的跨样本、跨研究切片时,这些信息可能不可用或不可靠,严重限制了多源三维组装。因此,必须通过计算推断相互关系定位,才能实现连贯的融合。遗憾的是,目前的解决方案并不具备这种能力。此外,现有的重建地图集在定量注释转移或新数据同化方面的能力也微乎其微,阻碍了在固定空间参考范围内继续积累知识。
为了应对这些挑战,我们开发了 STAIR,这是一种用于端到端配准、整合和全新三维构建的集成解决方案。STAIR 利用异构图注意网络学习空间嵌入,并在此基础上完成物理位置的重建。与以往依赖已知切片距离或已知三维坐标的方法不同,STAIR 只需要 ST 数据作为输入,就能以完全无监督的方式推断出切片沿 Z 轴的相对位置。此外,STAIR 还能将新切片无缝整合到现有的三维图谱中,从而扩展和更新参考三维图谱。我们证明,在各种数据集的空间特征和二维坐标对齐方面,STAIR 的性能优于现有方法。此外,STAIR 还是第一种用于全新三维重建的方法,对小鼠下丘脑视前区、整个小鼠大脑和肿瘤组织进行了演示。最后,STAIR 实现了将来自不同 ST 平台的新切片无缝集成到已构建的三维图谱中,并将图谱中的注释信息准确转移到新切片上。STAIR 是一个开源 Python 软件包,可在 https://github.com/yuyuanyuana/STAIR 公开获取。
Results
Overview of the STAIR framework
STAIR 实现了 ST 数据的分子特征和物理坐标的整合与对齐,从而能够进行三维重建并将新切片同化到参考图集中(图 1)。它只将 ST 数据作为输入,并输出对齐的空间嵌入和坐标。它包括两个中心模块(图 1A):STAIR-Emb 执行嵌入配准,STAIR-Loc 处理坐标注册。空间域和发育轨迹完全是通过聚类和轨迹推理分别从对齐的嵌入中得出的。因此,仅依靠多切片数据,STAIR 就能进行全新的三维重建,并进一步获得三维空间中离散的组织结构和连续的动态关系。
对于嵌入配准(图 1A,左),带有批处理因子的自编码器会进行非线性降维,以考虑基因表达的平台特异性效应。然后,STAIR-Emb 以所有切片上的spot为节点构建异质图,节点的归属由其原始切片决定。同一切片中斑点的连接性由空间邻域定义,而切片间的边缘则根据编码器输出的基因表达亲和力加权,因为切片间的相对位置是未知的。随后,STAIR-Emb 采用了一种注意力机制,包括点级和片级注意力,用于片内和片间的自适应信息聚合,从而获得包含丰富生物信号的点的低维空间特征。与此同时,注意力评分还能生成反映高阶组织对应关系的切片间关系矩阵。
对于坐标配准(图 1A,右),STAIR-Loc 在切片对之间实施了两步程序。在初始配准中,根据嵌入中的锚点对应关系进行旋转、缩放和平移,产生近似叠加。在精细配准中,STAIRLoc 采用迭代最邻近点 (ICP) 算法,根据切片和最集合域的边界点进行精确配准。通过对有序切片的连续应用,该程序可重建叠加的三维物理地图。
要从任意一组平行切片(图 1B)进行完全无监督的三维重建,首先要使用最小生成树(MST)19 根据 STAIR-Emb 得出的切片间注意力分数重建 Z 轴坐标。然后使用 STAIR-Loc 将这些预测的 Z 轴坐标用于指导 X 轴和 Y 轴对齐。重建后,还可以无缝吸收其他采集数据(图 1C)。新切片的 Z 坐标最初是通过利用基于注意力的切片间邻近度评分来预测的,以确定最近的相邻地图集切片,从而进行加权位置估算。最邻近的地图集切片可作为空间模板,用于缩放和对齐新数据的 x 坐标和 y 坐标。在这一阶段,像标准解剖区域标签这样的地图集注释信息可以准确地传播到新整合的切片上。随着时间的推移,这种持续的扩展增强了已建立的三维参考的实用性和适用性。
图 1. STAIR 框架概述。(A) STAIR 通过使用自动编码器压缩每个切片的表达矩阵来处理多个 ST 切片,从而得到综合表达特征。随后,STAIR-Emb 将表达特征和每个切片的二维坐标作为输入,利用异构图注意网络学习综合空间特征。最后,STAIR-Loc 利用这些空间特征建立空间坐标的初始配准,然后通过纳入切片的边界点及其各自的域来进一步完善配准。(B) 在事先不了解物理位置的情况下重建三维地图集。STAIR-Emb 学习综合空间特征,建立切片之间的高阶语义关系,并将其转化为距离矩阵。接下来,最小生成树(MST)会重建相对位置关系,从而指导顺序空间配准。© 将新切片无缝集成到现有三维地图集中。STAIR-Emb 将新切片的空间特征与三维地图集整合,然后预测新切片的 z 轴位置,并使用 STAIR-Loc 将其二维坐标(x 轴和 y 轴)与三维地图集对齐。
STAIR effectively integrates heterogeneous ST data in spatial embeddings
我们首先定量评估了 STAIR 在整合空间嵌入和识别不同组织切片中统一空间域方面的功效,这是进行下游分析的先决条件。有效的整合应能识别不同样本间的共享信号,同时保留每个样本在生物学上的独特变化。
我们最初的测试使用的是源自人类背外侧前额叶皮层(DLPFC)20 的 10X Visium 数据集,跨越三个样本,每个样本有四个连续切片。最初的研究进行了精确的人工标注,划分了白质(WM)和从第 1 层到第 6 层的 6 个灰质层,以提供基本真实标签(图 2A)。首先,我们对每个样本的切片进行了单独的空间域识别,这些切片的位置很接近,但也存在一些差异。STAIR 在所有三个样本上都获得了最准确的域划分结果(图 2B,补充图 S1),调整兰德指数(ARI)中值分别为 0.60、0.53 和 0.62(图 2C)。
然后,我们同时处理了三个样本的 12 个切片(图 2D;补充图 S2A)。STitch3D 由于需要三维坐标来处理多个切片而无法提供,因此被排除在本次测试之外。尽管面临挑战,STAIR 仍保持了最高的注释一致性,ARI 中值达到 0.65,远远超过排名第二的 STAligner(中值为 0.46)(图 2C 右)。值得注意的是,同时考虑三个样本比单独评估每个样本更有优势,能获得更高的 ARI 值,第 4 层、第 5 层和第 6 层之间的分界也更清晰(图 2B 至 D)。随后,我们根据这些方法得出的空间嵌入,使用统一流形逼近和投影(UMAP)21 进行了低维可视化(补充图 S2B)。在基于 STAIR 的可视化中,所有光点都按照层进行了排列,不同样本之间完全混合。相比之下,STAligner 和 PRECAST 在排列和区分这些已知层时不够清晰。具体来说,STAligner 混合了第 2 层和第 3 层,以及第 4 层到第 6 层,而 PRECAST 只区分了 WM。我们还使用平均轮廓宽度(ASW)量化了空间嵌入学习和整合的效果。我们计算了空间嵌入在空间域(𝐴𝑆𝑆𝑆𝑆𝑆𝑏𝑎𝑡𝑐 )和𝐴𝑆𝑆𝐹1方面的 ASW,以评估整体能力(方法)。 STAIR 的空间嵌入学习和整合效果最好,𝐴𝑆𝐹1 最高(补充图 S2C)。STAligner也能充分整合样本,其𝐴𝑆𝑏𝑎𝑡𝑐数值与STAIR相似。
此外,为了评估跨平台整合情况,我们应用 STAIR 整合了来自 Stereo-seq22 和 Slide-seqV223 的小鼠嗅球数据,这两个平台的分辨率和面积不同。Stereo-seq 以亚单细胞分辨率覆盖了主嗅球 (MOB),而 SlideseqV2 以 10 μm 的分辨率覆盖了主嗅球和附属嗅球 (AOB),接近单细胞。STAIR 清晰地划分出了两个数据集共有的 MOB 区域和 Slide-seqV2 独有的 AOB 区域(图 2E 顶部),与标准的 Allen Brain Atlas(ABA)分区高度一致(补充图 S2D)。AOB 区域位于嗅球的中上部,由两个子区域组成: MOB区域包括七个子区域,呈同心环状排列: 前嵴移行流(RMS)、颗粒细胞层(GCL)、两个三尖细胞层(MCL)、外部丛状层(EPL)、肾小球层(GL)和嗅觉神经层(ONL)。相比之下,STAligner 难以识别 RMS 层,并混淆了 Stereo-seq 的 EPL 层和 GL 层(图 2E,中)。PRECAST 无法识别连贯的空间模式(图 2E,底部)。UMAP 可视化进一步显示,STAIR 在低维空间中有效区分了 AOB 和 MOB,保留了 Slide-seqV2 数据中的 AOBmi 和 AOBgr 子区域(图 2F, G)。与此同时,STAIR 无缝整合了共享的 MOB 区域,按物理位置排列出一致的子层。相反,虽然 STAligner 在一定程度上实现了整合,但却无法辨别 AOB 和 MOB 之间的明显差异。PRECAST 则完全混合了数据集,失去了 Slide-seqV2 的特异性。
总之,STAIR 成功地整合了样本内、样本间和平台间切片的空间嵌入,确保了一致的空间区域划分并保留了独特的生物变异。
图 2. STAIR 可有效整合异构空间转录组学数据。(A) 12 个 DLPFC 切片中人工标注区域的真实分割。(B) STAIR 基于每个样本的 4 个 DLPFC 切片进行空间域识别。© 应用于每个样本的 4 个 DLPFC 切片和三个样本的总共 12 个切片的四种方法的调整兰德指数(ARI)得分方框图。在方框图中,中线表示中位数,框线表示上四分位数和下四分位数,须线表示 1.5 x 四分位数间范围。(D) 基于 12 张 DLPFC 切片的 STAIR 空间域识别。(E) 使用 STAIR、STAligner 和 PRECAST 对 Stereo-seq(左)和 Slide-seqV2(右)小鼠嗅球数据进行整合空间区域识别。(F) 由 STAIR、STAligner 和 PRECAST 的空间嵌入得出的 UMAP,颜色由它们识别的空间区域决定。(G) 由 STAIR、STAligner 和 PRECAST 的空间嵌入得出的 UMAP,颜色由光斑所属的数据集决定。
STAIR algorithm
Data preprocessing.
假设有 S S S 个切片,分别表示为 A 1 , A 2 , ⋯ , A s A_1, A_2, \cdots , A_s A1,A2,⋯,As,每个切片包含的点数分别为 N 1 , N 2 , ⋯ , N s N_1, N_2, \cdots , N_s N1,N2,⋯,Ns。在这些切片中,有 G G G 个基因是共同的。因此,基因表达数据可以表示为一个维度为 N × G N \times G N×G 的矩阵 X X X,其中 N = N 1 + N 2 + ⋯ + N s N = N_1 + N_2 + \cdots + N_s N=N1+N2+⋯+Ns 是所有切片中点的总数。空间坐标数据存储在一个维度为 N × 2 N \times 2 N×2 或 N × 3 N \times 3 N×3 的矩阵 Y Y Y 中,具体取决于是否存在 z 维度,对于 STAIR 输入一个 N × 2 N \times 2 N×2 维度的坐标矩阵就足够了。矩阵 X X X 中的原始基因表达计数根据文库大小进行标准化,然后对其进行对数转换,以获得标准化表达矩阵 X ~ \tilde{X} X~。
为了消除不同切片表达特征中的批次效应,我们使用了自编码器和批次注释 b n s b_{ns} bns。如果第 n n n 个点来自第 s s s 个切片,则设置 b n s = 1 b_{ns} = 1 bns=1;否则,设置 b n s = 0 b_{ns} = 0 bns=0。考虑到基因表达中负二项分布(NB)或零膨胀负二项分布(ZINB)的假设,预处理框架如下:
Z = f 1 ( X ~ ∣ ∣ B ) Z = f_1(\tilde{X}||B) Z=f1(X~∣∣B)
Z ′ = f 2 ( Z ∣ ∣ B ) Z' = f_2(Z||B) Z′=f2(Z∣∣B)
R = f 3 ( Z ′ ) R = f_3(Z') R=f3(Z′)
Π = f 4 ( Z ′ ) \Pi = f_4(Z') Π=f4(Z′)
编码器 f 1 f_1 f1 包含两层,将表达矩阵压缩为一个 32 维的低维特征矩阵 Z Z Z。解码器首先使用 f 2 f_2 f2 将 Z Z Z 和批次信息解码为一个 128 维的特征矩阵 Z ′ Z' Z′,然后基于 Z ′ Z' Z′ 学习 NB 分布的参数 ( R , L ) (R, L) (R,L) 和零膨胀概率 Π \Pi Π。目标是最小化 X X X 和由 ( Π , R , P ) (\Pi, R, P) (Π,R,P) 参数化的 NB/ZINB 分布之间的重建损失。损失函数是 NB/ZINB 负对数似然。
Spatial embedding alignment
我们使用异构图注意网络来学习跨切片的综合空间特征。
Construction of heterogeneous graph. 我们根据每个spot所属的切片为其赋予节点特征。我们采用了不同的方法来为位于同一切片内的点和位于不同切片间的点建立边缘。
对于同一切片内的点,我们基于点的物理位置构建同质边。对于切片 A J A_J AJ 中索引为 j j j 的点,其片内邻居集合 N j \mathcal{N}_j Nj 通过基于空间坐标的 K 最近邻(KNN)算法识别。
对于不在同一切片内的点,由于它们的相对物理坐标未知,我们基于预处理步骤中获得的表达相似性构建异质边。只有表达特征高度一致的节点才会连接。对于来自切片 A J A_J AJ 的点 j j j 和来自切片 A K A_K AK 的点 k k k,如果 z k ⋅ z j > t z_k \cdot z_j > t zk⋅zj>t,则存在边。我们通常设置 t = 0.9 t = 0.9 t=0.9 并将切片 A K A_K AK 中点 j j j 的片间邻居表示为 N j J K \mathcal{N}_j^{JK} NjJK。
Intra-slice information aggregation. 为了学习每个点的空间特征,我们首先基于同质边分别为每个切片聚合片内邻居的信息。我们采用与 SECE 中的图注意力网络(GAT)模块相同的模型架构和聚合方法,并基于同质边获得同质空间特征 U h o m U_{hom} Uhom,
U h o m = G A T ( Z , Y ) U^{hom} = GAT(Z, Y) Uhom=GAT(Z,Y)
其中, Z Z Z是预处理模块获得的点的表达特征。
Inter-slice information aggregation. 此外,我们采用点级和片级注意力自适应地聚合片间信息。
首先,我们学习点级注意力。对于通过异质边连接的来自切片 A I A_I AI 和 A J A_J AJ 的两个点 i i i 和 j j j,它们之间的点级注意力 e i j I J e_{ij}^{IJ} eijIJ 表示点 j j j 对 i i i 的重要性,即,
e i j I J = LeakyReLU ( q I J T [ W I J 1 u i h o m ∣ ∣ W I J 2 u j h o m ] ) e_{ij}^{IJ} = \text{LeakyReLU}(q_{IJ}^T [W_{IJ}^1 u_{i}^{hom} || W_{IJ}^2 u_{j}^{hom}]) eijIJ=LeakyReLU(qIJT[WIJ1uihom∣∣WIJ2ujhom])
其中 W I J 1 W_{IJ}^1 WIJ1 和 W I J 2 W_{IJ}^2 WIJ2 是特定于切片对的权重矩阵, q I J q_{IJ} qIJ 是可学习的向量, e i j e_{ij} eij 是包含切片 A I A_I AI 和 A J A_J AJ 之间成对注意力的非对称注意力矩阵。最终的片间点级注意力矩阵 α i j I J \alpha_{ij}^{IJ} αijIJ 通过对 e i j I J e_{ij}^{IJ} eijIJ 进行归一化得到:
α i j I J = softmax j ( e i j I J ) = exp ( e i j I J ) ∑ k ∈ N i I J exp ( e i k I J ) \alpha_{ij}^{IJ} = \text{softmax}_j(e_{ij}^{IJ}) = \frac{\exp(e_{ij}^{IJ})}{\sum_{k \in \mathcal{N}_i^{IJ}} \exp(e_{ik}^{IJ})} αijIJ=softmaxj(eijIJ)=∑k∈NiIJexp(eikIJ)exp(eijIJ)
对于来自切片 A I A_I AI 的节点 i i i,基于切片 A J A_J AJ 中邻居的点级异质性表示为:
u i I J = σ ( ∑ j ∈ N i I J α i j I J ⋅ u j h o m ) u_i^{IJ} = \sigma \left( \sum_{j \in \mathcal{N}_i^{IJ}} \alpha_{ij}^{IJ} \cdot u_{j}^{hom} \right) uiIJ=σ j∈NiIJ∑αijIJ⋅ujhom
然后,我们学习片级注意力。不同的切片对目标切片的贡献不同,我们自适应地学习每个切片对其他切片的贡献。对于要学习的切片 A I A_I AI,切片 A J A_J AJ 对 A I A_I AI 的片级重要性为:
w I J = 1 N I ∑ i ∈ A I q T ⋅ tanh ( W ⋅ u i I J + b ) w_{IJ} = \frac{1}{N_I} \sum_{i \in A_I} q^T \cdot \tanh (W \cdot u_i^{IJ} + b) wIJ=NI1i∈AI∑qT⋅tanh(W⋅uiIJ+b)
其中 W W W 和 b b b 是权重矩阵和偏置向量, q q q 是可学习的向量。然后归一化 w I J w_{IJ} wIJ 以获得最终的片级注意力系数:
β I J = exp ( w I J ) ∑ K ≠ I exp ( w I K ) \beta_{IJ} = \frac{\exp(w_{IJ})}{\sum_{K \ne I} \exp(w_{IK})} βIJ=∑K=Iexp(wIK)exp(wIJ)
因此,基于其他切片的切片 A I A_I AI 的异质性表示为:
U I h e t = ∑ J ≠ I β I J U I I J U_I^{het} = \sum_{J \ne I} \beta_{IJ} U_I^{IJ} UIhet=J=I∑βIJUIIJ
Model learning and training. 对于每个切片,最终的空间特征矩阵 U U U 通过结合片内表示 U h o m U_{hom} Uhom 和片间异质性表示 U h e t U_{het} Uhet 得到:
U = λ ⋅ U h o m + ( 1 − λ ) ⋅ U h e t U = \lambda \cdot U^{hom} + (1 - \lambda) \cdot U^{het} U=λ⋅Uhom+(1−λ)⋅Uhet
其中 λ \lambda λ 权衡同质和异质成分,默认值为 0.8。训练模型以确保 U U U 可靠地表示原始空间基因表达特征 Z Z Z。目标函数定义为 U U U 和 Z Z Z 之间的均方误差:
L o s s = M S E ( U , Z ) Loss = MSE(U, Z) Loss=MSE(U,Z)
在训练过程中, U U U 设置为 32 维。使用 Adam 优化器进行训练,学习率为 0.001。默认迭代次数为 150。
Slice-level attention-based reconstruction and prediction in z-axis.
切片级别的注意力权重,记为 β I J \beta_{IJ} βIJ,在空间嵌入学习过程中表征了切片 A J A_J AJ 对 A I A_I AI 的集体影响。这包含了复杂的高阶空间语义信息。值得注意的是,这些权重与切片之间实际距离的强相关性表明了推断切片物理位置的潜力。
De novo z-axis reconstruction for multiple slices. 当我们缺乏切片的三维坐标信息( y 1 ( 3 ) , ⋯ , y I ( 3 ) , ⋯ , y S ( 3 ) y_1^{(3)}, \cdots, y_I^{(3)}, \cdots, y_S^{(3)} y1(3),⋯,yI(3),⋯,yS(3))时,我们可以基于片间注意力分数推断这些平行切片之间的位置关系。具体来说,我们首先定义切片 A J A_J AJ 和 A I A_I AI 之间的距离为 d I J = 1 − β I J + β J I 2 d_{IJ} = 1 - \frac{\beta_{IJ} + \beta_{JI}}{2} dIJ=1−2βIJ+βJI,并使用 Python 实现的网络包构建一个基于 Kruskal 算法的最小生成树(MST)。随后,我们选择给定的根切片 A I A_I AI 并将其位置设为 l I = 0 l_I = 0 lI=0。然后通过将每个节点与其父节点的位置距离相加来确定其余节点的位置。最后,我们对距离进行归一化,以获得 0 到 1 范围内的位置预测( l 1 , l 2 , ⋯ , l S l_1, l_2, \cdots, l_S l1,l2,⋯,lS)。此外,为了与文章中的实际坐标进行比较,我们还将归一化的距离( l 1 , l 2 , ⋯ , l S l_1, l_2, \cdots, l_S l1,l2,⋯,lS)缩放到匹配实际坐标范围。
Z-axis prediction for new slice. 当已知 z 轴坐标( y 1 ( 3 ) , y 2 ( 3 ) , ⋯ , y S ( 3 ) y_1^{(3)}, y_2^{(3)}, \cdots, y_S^{(3)} y1(3),y2(3),⋯,yS(3))时,为了将新切片 A n e w A_{new} Anew 对齐到统一的 3D 空间中,我们基于 A n e w A_{new} Anew 与 A 1 , A 2 , ⋯ , A s A_1, A_2, \cdots, A_s A1,A2,⋯,As 之间的注意力向量 β 1 = ( β n e w , 1 , β n e w , 2 , ⋯ , β n e w , S ) \beta_1 = (\beta_{new,1}, \beta_{new,2}, \cdots, \beta_{new,S}) β1=(βnew,1,βnew,2,⋯,βnew,S) 和 β 2 = ( β 1 , n e w , β 2 , n e w , ⋯ , β S , n e w ) \beta_2 = (\beta_{1,new}, \beta_{2,new}, \cdots, \beta_{S,new}) β2=(β1,new,β2,new,⋯,βS,new) 预测 y n e w ( 3 ) y_{new}^{(3)} ynew(3)。
我们首先按降序排列 β 1 \beta_1 β1 和 β 2 \beta_2 β2 的元素,并选择前 N N N 个元素 β ^ 1 = ( β ^ n e w , R 11 , ⋯ , β ^ n e w , R 1 N ) \hat{\beta}_1 = (\hat{\beta}_{new,R11}, \cdots, \hat{\beta}_{new,R1N}) β^1=(β^new,R11,⋯,β^new,R1N) 和 β ^ 2 = ( β ^ n e w , R 12 , ⋯ , β ^ n e w , R 2 N ) \hat{\beta}_2 = (\hat{\beta}_{new,R12}, \cdots, \hat{\beta}_{new,R2N}) β^2=(β^new,R12,⋯,β^new,R2N)。接下来,我们识别这些元素索引的交集 { R 1 , ⋯ , R N ′ } \{R_1, \cdots, R_{N'}\} {R1,⋯,RN′},其中 N ′ ≤ N N' \le N N′≤N。最后,我们对与 { R 1 , ⋯ , R N ′ } \{R_1, \cdots, R_{N'}\} {R1,⋯,RN′} 相对应的 z 轴进行加权平均,以获得 y n e w ( 3 ) y_{new}^{(3)} ynew(3) 的预测值:
y ^ n e w ( 3 ) = ∑ K ∈ { R 1 , ⋯ , R N ′ } β n e w , K + β K , n e w 2 ⋅ y K ( 3 ) ∑ K ∈ { R 1 , ⋯ , R N ′ } β n e w , K + β K , n e w 2 \hat{y}_{new}^{(3)} = \frac{\sum_{K \in \{R_1, \cdots, R_{N'}\}} \frac{\beta_{new,K} + \beta_{K,new}}{2} \cdot y_K^{(3)}}{\sum_{K \in \{R_1, \cdots, R_{N'}\}} \frac{\beta_{new,K} + \beta_{K,new}}{2}} y^new(3)=∑K∈{R1,⋯,RN′}2βnew,K+βK,new∑K∈{R1,⋯,RN′}2βnew,K+βK,new⋅yK(3)
Spatial location alignment
我们采用二维对齐的两阶段方法来处理 x 轴和 y 轴。在初始阶段,利用空间特征识别具有精确匹配的点对,并基于这些点对确定初始变换矩阵。在精细对齐阶段,我们首先识别在切片内有效捕捉全局和局部信息的点。这些点的坐标位置然后用于执行 ICP 精细配准。
Initial alignment. 考虑具有 n I n_I nI 点的切片 A I A_I AI 和具有 n J n_J nJ 点的切片 A J A_J AJ,以及它们的空间特征集 { u I 1 , u I 2 , ⋯ , u I n I } \{u_I^1, u_I^2, \cdots, u_I^{n_I}\} {uI1,uI2,⋯,uInI} 和 { u J 1 , u J 2 , ⋯ , u J n J } \{u_J^1, u_J^2, \cdots, u_J^{n_J}\} {uJ1,uJ2,⋯,uJnJ}。首先,我们基于空间嵌入通过余弦距离测量点之间的相似性。不同切片中位于 k = 1 k=1 k=1 的相互最近邻(MNN)形成初始对齐的对,生成整理后的对 { ( i 1 , j 1 ) , ( i 2 , j 2 ) , ⋯ , ( i n , j n ) } \{(i_1, j_1), (i_2, j_2), \cdots, (i_n, j_n)\} {(i1,j1),(i2,j2),⋯,(in,jn)} 及其坐标 { ( y i 1 I , y j 1 J ) , ( y i 2 I , y j 2 J ) , ⋯ , ( y i n I , y j n J ) } \{(y_{i_1}^I, y_{j_1}^J), (y_{i_2}^I, y_{j_2}^J), \cdots, (y_{i_n}^I, y_{j_n}^J)\} {(yi1I,yj1J),(yi2I,yj2J),⋯,(yinI,yjnJ)}。随后,我们寻找最佳旋转矩阵 R R R 和平移向量 t t t,以对齐相应点集的物理位置。因此,初始对齐的损失函数公式如下:
L o s s i n i t = ∑ k = 1 n ∣ y i k I − ( R y j k J + t ) ∣ 2 Loss_{init} = \sum_{k=1}^{n} |y_{i_k}^I - (R y_{j_k}^J + t)|^2 Lossinit=k=1∑n∣yikI−(RyjkJ+t)∣2
使用奇异值分解求解 R R R 和 t t t。所有点都根据其目标对齐。
Fine alignment. 精细对齐阶段包括两个主要步骤:识别锚点以捕捉切片特有的区域细节和全局轮廓,然后应用经典的 ICP 算法。首先,根据 R 包 lisi 中实现的 LISI 值的中位数选择对两个切片都常见的高集中区域。随后,我们识别与所选区域和切片相对应的凹壳。这些凹壳用于描述区域的局部属性和整个切片的更广泛的形状特征。最后,在这些信息点集合上使用 ICP 算法实现精细配准,从而得到所需的对齐结果。