基于voerlap的相似性度量-单细胞克隆亚型分析
一、背景
基于overlap的相似性度量,有多种多样的方法,其应用也是多种多样。这里,我们主要讲解在单细胞免疫组库中的应用。
基于单细胞的免疫组库的测序,我们可以获得每一个细胞类群中的不用克隆亚型,基于这些克隆亚型的overlap,我们可以推断不同细胞亚群的生命体的状态变化,或者是进化轨迹分析。
二、基于overlap的相似性度量
2.1 Jaccard 系数
Jaccard index 衡量有限样本集合之间的相似度,定义为交集的大小除以样本集并集的大小。
Jaccard index=A∩BA∪B
Jaccard \ index = \frac{A \cap B}{A \cup B}
Jaccard index=A∪BA∩B
2.2 Cosine similarity
Cosine similarity是一种余弦相似性指标,适用于两个非零向量(只要你的数据能够转化)
基于两个向量:a⃗=(x1,y1)\vec a = (x_1, y_1)a=(x1,y1),b⃗=(x2,y2)\vec b = (x_2, y_2)b=(x2,y2)
Cosine similarity=a⋅b∣∣a∣∣×∣∣b∣∣=x1x2+y1y2x12+y12×x22+y22
Cosine \ similarity = \frac{a \cdot b}{||a|| \times ||b||} = \frac{x_{1}x_{2}+y_{1}y_{2}}{\sqrt{x_1^2+y_1^2} \times \sqrt{x_2^2 + y_2^2}}
Cosine similarity=∣∣a∣∣×∣∣b∣∣a⋅b=x12+y12×x22+y22x1x2+y1y2
2.3 Morisita-Horn similarity
Morisita Horn similarity=∑i=1n2×Xi×Yi∑i=1nXi2+∑i=1nYi2 Morisita \ Horn \ similarity = \frac{\sum\limits_{i=1}^{n}{2 \times X_i \times Y_i}}{\sum\limits_{i=1}^{n}{X_i^2} + \sum\limits_{i=1}^{n}{Y_i^2}} Morisita Horn similarity=i=1∑nXi2+i=1∑nYi2i=1∑n2×Xi×Yi
其中,
- XiX_iXi表示在 XXX 集合中,第 iii 类别的个数(或相对个数)
- YiY_iYi表示在 YYY 集合中,第 iii 类别的个数(或相对个数)
比如,在两种组织的单细胞亚型的相似性度量:
MH index=2×∑i=1nTi×Bi∑i=1n(Ti2+Bi2)Ti=tiTNBi=biBN
MH \ index = \frac{2 \times \sum\limits_{i=1}^{n}{T_i \times B_i}}{\sum\limits_{i=1}^{n}{(T_i^2 + B_i^2)}} \\
T_i = \frac{t_i}{T_N} \\
B_i = \frac{b_i}{B_N}
MH index=i=1∑n(Ti2+Bi2)2×i=1∑nTi×BiTi=TNtiBi=BNbi
其中,
- bib_ibi 和 tit_iti 分别表示在血液和肿瘤组织内,第 iii 个克隆亚型的细胞的数量
- BNB_NBN 和 TNT_NTN 分别表示在血液和肿瘤组织内,所有克隆亚型的细胞数量
三、个人理解
- Jaccard index通常是指标签unique之后,进行重叠相似性分析
- Cosine index既可以是unique之后的,也可以是每个样本类型中,重叠的数量,看你如何构建两个向量了
- Morisita-Horn index通常是基于重叠的类型在各个样本组织中的数量或者比值进行计算的
- 可以通过R包 immunarch 实现更多的分析