传统单细胞转录组或bulk转录组方法大多主要集中于基因表达水平的分析。但是有时候致病基因的表达情况并没有发生改变,而是基因间调控关系发生了改变。
下面介绍一篇利用基因间调控关系来研究疾病的方法:
什么是CSN?
简单来讲就是每个细胞都有一个基因互作的网络(下面这张图代表的是每个细胞里的基因互作网络,各不相同)
网络构建大多方法是基于相关性,而相关性的方法需要多个样本(多个细胞)的基因表达才能计算。那像它这种每个细胞一个网络怎么做的?
CSN和NDM构建方法
该方法的H (0)(零假设):基因x和y在细胞k中是独立的。
H (1)(备择假设):基因x和y在细胞k中相互关联。
首先,对基因x和y的表达值制作散点图,其中每个图代表一个细胞,然后我们在细胞k 附近画三个框浅、中、深灰色,代表x基因,y基因以及x,y基因的领域。简单来说就是深灰色的点越多,说明x和y基因的相互依赖程度越高。
因此利用公式可以计算出来一个统计量:
该统计量的范围是 -1 到 1,如果x和y彼此独立,则统计量ρ (xy)(k)近似服从正态分布,平均值和标准差为
最后设置显著性阈值,如果如果统计量大于阈值就说明两个基因相互依赖。
以下是基因x和y相互独立(A)基因x和y在部分细胞中相互依赖(B),基因x和y在所有细胞中相互依赖(C)的情况,
用这个方法就可以计出细胞中所有基因两两之间的相互依赖性。
进一步构建基于细胞特异网络(CSN)的网络度矩阵(NDM),其中每个元素并非基因表达水平,而是每个CSN中连接到每个基因的边数。NDM体现了网络特征,反映了网络中每个基因的重要性。其行数和列数与原始GEM相同,因此任何现有的scRNA-seq方法都可以对其进行细胞聚类和伪轨迹构建分析,从而为从网络视角分析scRNA-seq数据开辟了一条新途径。在各种scRNA-seq数据集上的实验表明,在大多数聚类和伪轨迹方法中,NDM在准确率和稳健性方面均优于原始GEM。
结果表现
该研究发现了这些基因的Degree随时间变化产生剧烈波动,这在基因表达上是观察不到的。
在细胞亚群分簇时也表现更好的性能
同时这个方法也适用于bulk转录组数据
这项研究后面也基于TCGA腺癌和鳞状细胞癌bulk RNA-seq数据的GEM与NDM比较,( A ) GEM与NDM的聚类性能(t-SNE)。不同颜色代表不同的细胞类型。( B ) SPRR2E基因的表达水平FPKM和网络度。( C ) 基于NDM可将鳞状细胞癌分为S1和S2两部分,生存分析显示S1与S2之间存在显著差异。
这项研究表明,虽然基因表达水平本身很重要,但基因之间的调控关系同样不可忽视。这种网络视角有助于识别那些在表达层面并不显著、却在调控网络中发挥关键作用的“暗基因”(dark genes)。该方法为挖掘潜在功能基因提供了全新的研究思路。
当你还在为转录组表达数据找不到marker的时候,或许可以试试这个方法
下一篇整理这项研究的代码