接上一篇文章,现在开始筛选数据组成count矩阵。
上一篇:TCGA下载GBM患者的RNA-seq数据
上一篇结束,下载到初始数据(图一图二是下载之后的文件夹以及每一个文件夹中的count数据文件)
需要从每一个count数据文件中筛选出gene_name、gene_type为lncRNA、FPKM表达量,效果图如下:
由于不会R语言,就用python来实现
步骤:
- 从每一个文件夹中提取出来count数据文件,整理到一个新文件夹中
- 将所有count数据文件中需要的列提取出来,整合到一个文件中
- 在整合文件中手动复制粘贴添加 gene_id、gene_name、gene