首先,非常感谢各位朋友的关注与支持,我们的生物信息学入门Live已经成功举办了4场,参与人数突破了1200人,并且获得了全部的好评!非常感谢!我们的知乎Live课程
在这4次课程中,我们学习了RNA-Seq的数据分析流程,学习了以ChIP-Seq数据分析为代表的表观遗传学数据分析,给大家介绍了人类基因组的相关结构与特征,并给大家介绍了图形化不用命令行进行高通量测序分析的流程。总的来说,我们进步很快!我们已经完成了下面2个部分的入门学习
不过,做生物信息学,永远迈不过的一个坎就是编程和脚本的书写。因为,这个世界上,肯定肯定有人没有写过的生物信息学工具,并且我们在处理问题的过程中,一定会有特殊的需求。也正是因为这个原因,我们需要要选择一门编程语言进行入门。
那么,做生物信息学选择什么语言呢?
我们不妨把常用的几种语言都列出来,说说他们到底适不适合做生信。C
C++
JAVA
Perl
Matlab
R
Python
... ...
我们其实还可以列出很多很多语言,比如世界上最好的语言PHP,但是毕竟不常用,我们也就不讨论了。
先说C语言,太过于底层,现在搞生信的基本都不用C,所以Pass;
C++与Java都是非常完备的语言,非常适合写性能要求比较高的程序,比如生信里面的比对软件几乎都是这两种语言写的(BWA,Bowtie2,GATK等等)。但是对于我们入门来说,或者说以后的主要工作不是写生信工具来说,C++和Java的学习曲线有一些过于陡峭,所以不推荐;
Matlab,不是说不好用,是说太贵了买不起,所以不推荐;
R,现在在各个领域有非常好的应用,但是,生物信息学的预处理过程,或者说是前期处理过程会涉及到大量的文本分析,而且文件也非常大。R去做文本处理的便捷程度真的是大打折扣。它的优势在于后期的统计分析与图像绘制,所以,对于基因组的分析,也不是特别推荐。
最后就是perl和python的比较了。实话实说,在基因组序列分析的过程中,perl和python不分伯仲,甚至perl有的时候会有更简洁的代码实现(毕竟有非常无敌的哈希结构),但是我还是推荐大家入门学习python。因为python不仅仅能够做生物信息学分析,还可以写爬虫,做机器学习,深度学习,搭建数据库,搭建网站等等,这些都是perl不能比拟的。所以,学了perl,你学会了文本处理,但是学了python,你是学会了一种可以挖掘所有类型数据的工具!
综上所述,我们打算进行Python的入门!
那么本次知乎Live的主要内容都包括哪些?
本次知乎Live我们讲为大家介绍以下几部分的内容:
• Python的背景介绍
• Python的版本选择
• Python扩展包的安装与管理
• conda与bioconda
• Python的数据结构
• Python的语言结构
• 应用1:fasta与fastq格式的转换
• 应用2:统计人类参考基因组的各染色体长度
• 应用3:统计人类参考基因组的各染色体未测序区域
• 应用4:统计人类参考基因组的CDS长度
• 应用5:统计人类参考基因组的gene密度分布
• 应用6:提取人类参考基因组特定区域的序列,并用fasta格式输出
• 应用7:探索人类基因组GC含量与gene密度的关系
What else?
大家以为这就结束啦??不不不!本次Live不只是我一个人讲!还有一位神秘的嘉宾( @路过的xxx )!为大家讲解基于Python的数据处理流程的搭建!
什么是数据处理流程?举个简单的例子,比如你有100个RNA-Seq数据要分析,用同样的处理流程,如果你一次一次的提交代码,那么你需要提交100次,如果我们建立一个固定的处理流程,只需要更改输入就可以让程序自动一步一步运行,是不是非常棒?比如我们有若干需要处理的RNA-Seq数据,每个数据都需要使用相同的流程
所以,对于刚开始入门生物信息的同学,我们推荐大家一步一步的运行程序,获得结果,了解自己数据的每一步产出。
但是,在熟悉整套过程之后你会发现,很多时候分析数据都是一个重复的过程,使用相同的流程。
每一次的实验设计不同就要不断地改变自己写的bash脚本来运行程序,这种重复繁杂的工作非常耽误时间。随着二代测序价格下降,各种测序数据爆炸增长,以后我们会有大量数据去挖掘,所以拥有能够对大量的数据进行重复分析是非常有必要的。
因此,我们在这里Live中,安排了专门的部分,为大家讲解Pipeline的搭建,其中会涉及到snakemake工具。而snakemake,本身也是基于Python3的。1个搭建好了的流程,总共处理了109个任务,非常好用!
我们选择snakemake搭建pipeline的主要原因如下:
1. 代码易读,易于修改、重复利用
2. 可直接运行python代码以及R代码
3. 完善的任务运行判断系统和断点运行支持(上一个任务的文件产生后才执行下一个任务)
4. 完美支持集群的任务调度系统
而在本次Live中,我们将会介绍:
1. 介绍snakemake的基础概念
2. 使用snakemake写一个转录组的流程(tophat2 + cufflink + cuffdiff)
所以,快来享受,输入测序结果,输出差异表达的快感吧!
本次Live的时间与链接
2017年10月30日,晚7点我们不见不散!知乎Live链接:学习Python,做生信
之前的Live链接与主要内容
1. 知乎Live:如何快速入门生物信息学(涉及内容:测序原理,生物信息学发展历史,软件的安装与调试,入门路线图,介绍了RNA-Seq的分析流程并给出实践代码);
2. 知乎Live: 生信进阶第1课-重复Nature文章(涉及内容:肺癌相关研究现状,RNA-Seq单细胞测序,RNA-Seq的建库方法,RNA-Seq的分析流程细节,相关生信图的绘制);
3. 知乎Live:生信进阶第2课-基因组序列(涉及内容:介绍基因组的序列结构,hg19与hg38的区别,ENCODE计划,常用的表观组学实验原理ChIP-Seq,Hi-C等,ChIP-Seq的标准处理流程,绘图原理)
4. 知乎Live:不用编程怎么做生物信息学(涉及内容:介绍生物信息学入门的几个层次,从命令行到图形界面再到命令行,绘制生物进化树,图形界面分析平台,使用图形界面处理RNA-Seq数据,使用图形界面分析ChIP-Seq数据,UCSC genome browser,WashU genome browser)