人生苦短我用python壁纸_人生苦短，我用Python

最新推荐文章于 2023-03-21 21:40:33 发布

weixin_39531761

最新推荐文章于 2023-03-21 21:40:33 发布

阅读量572

点赞数

文章标签：人生苦短我用python壁纸

首先，非常感谢各位朋友的关注与支持，我们的生物信息学入门Live已经成功举办了4场，参与人数突破了1200人，并且获得了全部的好评！非常感谢！我们的知乎Live课程

在这4次课程中，我们学习了RNA-Seq的数据分析流程，学习了以ChIP-Seq数据分析为代表的表观遗传学数据分析，给大家介绍了人类基因组的相关结构与特征，并给大家介绍了图形化不用命令行进行高通量测序分析的流程。总的来说，我们进步很快！我们已经完成了下面2个部分的入门学习

不过，做生物信息学，永远迈不过的一个坎就是编程和脚本的书写。因为，这个世界上，肯定肯定有人没有写过的生物信息学工具，并且我们在处理问题的过程中，一定会有特殊的需求。也正是因为这个原因，我们需要要选择一门编程语言进行入门。

那么，做生物信息学选择什么语言呢？

我们不妨把常用的几种语言都列出来，说说他们到底适不适合做生信。C

C++

JAVA

Perl

Matlab

Python

... ...

我们其实还可以列出很多很多语言，比如世界上最好的语言PHP，但是毕竟不常用，我们也就不讨论了。

先说C语言，太过于底层，现在搞生信的基本都不用C，所以Pass；

C++与Java都是非常完备的语言，非常适合写性能要求比较高的程序，比如生信里面的比对软件几乎都是这两种语言写的（BWA，Bowtie2，GATK等等）。但是对于我们入门来说，或者说以后的主要工作不是写生信工具来说，C++和Java的学习曲线有一些过于陡峭，所以不推荐；

Matlab，不是说不好用，是说太贵了买不起，所以不推荐；

R，现在在各个领域有非常好的应用，但是，生物信息学的预处理过程，或者说是前期处理过程会涉及到大量的文本分析，而且文件也非常大。R去做文本处理的便捷程度真的是大打折扣。它的优势在于后期的统计分析与图像绘制，所以，对于基因组的分析，也不是特别推荐。

最后就是perl和python的比较了。实话实说，在基因组序列分析的过程中，perl和python不分伯仲，甚至perl有的时候会有更简洁的代码实现（毕竟有非常无敌的哈希结构），但是我还是推荐大家入门学习python。因为python不仅仅能够做生物信息学分析，还可以写爬虫，做机器学习，深度学习，搭建数据库，搭建网站等等，这些都是perl不能比拟的。所以，学了perl，你学会了文本处理，但是学了python，你是学会了一种可以挖掘所有类型数据的工具！

综上所述，我们打算进行Python的入门！

那么本次知乎Live的主要内容都包括哪些？

本次知乎Live我们讲为大家介绍以下几部分的内容：

• Python的背景介绍

• Python的版本选择

• Python扩展包的安装与管理

• conda与bioconda

• Python的数据结构

• Python的语言结构

• 应用1：fasta与fastq格式的转换

• 应用2：统计人类参考基因组的各染色体长度

• 应用3：统计人类参考基因组的各染色体未测序区域

• 应用4：统计人类参考基因组的CDS长度

• 应用5：统计人类参考基因组的gene密度分布

• 应用6：提取人类参考基因组特定区域的序列，并用fasta格式输出

• 应用7：探索人类基因组GC含量与gene密度的关系

What else？

大家以为这就结束啦？？不不不！本次Live不只是我一个人讲！还有一位神秘的嘉宾（ @路过的xxx ）！为大家讲解基于Python的数据处理流程的搭建！

什么是数据处理流程？举个简单的例子，比如你有100个RNA-Seq数据要分析，用同样的处理流程，如果你一次一次的提交代码，那么你需要提交100次，如果我们建立一个固定的处理流程，只需要更改输入就可以让程序自动一步一步运行，是不是非常棒？比如我们有若干需要处理的RNA-Seq数据，每个数据都需要使用相同的流程

所以，对于刚开始入门生物信息的同学，我们推荐大家一步一步的运行程序，获得结果，了解自己数据的每一步产出。

但是，在熟悉整套过程之后你会发现，很多时候分析数据都是一个重复的过程，使用相同的流程。

每一次的实验设计不同就要不断地改变自己写的bash脚本来运行程序，这种重复繁杂的工作非常耽误时间。随着二代测序价格下降，各种测序数据爆炸增长，以后我们会有大量数据去挖掘，所以拥有能够对大量的数据进行重复分析是非常有必要的。

因此，我们在这里Live中，安排了专门的部分，为大家讲解Pipeline的搭建，其中会涉及到snakemake工具。而snakemake，本身也是基于Python3的。1个搭建好了的流程，总共处理了109个任务，非常好用！

我们选择snakemake搭建pipeline的主要原因如下:

1. 代码易读，易于修改、重复利用

2. 可直接运行python代码以及R代码

3. 完善的任务运行判断系统和断点运行支持(上一个任务的文件产生后才执行下一个任务)

4. 完美支持集群的任务调度系统

而在本次Live中，我们将会介绍：

1. 介绍snakemake的基础概念

2. 使用snakemake写一个转录组的流程（tophat2 + cufflink + cuffdiff）

所以，快来享受，输入测序结果，输出差异表达的快感吧！

本次Live的时间与链接

2017年10月30日，晚7点我们不见不散！知乎Live链接：学习Python，做生信

之前的Live链接与主要内容

1. 知乎Live：如何快速入门生物信息学（涉及内容：测序原理，生物信息学发展历史，软件的安装与调试，入门路线图，介绍了RNA-Seq的分析流程并给出实践代码）；

2. 知乎Live: 生信进阶第1课-重复Nature文章(涉及内容：肺癌相关研究现状，RNA-Seq单细胞测序，RNA-Seq的建库方法，RNA-Seq的分析流程细节，相关生信图的绘制）；

3. 知乎Live：生信进阶第2课-基因组序列(涉及内容：介绍基因组的序列结构，hg19与hg38的区别，ENCODE计划，常用的表观组学实验原理ChIP-Seq，Hi-C等，ChIP-Seq的标准处理流程，绘图原理)

4. 知乎Live：不用编程怎么做生物信息学(涉及内容：介绍生物信息学入门的几个层次，从命令行到图形界面再到命令行，绘制生物进化树，图形界面分析平台，使用图形界面处理RNA-Seq数据，使用图形界面分析ChIP-Seq数据，UCSC genome browser，WashU genome browser)