gff文件_GFF3格式介绍 | Public Library of Bioinformatics

GFF3是GFF注释文件的新标准,文件每行代表基因组一个属性,分9列以TAB分开,包括参照序列、来源、类型等内容。每列都有特定含义和填写规则,如起点从1开始计数,得分若为空用点代替等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

GFF3是GFF注释文件的新标准。文件中每一行为基因组的一个属性,分为9列,以TAB分开。

依次是:

1. reference sequence:参照序列

指出注释的对象。如一个染色体,克隆或片段。可以有多个参照序列。

2. source :来源

注释的来源。如果未知,则用点(.)代替。

3. type :类型

属性的类型。建议使用符合SO惯例的名称(sequence ontology,参看[[Sequence Ontology Project]]) ,如gene,repeat_region,exon,CDS等。

4. start position :起点

属性对应片段的起点。从1开始计数。

5. end position :终点

属性对应片段的终点。一般比起点的数值要大。

6. score :得分

对于一些可以量化的属性,可以在此设置一个数值以表示程度的不同。如果为空,用点(.)代替。

7. strand :链

“+”表示正链,“-”表示负链,“.”表示不需要指定正负链。

8. phase :步进

对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。可以是0,1或2,表示到达下一个密码子需要跳过的碱基个数。对于其它属性,则用点(.)代替。

9. attributes :属性

一个包含众多属性的列表。格式为“标签=值”(tag=value)。不同属性之间以分号相隔。可以存在空格,不过若有“,=;”则用URL转义(URL escaping rule),同时TAB也需要转换为“%09”表示。

下列的标签已定义:

ID :指定一个唯一的标识。对属性分类是非常好用(例如查找一个转录单位中所以的外显子)。

Name :指定属性的名称。展示给用户的就是该属性。

Alias:名称的代称或其它。当存在其它名称时使用该属性。

Note:描述性的一些说明。

Alias和Note可以有多个值,不同值之间以逗号分隔。

如:Alias=M19211,gna-12,GAMMA-GLOBULIN

### 使用 `gff3_to_tbl` 工具的方法 #### 安装依赖工具 为了能够顺利运行 `gff3_to_tbl` 脚本,通常需要安装一些必要的软件包。这些可能包括 Perl 及其模块、BioPerl 库以及其他辅助程序。 ```bash sudo apt-get update && sudo apt-get install -y perl bioperl ``` #### 下载并准备脚本 可以从 NCBI 或其他资源下载最新的 `gff3_to_tbl.pl` 脚本文件,并将其放置在一个合适的目录下以便执行: ```bash wget https://ftp.ncbi.nlm.nih.gov/genomes/TOOLS/gff3_to_tbl_v2.8.tar.gz tar zxvf gff3_to_tbl_v2.8.tar.gz cd gff3_to_tbl_v2.8/ chmod +x *.pl export PATH=$PATH:/path/to/gff3_to_tbl_directory ``` #### 准备输入文件 该工具主要处理 GFF3 文件作为输入数据源。确保拥有一个格式良好的 GFF3 文件用于转换操作。此外还需要 FASTA 格式的序列文件来补充基因组位置信息[^1]。 #### 运行命令示例 下面是一个简单的例子展示如何调用此工具来进行转换工作: ```bash perl gff3_to_tbl.pl input.gff3 output.tbl <fasta_sequence.fa> ``` 这里: - `input.gff3`: 是待解析的 GFF3 注释文件路径; - `output.tbl`: 将要生成的目标表格文件名; - `<fasta_sequence.fa>`: 提供给定特征的具体坐标范围内的碱基序列信息; 请注意,在实际应用过程中可能会遇到不同版本间的差异以及特定参数设置的需求,因此建议查阅官方文档获取最准确的帮助指南。 #### 验证输出结果 一旦完成了上述步骤之后,可以打开产生的 `.tbl` 文件查看结构化后的表单内容是否符合预期标准。如果一切正常,则说明已经成功掌握了基本的操作流程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值