FASTA 与 FASTQ格式详解

FASTA

1.FASTA存储什么?

fasta存储核酸序列(DNA/RNA),也存储蛋白质的核苷酸序列(Animo Acid sequence,简称AA序列)

2.FASTA包含什么内容?

第一行:以“>”开头主要存储的是序列的描述信息

第二行:序列

3.例子1: AA序列(核苷酸序列)

UniRef数据库中下载的人类血红蛋白α亚基的序列。

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHG
KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP
AVHASLDKFLASVSTVLTSKYR

从第一行看起:

第二行开始:核苷酸序列的信息,我们一般使用下面的对应表。

 

例子2:For 核酸序列

使用人类血红蛋白a亚基对应的mRNA序列,这个序列是从NCBI RefSeq数据库中下载的。

>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGG
GGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCA
CCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAA
GGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGC
GACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGA
CCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTC
TGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTG
G

从第一行看起:

gi号具有唯一性。

第二行开始:

发现在mRNA序列还是用T来表示,这是为了保证数据的统一性;U只是在RNA中替换了原来的T。

 

FASTQ

1.什么是FASTQ?

FASTQ是带有测序质量信息的存储格式。

2.FASTQ包含什么内容?

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,

第一行:序列测序的坐标信息等。

第二行:测序得到的碱基序列,一般用ATGCN表示,N表示荧光信号干扰无法判断到底是哪个碱基。

第三行:“+”开头,一般为空(无用)

第四行:测序质量信息,与第二行的碱基序列是一一对应的。其中每一个符号对应的ASCII值成为phred值

phred值可以理解为对应碱基的质量值,越大说明测序质量越好。

3.FASTQ质量值的计算方法

P值:测序错误概率error probility;测序仪根据荧光信号强弱会给出的一个参考值。

Q=-10*log10(P)

Phred=Q+33/64(illumina:+33)

Phred对应的ASCII字符对应到这个碱基。

 

 

 


版权声明:本文为weixin_44649331原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。