FASTA

1.FASTA存储什么？

fasta存储核酸序列（DNA/RNA），也存储蛋白质的核苷酸序列（Animo Acid sequence，简称AA序列）

2.FASTA包含什么内容？

第一行：以“>”开头主要存储的是序列的描述信息

第二行：序列

3.例子1： AA序列（核苷酸序列）

UniRef数据库中下载的人类血红蛋白α亚基的序列。

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHG
KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP
AVHASLDKFLASVSTVLTSKYR

从第一行看起：

第二行开始：核苷酸序列的信息，我们一般使用下面的对应表。

例子2：For 核酸序列

使用人类血红蛋白a亚基对应的mRNA序列，这个序列是从NCBI RefSeq数据库中下载的。

>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGG
GGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCA
CCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAA
GGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGC
GACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGA
CCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTC
TGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTG
G

从第一行看起：

gi号具有唯一性。

第二行开始：

发现在mRNA序列还是用T来表示，这是为了保证数据的统一性；U只是在RNA中替换了原来的T。

FASTQ

1.什么是FASTQ？

FASTQ是带有测序质量信息的存储格式。

2.FASTQ包含什么内容？

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,

第一行：序列测序的坐标信息等。

第二行：测序得到的碱基序列，一般用ATGCN表示，N表示荧光信号干扰无法判断到底是哪个碱基。

第三行：“+”开头，一般为空（无用）

第四行：测序质量信息，与第二行的碱基序列是一一对应的。其中每一个符号对应的ASCII值成为phred值

phred值可以理解为对应碱基的质量值，越大说明测序质量越好。

3.FASTQ质量值的计算方法

P值：测序错误概率error probility；测序仪根据荧光信号强弱会给出的一个参考值。

Q=-10*log10(P)

Phred=Q+33/64(illumina:+33)

Phred对应的ASCII字符对应到这个碱基。

原文链接：https://blog.csdn.net/weixin_44649331/article/details/89285382