启动子的分析和预测

一、摘要

加深对基因启动子的理解和认知；
学会如何获取已知基因的启动子序列数据；
熟悉不同启动子分析软件的使用及其适用范围；
学会设计启动子克隆引物。
熟悉EPD和TransFac数据库的使用；
学会使用已知的启动子和转录因子TransFac的HMM模型，并能够独立编程，利用该HMM模型来计算鉴别未知启动子

二、材料和方法

1、硬件平台

处理器:Intel（R） Core（TM）i7-4710MQ CPU @ 2.50GHz
安装内存(RAM)：16.0GB

2、系统平台

Windows 8.1、Ubuntu

3、软件平台

【1】Primer-BLAST
【2】Softberry系列工具
【3】Promoter 2.0
【4】BDGP
【5】Cister
【6】NEBcutter

4、数据库资源

NCBI数据库：https://www.ncbi.nlm.nih.gov/
UCSC数据库：http://genome.ucsc.edu/

5、研究对象

人类谷胱甘肽硫转移酶M1的promoter区域

三、结果

基因启动子序列的获取

选择基因：谷胱甘肽硫转移酶M1(GSTM1)
概况：当携带风险基因型时，对环境毒素和致癌物质的敏感性提高，易发生DNA突变和染色体畸变，患白血病的风险因而显著增加。
首先进入UCSC genome browser 查看GSTM1上游5kb范围内有无其他基因。发现该基因的上游存在同一家族的GSTM2，所以promoter大概只有3kb。

图表 1UCSC genome browser
接下来进入Genbank，搜索GSTM1，查看该基因在基因组中的定位和基因结构。

图表 2查看基因定位和结构
打开该基因的序列信息，获取该基因的启动子序列（包含exon1）

Neural Network Promoter Prediction

进入BDGP: Neural Network Promoter Prediction网站http://www.fruitfly.org/seq_tools/promoter.html，进行启动子预测
BDGP启动子预测
图表 3 BDGP: Neural Network Promoter Prediction网站
一共预测出来3个启动子(这个网站预测出来的promoter都是50bp)
BDGP预测结果

Promoter 2.0 Prediction

使用Promoter 2.0 Prediction Server http://www.cbs.dtu.dk/services/Promoter/
进行启动子预测，也是一共预测出来3个启动子

图表 5Promoter 2.0预测结果

Softberry预测

TSSW、TSSP、TSSG、FPROM都是softberry提供的启动子预测工具，进入
官网(http://www.softberry.com/)，然后点击service即可，启动子预测工具网址：
http://www.softberry.com/berry.phtml?topic=index&group=programs&subgroup=promoter

TSSW

TSSW具体网址如下(http://www.softberry.com/berry.phtml?topic=tssw&group=programs&subgroup=promoter)，输入序列进行预测即可。TSSW并没有预测出来promoter区域。

图表 6TSSW预测结果

TSSP

TSSP具体网址如下(http://www.softberry.com/berry.phtml?topic=tssp&group=programs&subgroup=promoter)，输入序列进行预测即可。共计预测出来一个promoter区域。

图表 7 TSSP预测结果

TSSG

TSSG具体网址如下(http://www.softberry.com/berry.phtml?topic=tssg&group=programs&subgroup=promoter)，输入序列进行预测即可。TSSG并没有预测出来promoter区域。

图表 8TSSG预测结果

TSSW/ TSSP/ TSSB

根据一位网友"Janelight"的建议，TSSP、TSSG分别是预测植物和细菌的区域。我这里用的是谷胱甘肽硫转移酶M1(GSTM1) human，只需要使用TSSW预测就可以。 TSSW/ TSSP/ TSSB: Programs for predicting animal, plant and bacterial promoters and functional sites.

FPROM

FPROM具体网址如下(http://www.softberry.com/berry.phtml?topic=fprom&group=programs&subgroup=promoter)，输入序列进行预测即可。FPROM并没有预测出来promoter区域。

图表 9FPROM预测结果

Cister

Transcription Elements预测平台：Cis-element Cluster Finder
https://zlab.bu.edu/~mfrith/cister.shtml
由于序列只有3kb，默认参数预测出来的转录元件太少，将average distance between clusters参数由默认的3w修改为3k，最有可能的结果还是NF-1

图表 10Cister预测结果

Match

转录因子预测集合网站http://gene-regulation.com/pub/programs.html (需要注册)
具体网址http://gene-regulation.com/cgi-bin/pub/programs/match/bin/match.cgi

图表 11Match预测结果

AliBaba 2.1

转录因子预测集合网站http://gene-regulation.com/pub/programs.html (需要注册)
具体网址http://gene-regulation.com/pub/programs/alibaba2/index.html
预测出来一大堆，下面仅截取其中一部分。

图表 12AliBaba预测结果

基因结构绘图

虽然使用了6个promoter预测在线平台，但是只有3个平台预测出promoter。
利用在线平台processon绘制基因结构图

图表 13基因结构图
接下来大致将预测结果分为4个区域，将引物设计的范围同时绘制出来（箭头为引物）

PrimerBlast引物设计

图表 14引物结构
先使用默认参数进行尝试，设置好Forward primer和Reverse primer的Range，再将PCR product size最大值调成整段序列的长度3005，同时# of primers to return参数调整为1，以方便截图。

图表 15引物位置

图表 16初步设置参数
然而由于有重复序列，经过repeat filtering，不会跑出来引物，只能将参数调宽松。

图表 17默认参数结果
在Advanced parameters的Primer Parameters栏目，将Repeat filter关掉，同样可以看出来GC含量和TM值也筛选掉很多引物，在Internal hybridization oligo parameters栏目，将引物内杂交的参数调整宽松。

图表 18高级参数调整

引物设计结果：

图表 19第一段

图表 20第二段

图表 21第三段

图表 22第四段
第一段：

·	Sequence (5’->3’)	Template strand	Length	Start	Stop	Tm	GC%	Self complementarity	Self 3’ complementarity
Forward primer	TCGTACCTACCCTCTGTTCGT	Plus	21	164	184	60	52.38	4	0
Reverse primer	GGGCTGCACTCAGTAAGACT	Minus	20	2918	2899	59.39	55	5	3

第二段：

·	Sequence (5’->3’)	Template strand	Length	Start	Stop	Tm	GC%	Self complementarity	Self 3’ complementarity
Forward primer	CCAAGTGCCCCAACTTAGCA	Plus	20	849	868	60.54	55	4	0
Reverse primer	GGGCTGCACTCAGTAAGACT	Minus	20	2918	2899	59.39	55	5	3

第三段：

·	Sequence (5’->3’)	Template strand	Length	Start	Stop	Tm	GC%	Self complementarity	Self 3’ complementarity
Forward primer	CCAGGCGTCACTAACACAGG	Plus	20	1522	1541	60.67	60	3	1
Reverse primer	GTTCCGGGAGCGAAGTCAG	Minus	19	2874	2856	60.45	63.16	5	1

第四段：

·	Sequence (5’->3’)	Template strand	Length	Start	Stop	Tm	GC%	Self complementarity	Self 3’ complementarity
Forward primer	CGAGGGCCCCTAACAGAAAA	Plus	20	2405	2424	59.67	55	7	0
Reverse primer	CTGGGGCTGCACTCAGTAAG	Minus	20	2921	2902	60.39	60	5	3

NEBcutter酶切位点分析

使用NEBcutter分析该启动子序列，为了更加全面，查找全部的特异性位点Enzymes to use: All specificities
http://nc2.neb.com/NEBcutter2/
保存没有酶切位点“0 cutters”的核酸内切酶数据，见附录。

图表 23NEBcutter结果

pGL4.17载体

查询pGL4.17的载体数据，获得酶切信息。查询关键词：promega pGL4.17。

图表 24pGL4.17载体信息
其中SfiI、Acc65I、KpnI、SacI、NheI、XhoI、EcoRV、BglII、HindIII这九个酶都属于在promoter内部没有酶切位点的，这些都可以选用。

引物设计

从上面九个酶中随便选两个（真实情况要考虑到切割率等问题）
选择KpnI和SacI，下面是酶切位点和保护碱基对应表，KpnI选两个保护碱基。
引物设计
可以看出来酶切位点序列在反向互补以后和原序列相同，直接把这段序列加在引物前面就成。
最后按照“保护碱基+酶切序列+PCR引物”的顺序，设计用于可以转到pGL4.17载体的引物。

·	164…184–2918…2899	849…868–2918…2899	1522…1541–2874…2856	2405…2424–2921…2902
Forward Primer	CGAGCTCTCGTACCTACCCTCTGTTCGT	CGAGCTCCCAAGTGCCCCAACTTAGCA	CGAGCTCCCAGGCGTCACTAACACAGG	CGAGCTCCGAGGGCCCCTAACAGAAAA
Reverse Primer	GGGGTACCGGGCTGCACTCAGTAAGACT	GGGGTACCGGGCTGCACTCAGTAAGACT	GGGGTACCGTTCCGGGAGCGAAGTCAG	GGGGTACCCTGGGGCTGCACTCAGTAAG

后续实验流程

接下来，用这四组引物，把四个promoter区域PCR出来，顺带PCR出来的还有保护碱基和酶切序列，导入pGL4.17，用双荧光素酶报告系统看看哪儿个promoter活性最高，大概会出来下面这种图，后面那张图明显说明promoter3活性最高。
后续实验流程
再接下来，还可以用TFSEARCH，TFBSs，TRED这样的转录因子预测软件（上面也做了几个预测），看看活性最高的那段区域和哪儿些转录因子相关，或者用pubmed查查看文献，ENCODE，TRANSFAC等数据库，查找这个基因启动子区域的转录因子信息。

接下来是编程练习部分

HMM模型

TransFac是转录因子数据库，但是好像需要注册才能下载模型的矩阵。
从EPD真核生物启动子数据库下载脊椎动物TATA-box的矩阵（共计12位碱基）。
网址http://epd.vital-it.ch/promoter_elements.php
利用该矩阵建立打分模型，对上面谷胱甘肽硫转移酶M1(GSTM1)的启动子序列进行分析，具体代码见附录。
打分值：每次取出12bp序列计算，依次计算每位碱基所占比例，再累乘得到分值（由于数值太小，分值皆除以最大分值）

图表 25打分值统计图
P值计算：使用bootstrap方法，将12bp序列打乱1000次，再按照上述方法计算分值，如果1000次内有n次分值高于“打乱之前的分值”，则p值为n/1000

图表 26 p值统计图
看的出来，整段promoter区域大部分分值都为0，p值为1。之前在线预测软件中的200,400,1200,2570这四个位置，此处也能预测出来，效果还可以。

附录

”0 cutters”核酸内切酶

Col1	Col2	Col3
1	AatII	GACGTC
2	AbaCIII	CTATCAV
3	AbsI	CCTCGAGG
4	Acc65I	GGTACC
5	Acc65V	GACGCA
6	AclI	AACGTT
7	AfeI	AGCGCT
8	AflII	CTTAAG
9	AflIII	ACRYGT
10	AhyRBAHI	GCYYGAC
11	AjuI	(N)5(N)7GAA(N)7TTGG(N)6(N)5
12	AleI	CACNNNNGTG
13	AloI	(N)5(N)7GAAC(N)6TCC(N)7(N)5
14	AlwFI	GAAAY(N)5RTG
15	ApyPI	ATCGAC(N)18NN
16	AscI	GGCGCGCC
17	AseI	ATTAAT
18	AsiSI	GCGATCGC
19	AspDUT2V	GNGCAAC
20	Asu14238IV	CGTRAC
21	BaeI	(N)5(N)10ACNNNNGTAYC(N)7(N)5
22	BamHI	GGATCC
23	BarI	(N)5(N)7GAAG(N)6TAC(N)7(N)5
24	Bce3081I	TAGGAG
25	BceAI	ACGGC(N)12NN
26	BcgI	NN(N)10CGA(N)6TGC(N)10NN
27	BclI	TGATCA
28	BdaI	NN(N)10TGA(N)6TCA(N)10NN
29	BglII	AGATCT
30	BlpI	GCTNAGC
31	BmgBI	CACGTC
32	BmtI	GCTAGC
33	BpuJI	CCCGT
34	BsaAI	YACGTR
35	BsbI	CAACAC(N)19NN
36	BsiEI	CGRYCG
37	BsiWI	CGTACG
38	Bsp24I	(N)5(N)8GAC(N)6TGG(N)7(N)5
39	Bsp3004IV	CCGCAT
40	Bsp460III	CGCGCAG
41	BspDI	ATCGAT
42	BsrBI	CCGCTC
43	BsrGI	TGTACA
44	BssHII	GCGCGC
45	BstAPI	GCANNNNNTGC
46	BstBI	TTCGAA
47	BstEII	GGTNACC
48	BstZ17I	GTATAC
49	Bsu3610I	GACGAG
50	BtgZI	GCGATG(N)10NNNN
51	Cal14237I	GGTTAG
52	CcrNAIII	CGACCAG
53	Cdi11397I	GCGCAG
54	Cdi81III	GCMGAAG
55	CdiI	CATCG
56	Cgl13032I	GGCGCA
57	Cgl13032II	ACGABGG
58	ClaI	ATCGAT
59	Cma23826I	CGGAAG
60	CstMI	AAGGAG(N)18NN
61	DrdI	GACNNNNNNGTC
62	EagI	CGGCCG
63	EciI	GGCGGA(N)9NN
64	Eco53kI	GAGCTC
65	EcoRV	GATATC
66	Exi27195I	GCCGAC
67	FseI	GGCCGGCC
68	FspAI	RTGCGCAY
69	FspI	TGCGCA
70	GauT27I	CGCGCAGG
71	GdiII	CGGCCR
72	HindIII	AAGCTT
73	HpaI	GTTAAC
74	Hpy99I	CGWCG
75	HpyAXIV	GCGTA
76	Jma19592I	GTATNAC
77	Jma19592II	GRGCRAC
78	Kor51II	RTCGAG
79	KpnI	GGTACC
80	Lmo370I	AGCGCCG
81	Lsp6406VI	CRAGCAC
82	Maf25II	CACGCAG
83	MaqI	CRTTGAC(N)19NN
84	MauBI	CGCGCGCG
85	MkaDII	GAGAYGT
86	MluI	ACGCGT
87	MreI	CGCCGGCG
88	MslI	CAYNNNNRTG
89	MteI	GCGCNGCGC
90	NaeI	GCCGGC
91	Nbr128II	ACCGAC
92	NgoMIV	GCCGGC
93	NhaXI	CAAGRAG
94	NheI	GCTAGC
95	NotI	GCGGCCGC
96	NpeUS61II	GATCGAC
97	NruI	TCGCGA
98	PacI	TTAATTAA
99	PaeR7I	CTCGAG
100	Pal408I	CCRTGAG
101	PciI	ACATGT
102	PcsI	WCGNNNNNNNCGW
103	Pfl1108I	TCGTAG
104	PflFI	GACNNNGTC
105	PflMI	CCANNNNNTGG
106	PlaDI	CATCAG(N)19NN
107	PliMI	CGCCGAC
108	PmeI	GTTTAAAC
109	PmlI	CACGTG
110	PpiI	(N)5(N)7GAAC(N)5CTC(N)8(N)5
111	PshAI	GACNNNNGTC
112	PsiI	TTATAA
113	PspXI	VCTCGAGB
114	PsrI	(N)5(N)7GAAC(N)6TAC(N)7(N)5
115	Pst273I	GATCGAG
116	PvuI	CGATCG
117	RceI	CATCGAC(N)18NN
118	RdeGBI	CCGCAG
119	RpaB5I	CGRGGAC(N)18NN
120	RpaBI	CCCGCAG(N)18NN
121	RpaI	GTYGGAG(N)9NN
122	RpaTI	GRTGGAG
123	Rsp008IV	ACGCAG
124	RspPBTS2III	CTTCGAG
125	RsrII	CGGWCCG
126	SacI	GAGCTC
127	Saf8902III	CAATNAG
128	SalI	GTCGAC
129	SbfI	CCTGCAGG
130	SexAI	ACCWGGT
131	SfiI	GGCCNNNNNGGCC
132	SgrAI	CRCCGGYG
133	SgrDI	CGTCGACG
134	SnaBI	TACGTA
135	SpeI	ACTAGT
136	SphI	GCATGC
137	SpnRII	TCGAG
138	SrfI	GCCCGGGC
139	SsmI	CTGATG
140	Ssp714II	CGCAGCG
141	SstE37I	CGAAGAC(N)18NN
142	Sth20745III	GGACGAC
143	SwaI	ATTTAAAT
144	TaqIII	CACCCA(N)9NN
145	TspARh3I	GRACGAC
146	TssI	GAGNNNCTC
147	Tth111I	GACNNNGTC
148	UbaF12I	CTACNNNGTC
149	UbaF13I	GAG(N)6CTGG
150	UbaF14I	CCA(N)5TCG
151	UbaF9I	TAC(N)5RTGT
152	UbaPI	CGAACG
153	Xca85IV	TACGAG
154	XhoI	CTCGAG
155	ZraI	GACGTC

模型矩阵

从EPD下载，保存为data.txt
http://epd.vital-it.ch/promoter_elements.php

Position	1	2	3	4	5	6	7	8	9	10	11	12
A	17.7	19.3	6.6	83.4	0	95	72.3	94.2	53.3	29.3	17.7	22.7
C	21.1	36.1	14.8	0	0	0	0	0	0	9	32.5	33
G	29	36.4	6.8	0	0	0	0	5.8	20.1	51.2	37.7	33.2
T	32.2	8.2	71.8	16.6	100	5	27.7	0	26.6	10.5	12.1	11.1

R代码

setwd("G:/AllShare/genomicsHomework/HMMmodel")
hmmmodel<- read.table("data.txt",header = TRUE)
rownames(hmmmodel) <- hmmmodel$Position
hmmmodel <- hmmmodel[,-1]
hmmmodel <- hmmmodel/100
hmmmodel <- t(hmmmodel)
library(seqinr)
promoter<- read.fasta(file = "promoter.fa")
seqmatrix<- as.matrix(promoter$`NC_000001.11:109684796-109687800`)
# 转成大写字母
seqmatrix<- toupper(seqmatrix)
maxseq<- strsplit("TGTATAAAAGGG",split = "")[[1]]
# 计算打分值
computeScore <- function(seq){
  score <- 1
  for(i in 1:length(seq)){
    score <- score*hmmmodel[i,seq[i]]
  }
  return(score)
}
# 使用bootstrap方法,计算p值
bootstrap<- function(seq){
  flag <- 0
  for(i in 1:1000){
    tmp <- sample(seq)
    score<- computeScore(tmp)
    if(score>=computeScore(seq)){
      flag <- flag+1
    }
  }
  return(flag/1000)
}
maxscore<- computeScore(maxseq)
bootstrap(maxseq)
scorevector <- c()
pvaluevector <- c()
for(i in 1:(length(seqmatrix)-11)){
  tmp<- seqmatrix[i:(i+11)]
  score <- computeScore(tmp)
  pvalue <- bootstrap(tmp)
  scorevector <- c(scorevector,score)
  pvaluevector <- c(pvaluevector,pvalue)
}
result <- data.frame(scorevector,pvaluevector)
result$position <- 1:(length(promoter$`NC_000001.11:109684796-109687800`)-11)
colnames(result) <- c("score","pvalue","position")
result$score <- result$score/maxscore
library(ggplot2)
ggplot(result, aes(x=position, y=score)) + 
  geom_line() + 
  geom_point(size=4, shape=20) +
  labs(title="score by HMM model")+
  theme(plot.title = element_text(hjust = 0.5))
ggsave("HMM模型打分图.pdf")

ggplot(result, aes(x=position, y=pvalue)) + 
  geom_line() + 
  geom_point(size=4, shape=20) +
  geom_hline(aes(yintercept = 0.05),colour="red",linetype="dashed")+
  labs(title="p value by HMM model")+
  scale_x_continuous(breaks = c(0,200,400,1030,1200,1632,2570,2700))+
  theme(plot.title = element_text(hjust = 0.5))
ggsave("HMM模型p值图.pdf")

序列

Promoter序列
>NC_000001.11:109684796-109687800 Homo sapiens chromosome 1, GRCh38.p7 Primary Assembly
TCTGCTCTTGAACCCTGTGTTCTGTTGTTTAAGATGTTTATCAAGACAATATGTGCACCACTGAACATAG
ACCCTTATCAGGAGTTCTACTTTTGCCTTTGTCCTGTTTCCTCAGAAGCATGTGATCTTTGTTCTGCTTT
TTGCCCTTTAAAGCATGTGATCTTCGTACCTACCCTCTGTTCGTACACCACCACCCCTTTTGCAATCCTT
AATAAAAACTTGCTGGTTTTGAGGCTCGGGCAGGCATCATGGTCCTACCGATATGTGATGTCACCCCTGG
CGGCCCAGCTGTAAAATTCTTCTCTTTGTACTCTTTCTCTTTATTTCTCAGCTGGCTGACACTTATGGAA
AATAGAAAGAACCTACGTTGAAATATTGGGGGCAGGTTCCCCAATAGCCTTGCTGAGGAAATTAAATTTA
TGTTCAAGTGCTATTTCTTTATGGCACCAAGGAACAAGTATTTCAAACAATACTAATGTAACAGTACTGG
TTCTATGTGTTTCAAAATTATTATTCTCATGAGTGTTAGCTTTCTTAAAAAATCGTTTTTTTTTTCAATT
GGATCTAGACATCTTATCTTTCACAGCTCAAGACGGATTAACTCAGAATCATAAACTCTTAATGCATAAT
GAGAAATATAATGTTTCCTAGGGCCAGGCACTTGTGTCTGTGCTGGTGCTATTGCCTCAATGCAGGAAAA
TCTATGTAAGAGTTCACTGTGAGGCCAAAACTGCTTCCTAAACATGGATACCTGCCAGGTATCTGAGCTG
GGAGTACTGCCCAGGTCTGGATGGGCGGGGAGTGTTTGCAACAAGGACTGTGCCTTGCCAGCCTCAGTGA
CACAGTGTCCAAGTGCCCCAACTTAGCAGCCACCTGCTGACCACCTGATTTCTGTGGCCTAATAGGGATG
TGATGAAGTCTACCTGTTTACTCAACCCCAAACCACACATTATCCAGGTGGTTTGAAACTTTTTTGATAT
ACTGGGTTCATCCTCTGGAGTCCTAACAATGTTTTAGCTAATTTACAAAAAACAAAACAAAACAAAACAA
AACAAAACAAAACAAAAAAACTACTTTTTTTGCAGCACAACAGCCTGGTTTACATTGCAAAATGATTTCT
CATTAAAGGTCTATCATCTATTTCCATATGTCCATTATTATTTGCAATATCCTTTAAAGCAGTCAACCCC
AGGCTAATCCATTGCACAACTCTTTTGAAAGTCTTCCTTCTACCTTGAAAGAAGAAAGTTGGCAGGTTGG
ACATTGTTCTCGTGGAGGTTGTACCATGGGTCACATATCACGGTGTGACTTCAAAGGCCACTGGAGCCAC
CGTCTCATACTGAAGAACACACATGGGTCAGGAGCCAGGTCCAGGTCCGGAATGGTGGATCTGGAGAGGG
GAGGGTCCCTGCCTGTGGTCCTGTGGGGAGCCCTCAGGCTCCTCTCTGGCCACCATCCTCTGACCTCCCT
CCTCAGCAGGACAGGGTTCTGGCTTCTCTGAGGGACAGGTTCTGTGGCAGGCCAGGCGTCACTAACACAG
GCCTCCATAACAACTGTTTCAGTACTGACTGAGTGGTGAAGTTAAATATTAAAAGCTGAAAAAAGCCAGT
ACCTTTATACAGAGGCTGGATGTAACAAAAGCCCACCAAGAGTTTTGCTTAGGCCTTTCCTGGGCCTTAA
AGCATGACAAAACAATGAAGGAATTCTTAACAGGACCTATTTAGAATTAAACAAGTTTTATTGTGAGTCT
GAAGAAACTCCCCAGGCCTCCACAAACAAGTTTATTGGGCGTCTGAAGGAACTCCCCAAACCTCCGTGAT
TTAGCAGGAGACAAGATAAGGGTAATCATCCCCCGCACCTGGACCCATTTAGATTAAATAAATAGACTGA
GGCTCCAGAATAAGGTCCTCAGGACCCAGACCTCAGTTACAGATTAAAGAAGTTAATCACTTATGTCTTT
AGATGAATGCACACTTACTTGTAGACATATACCTTAGAAGGTATATATGCTCTGGAAAACTTTGTAATAT
TGAGTTGGTCTGGTGGTAATTTCTAGGCCTTCTCCCTGTTACCGGTTGCAGAAATAAAACCTCTCTTCCT
CCCCATTTGATCTGCATCTCGTTATTGGGCCTAGAGAAATAGCAGCCGGACCCTCAGTTTGGTCCGGGAA
GTTCTTCCATCCTCCCTCGCCTGCTCTCTGTGGCCACTGCACTCACTGTTGCTGTTGCTGTTCCGGTCTC
TGTGAGGTTCACCTAGTGGACTGGCTGGACATTTCTAGGGGGCACCTCAGATACCTCACCAACTTGCTGG
ATCTGATCCTTGGATTTCGATTCATAAATTGTGCCAAAATACGAAGTGGCTAATTTACACAGTACTTAGC
CAGATGACCGAAGGACTCAGTACCCGAGGGCCCCTAACAGAAAACACAGACCACATTTCCTTTACTCTGG
CCCTTTTCCTGGGGGTCCTTCCTATACCACTGACACTGTTCCTGTGTAGGCGGGGCTAGAGGGGAGACTA
AGCCCTGGGAGTAGCTTTCGGATCAGAGGAAGTCCTGCTCTTACAGTGACAGGGGCTGAATTAAATTCCC
AGGTTGGGGCCACCACTTTTTAGTCTGACCCCTGCAGCCGGAGTCTCCCAGAGCCCTTGGGAACTCGGCA
GCGGAGAGAAGGCTGAGGGACACCGCGGGCAGGGAGGAGAAGGGAGAAGAGCTTTGCTCCGTTAGGATCT
GGCTGGTGTCTCAAGCGCACAGCCAAGTCGCTGTGGACCTAGCAAGGGCTGGATGGACTCGTGGAGCCTC
AGGGCTGGGTAGGGAAGCTGGCGAGGCCGAGCCCCGCCTTGGGCTTCTGGGCGCCCTGACTTCGCTCCCG
GAACCCTCGGGCCTGGGAGGCGGGAGGAAGTCTTACTGAGTGCAGCCCCAGGCGCCCTCTCCCGGGCCTC
CAGAATGGCGCCTTTCGGGTTGTGGCGGGCCGAGGGGCGGGGTCGCAGCAAGGCCCCGCCTGTCC

原文链接：https://blog.csdn.net/qq_29300341/article/details/80583753