输入文件:基因组的fasta文件,近缘物种的蛋白序列
输出文件:近缘物种比对到基因组,注释出来的gff3文件,该文件可以用于作为基因组最后汇总注释的证据之一,但一般权重不如转录组数据
流程:
1.每个样本切成n个文件,并行提交任务
split_exonerate.sh脚本
fa=$1
pep=$2
i=$3
n=$4
exonerate -t $fa -q $pep --querychunkid $i --querychunktotal ${n} --model protein2genome --bestn 1 --showtargetgff
批量跑代码
s=$1
fa=$2
pep=$3
n=$4
mkdir $s
for i in `seq 1 $n`
do
bsub -J ${s}_${i} -n 1 -R span[hosts=1] -o ${s}/${i}.out -e ${s}/${i}.err -q smp "sh split_exonerate.sh ${fa} $pep ${i} ${n}"
done
2.将输出文件处理成gff3格式
perl process_exonerate_gff3.pl -gf 3 -t protein *.out > all.gff3
版权声明:本文为hzau_yang原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。