exonerate注释 – 源码巴士

输入文件：基因组的fasta文件，近缘物种的蛋白序列
输出文件：近缘物种比对到基因组，注释出来的gff3文件，该文件可以用于作为基因组最后汇总注释的证据之一，但一般权重不如转录组数据
流程：
1.每个样本切成n个文件，并行提交任务
split_exonerate.sh脚本

fa=$1
pep=$2
i=$3
n=$4
exonerate -t $fa -q $pep --querychunkid $i --querychunktotal ${n} --model protein2genome --bestn 1 --showtargetgff

批量跑代码

s=$1
fa=$2
pep=$3
n=$4
mkdir $s
for i in `seq 1 $n`
do
bsub -J ${s}_${i} -n 1 -R span[hosts=1] -o ${s}/${i}.out -e ${s}/${i}.err -q smp "sh split_exonerate.sh ${fa} $pep ${i} ${n}"
done

2.将输出文件处理成gff3格式

perl process_exonerate_gff3.pl -gf 3 -t protein *.out > all.gff3

原文链接：https://blog.csdn.net/hzau_yang/article/details/100007832