前往顾页
以后地位: 主页 > 精通Office > 其他教程 >

BLAST利用体例全攻略

时候:2012-04-26 21:51来源:知行网www.zhixing123.cn 编辑:麦田守望者

BLAST是几近每位生命迷信范畴的同窗都要利用的根基东西,在收集上也能够搜到很多关于BLAST的接管,小我感觉还是来自BGI的这份讲义不错,很体系、很全面。当然年夜家也能够找点疾速上手的体例(比如来自柳城博客http://liucheng.name/478/的体例就很容易学,很适合老手),然后再细心研究此中的奥妙。小我以为学习当如此,嘿嘿。

Blast,全称Basic Local Alignment Search Tool,即"基于部分比对算法的搜刮东西",由Altschul等人于1990年公布。Blast可以或许实现比较两段核酸或蛋白序列之间的同源性的服从,它可以或许疾速的找到两段序列之间的同源序列并对比对地区进行打分以肯定同源性的凹凸。

Blast的运行体例是先用目标序列建数据库(这类数据库称为database,内里的每条序列称为subject),然后用待查的序列(称为query)在database中搜刮,每条query与database中的每条subject都要进行双序列比对,从而得出全数比对成果。

Blast是一个集成的法度包,经由过程调用不合的比对模块,blast实现了五种可能的序列比对体例:

blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。

blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(按拍照位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。

blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。

tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然掉队行比对。

tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。

Blast供应了核酸和蛋白序列之间所有可能的比对体例,同时具有较快的比对速率和较高的比对精度,是以在通例双序列比对阐发中利用最为遍及。可以毫不夸大的说,blast是做比较基因组学乃至全部生物信息学研究所必须把握的一种比对东西。

下载

NCBI供应免费下载,网址:ftp://ftp.ncbi.nih.gov/blast/executables/release/,可按照本身得机器挑选呼应操纵体系的版本。

装置

直接解紧缩包便可。解紧缩号令:

zcat *.tar.gz | tar xvf -

利用

Blast的运行分为两个步调:第一,建立目标序列的数据库;第二,做blast比对。

1.运行建库法度formatdb:

建库的过程是建立目标序列的索引文件,所用法度是formatdb。法度许可的输入格局FASTA或ASN.1格局,凡是我们利用FASTA格局的序列作为输入。用于建库的FASTA序列是db.seq,formatdb的根基号令是:

formatdb -i db.seq [-options]

常常利用的参数有以下几个:

-p (T/F):-p参数的意义是挑选建库的范例,"T"表示蛋白库,"F"表示核酸库。缺省值为"T"。

-o (T/F):-o参数的意义是判定是不是阐发序列名并建立序列名索引。"T"表示建立序列名索引,"F"表示不建立序列名索引。缺省值为"F"。

法度输入:

如果建立的是核酸库,输入为db.seq.nhr、db.seq.nin、db.seq.nsq,如果挑选了参数"-o T",还会同时输入db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd。

蛋白库和核酸库的输入近似,呼应的输入文件为:db.seq.phr、db.seq.pin、db.seq.psq和db.seq.psd、db.seq.psi、db.seq.pni、db.seq.pnd。

除这些成果,法度还会输入LOG文件(默许为formatdb.log),内里记录了运行时候、版本号、序列数量等信息。

几点需求重视的问题:

1、建库今后,做blast比对的输入文件就是建库所得的文件db.seq.n**或db.seq.p**,而不是原始的FASTA序列。也就是说,建库今后,原始的序列文件是可以删除的。

2、如果号令行当挑选了"-o T",并且目标序列中含有gi号反复的的序列名时,法度会停止建库并报错。比方,以下序列文件中呈现了反复的序列名:

>gi|112385745|gb|DQ859020.1| Oryza sativa (japonica cultivar-group) glutathione S-transferase 2 mRNA, complete cds

ATGGCGGAGGCGGCGGGGGCGGCGGTGGCGCCGGCGAAGCTGGGTCTGTACTCGTACTGGCGGAGCTCGT

GCTCGCACCGCGTCCGCATCGCCCTCAACCTCAAAGGATTGGAGTACGAGTACAAGGCGGTGAACCTGCT

CAAGGGGGAGCACTCTGATCCAGAATTCATGAAGGTTAATCCTATGAAGTTCGTCCCGGCATTGGTCGAT

......

CAAGCAGCACTCCCAGACAGACAACCAGATGCCCCTTCCTCTACCTAG
>gi|112385745|gb|DQ859020.1| Oryza sativa (japonica cultivar-group) glutathione S-transferase 2 mRNA, complete cds

ATGGCGGAGGCGGCGGGGGCGGCGGTGGCGCCGGCGAAGCTGGGTCTGTACTCGTACTGGCGGAGCTCGT

GCTCGCACCGCGTCCGCATCGCCCTCAACCTCAAAGGATTGGAGTACGAGTACAAGGCGGTGAACCTGCT

CAAGGGGGAGCACTCTGATCCAGAATTCATGAAGGTTAATCCTATGAAGTTCGTCCCGGCATTGGTCGAT

......

运行时就会报以下错误:

[formatdb] ERROR: Failed to create index. Possibly a gi included more than once in the database.

3、如果输入序列不适合FASTA格局或ASN.1格局,法度会主动加入,并报错:

[formatdb] ERROR: Could not open db

4、核酸序列可以用于建核酸库和蛋白库,但是蛋白序列不克不及用于建核酸库。

其他参数简介:

-l:"-l 文件名"用来改变LOG文件的定名

-n:"-n 文件名"可以自定义天生的库文件定名

-a:输入文件为ASN.1格局

2.运行比对法度blastall:

Blast的主法度是blastall。法度的输入文件是query序列(-i 参数)和库文件(-d 参数),比对范例的挑选(-p 参数)和输入文件(-o 参数)由用户指定。此中“-p”参数有5种取值:

-p blastp:蛋白序列与蛋白库做比对。

-p blastx:核酸序列对蛋白库的比对。

-p blastn:核酸序列对核酸库的比对。

-p tblastn:蛋白序列对核酸库的比对。

-p tblastx:核酸序列对核酸库在蛋白级别的比对。

这些元素就构成了blast的根基运行号令(以blastn为例):

blastall -i query.fasta -d database_prefix -o blast.out -p blastn

此中如果"-o"参数缺省,则成果输入体例为屏幕输入。下面以一个blastn比对为例,来讲明比对全过程:

Query序列(query.fasta):

>gi|45593933|gb|AY551259.1| Oryza sativa precursor microRNA 319c gene

AGGAAGAGGAGCTCCTTTCGATCCAATTCAGGAGAGGAAGTGGTAGGATGCAGCTGCCGATTCATGGATA

CCTCTGGAGTGCATGGCAGCAATGCTGTAGGCCTGCACTTGCATGGGTTTGCATGACCCGGGAGATGAAC

CCACCATTGTCTTCCTCTATTGATTGGATTGAAGGGAGCTCCACATCTCT

>gi|45593932|gb|AY551258.1| Oryza sativa precursor microRNA 319b gene

CATATTCTTTTAATTTGATGGAAGAAGCGATCGATGGATGGAAGAGAGCGTCCTTCAGTCCACTCATGGG

CGGTGCTAGGGTCGAATTAGCTGCCGACTCATTCACCCACATGCCAAGCAAGAAACGCTTGAGATAGCGA

AGCTTAGCAGATGAGTGAATGAAGCGGGAGGTAACGTTCCGATCTCGCGCCGTCTTTGCTTGGACTGAAG

GGTGCTCCCTCCTCCTCGATCTCTTCGATCTAATTAAGCTACCTTGACAT

库文件Database(db.seq,已运行formatdb -i db.seq -p F -o T建库):

>fake_seq

AGGAAGAGGAGCTCCTTTCGTTCCAATTCAGGAGAGGAAGTGGTAGGATGCAGCTGCCGATTCATGGATA

CCTCTGGAGTGCATGCAGCAATGCTGTAGGCCTGCACTTGCATGGGTTTGCATGACCCGGCGAGATGAAC

CCACCATTGTCTTCCTCTATTGATTGGATTGAAGGGAGCTCCACATCTCT

运行号令:

blastall -i query.fasta -d db.seq -o blast.out -p blastn

运行成果:

BLASTN 2.2.8 [Jan-05-2004]

Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer,

Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997),

"Gapped BLAST and PSI-BLAST: a new generation of protein database search

programs", Nucleic Acids Res. 25:3389-3402.

Query= gi|45593933|gb|AY551259.1| Oryza sativa precursor microRNA 319c

gene, complete sequence

(190 letters)

Database: db.seq

1 sequences; 190 total letters

Searching.done

Score E

Sequences producing significant alignments: (bits) Value


fake_seq 339 2e-98

>fake_seq

Length = 190

Score = 339 bits (171), Expect = 2e-98

Identities = 188/191 (98%), Gaps = 2/191 (1%)

Strand = Plus / Plus

Query: 1 aggaagaggagctcctttcgatccaattcaggagaggaagtggtaggatgcagctgccga 60

|||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||

Sbjct: 1 aggaagaggagctcctttcgttccaattcaggagaggaagtggtaggatgcagctgccga 60

Query: 61 ttcatggatacctctggagtgcatggcagcaatgctgtaggcctgcacttgcatgggttt 120

|||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||

Sbjct: 61 ttcatggatacctctggagtgcat-gcagcaatgctgtaggcctgcacttgcatgggttt 119

Query: 121 gcatgacccgg-gagatgaacccaccattgtcttcctctattgattggattgaagggagc 179

||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 120 gcatgacccggcgagatgaacccaccattgtcttcctctattgattggattgaagggagc 179

Query: 180 tccacatctct 190

|||||||||||

Sbjct: 180 tccacatctct 190

Database: db.seq

Posted date: Aug 28, 2006 8:14 PM

Number of letters in database: 190

Number of sequences in database: 1

Lambda K H

1.37 0.711 1.31

顶一下
(2)
100%
踩一下
(0)
0%
------分开线----------------------------
标签(Tag):blast
------分开线----------------------------
颁发评论
请自发遵循互联网相关的政策法规,严禁公布色情、暴力、革命的谈吐。
评价:
神色:
考证码:点击我更换图片
猜你感兴趣