Introduction
自己整理一些常用的功能基因预测/注释通用工具,因为数量较多,不会写的很仔细,对于每个单独的工具可以进一步找相关教程学习。
基因结构鉴定工具
Prodigal
参考教程:一文读懂Prodigal教程
介绍: Prodigal(Prokaryotic Dynamic Programming Gene-finding Algorithm)是一款用于原核生物基因预测的高效工具,广泛应用于基因组和宏基因组数据分析。
安装:
|
|
简单使用:
- 基因组序列文件中预测基因:
1
prodigal -i input.fasta -o genes.gbk -a proteins.faa
GeneMark
参考教程:
介绍: GeneMark是一款通用的基因预测工具,适用于原核和真核生物,能够识别复杂的基因结构。
安装:
-
前往GeneMark官网(http://exon.gatech.edu/GeneMark/)下载相应的版本。
-
解压并配置环境变量:
1 2
tar -xzvf genemark.tar.gz export PATH=$PATH:/path/to/genemark
简单使用:
- 对基因组序列文件进行基因预测:
1
gmhmmp -m MetaGeneMark_v1.mod -o genes.gff input.fasta
Prokka
参考教程:基因注释Prokka
介绍: Prokka 是一个快速的基因组功能注释工具,能够对细菌、古菌和病毒基因组进行注释。它集成了多个工具,用于基因预测和功能注释,输出标准化的注释结果。
安装:
|
|
简单使用:
- 对基因组序列进行注释:
1
prokka input.fasta --outdir annotation_output --prefix sample
RNA鉴定工具
tRNAscan-SE
参考教程:tRNAscan-SE安装使用教程
介绍: tRNAscan-SE 是一款广泛应用的tRNA基因预测工具,能够高效、准确地识别基因组中的tRNA基因。该工具结合了多个算法,以提高预测准确性。
安装: 安装有点麻烦,需要仔细:
- 下载并解压源代码包:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
# 自己找一下最新版看看 wget http://trna.ucsc.edu/tRNAscan-SE.tar.gz tar -xzvf tRNAscan-SE.tar.gz cd tRNAscan-SE ./configure --prefix=$(pwd) make && make install #需要调用infernal wget -c http://eddylab.org/infernal/infernal-1.1.2-linux-intel-gcc.tar.gz tar xzvf infernal-1.1.2-linux-intel-gcc.tar.gz cd infernal-1.1.2-linux-intel-gcc/ ./configure --prefix=$(pwd) make && make install cp binaries/* bin # 添加bashrc echo "export PATH=$PATH:/path/to/tRNAscan-SE/bin" >> ~/.bashrc echo "export PERL5LIB=/path/to/tRNAscan-SE/lib:$PERL5LIB" >> ~/.bashrc source ~/.bashrc # 需要编辑/path/to/tRNAscan-SE/tRNAscan-SE.conf文件,下面这几行需要修改 bin_dir: /path/to/tRNAscan-SE/bin lib_dir: /path/to/tRNAscan-SE/lib infernal_dir: /path/to/infernal-1.1.2-linux-intel-gcc/bin
简单使用:
- 对基因组序列进行tRNA基因预测:
1
tRNAscan-SE -o output.txt input.fasta
ARAGORN
介绍: ARAGORN是一款用于快速和高效识别基因组序列中tRNA和tmRNA基因的工具。它的设计目的是在大规模基因组分析中提供精确的tRNA/tmRNA基因定位。
安装:
- Conda安装:
1
conda install -c bioconda aragorn
简单使用:
- 识别tRNA和tmRNA基因:
1
aragorn -i input.fasta -o output.txt
Barrnap
参考教程:Barrnap预测rRNA基因
介绍: Barrnap是一款快速、小巧的rRNA基因预测工具,专为16S、23S和5S rRNA基因的检测而设计,适用于细菌和古菌。
安装:
|
|
简单使用:
- 对基因组序列进行rRNA基因预测:
1
barrnap input.fasta > output.gff
比对软件
我们要对鉴定到的基因进行功能注释,有一些功能数据库具有配套的比对软件,但更多的数据库是只提供序列的,我们需要自己使用一些软件建库比对。
BLAST
参考教程:BLAST教程
介绍: BLAST(Basic Local Alignment Search Tool)是一个广泛使用的基因和蛋白质序列比对工具,能够快速地在数据库中查找与查询序列相似的序列。
安装:
|
|
简单使用:
- 创建本地数据库:
1
makeblastdb -in database.fasta -dbtype nucl -out mydb
- 进行序列比对:
1
blastn -query query.fasta -db mydb -out results.txt
DIAMOND
参考教程:DIAMOND: 超快的蛋白序列比对软件
介绍: DIAMOND是一个快速的蛋白质序列比对工具,设计用于比对大规模数据集,速度比BLAST快几个数量级。
安装:
|
|
简单使用:
- 创建本地数据库:
1
diamond makedb --in database.fasta -d mydb
- 进行序列比对:
1
diamond blastp -d mydb -q query.fasta -o results.m8
MMseqs2
参考教程:MMseqs2蛋白质序列快速高效比对工具
介绍: MMseqs2(Many-against-Many sequence searching)是一个快速高效的序列搜索和聚类工具,适用于大规模数据集,这个可以好好学习一下使用,因为速度算是非常快的。
安装:
|
|
简单使用:
- 创建本地数据库:
1
mmseqs createdb input.fasta mydb
- 进行序列比对:
1 2
mmseqs search mydb query.fasta result tmp mmseqs convertalis mydb query.fasta result results.m8
在基因组和宏基因组研究中,除了BLAST、DIAMOND和MMseqs2等常用比对软件外,还有一些基于隐马尔可夫模型(HMM)的比对工具,这些工具能够提供更敏感和准确的比对,特别是对于蛋白质家族和结构域的检测。
在基因组和宏基因组研究中,基因和功能注释的比对工具是不可或缺的。以下是一些常用的工具,包括HMM(隐马尔可夫模型)相关的比对软件:
HMMER
参考教程:hmmer 简明教程
介绍: HMMER是一款基于HMM的工具,适用于检测蛋白质家族和结构域。
安装:
- Conda安装:
1
conda install -c bioconda hmmer
简单使用:
- 创建HMM模型:
1
hmmbuild mymodel.hmm myalignment.sto
- 进行HMM比对:
1
hmmsearch --tblout results.tbl mymodel.hmm query.fasta
功能数据库
KEGG
- 官网: KEGG
- 介绍: KEGG (Kyoto Encyclopedia of Genes and Genomes) 是一个综合数据库,提供有关基因组、化学物质和系统功能的信息。它包含了代谢通路、药物、疾病、代谢物等多种数据。KEGG 用于基因和代谢途径的注释,帮助研究人员理解生物体的复杂功能和相互作用。
eggNOG
- 官网: eggNOG
- 介绍: eggNOG (evolutionary genealogy of genes: Non-supervised Orthologous Groups) 是一个用于功能注释和进化学分类的数据库。它通过无监督的方式构建直系同源基因组群,提供高质量的功能预测和注释,广泛应用于基因功能研究和比较基因组学。
Pfam
- 官网: Pfam
- 介绍: Pfam 是一个蛋白质家族数据库,提供已知蛋白质结构域和功能位点的详细信息。每个结构域在数据库中都以隐马尔可夫模型(HMMs)的形式存储,Pfam 用于注释蛋白质序列,帮助研究人员理解蛋白质的结构和功能。
COG
- 官网: COG
- 介绍: COG (Clusters of Orthologous Groups) 数据库针对细菌和古菌,组织和分类了直系同源基因群。COG 提供了跨物种的基因和蛋白质功能注释,帮助研究者识别基因的保守性和功能演化。
InterPro
- 官网: InterPro
- 介绍: InterPro 是一个综合数据库,整合了多个蛋白质家族、结构域和功能位点的资源。它通过统一的注释标准,帮助研究人员分析和理解蛋白质序列的功能。
UniProt
- 官网: UniProt
- 介绍: UniProt 是一个全面的蛋白质序列和功能数据库。它提供了丰富的蛋白质信息,包括序列、功能注释、相互作用、结构等,广泛应用于生物信息学和系统生物学研究。
CAZy
- 官网: CAZy
- 介绍: CAZy (Carbohydrate-Active enZymes) 数据库专注于碳水化合物活性酶,包括糖苷水解酶、糖苷转移酶、多糖裂解酶等。CAZy 用于注释和分类这些酶,帮助研究人员理解碳水化合物代谢和功能。
MEROPS
- 官网: MEROPS
- 介绍: MEROPS 是一个肽酶和肽酶抑制剂的数据库。它分类和注释了各种肽酶及其抑制剂,提供了序列、功能和结构信息,帮助研究人员研究蛋白质降解和调控机制。
TIGRFAMs
- 官网: TIGRFAMs
- 介绍: TIGRFAMs 是一个用于功能和进化注释的蛋白质家族模型数据库。它基于 HMMs,为每个蛋白质家族提供详细的功能注释,广泛用于基因组和代谢途径的研究。
CARD
- 官网: CARD
- 介绍: CARD(The Comprehensive Antibiotic Resistance Database) 是经过严格筛选的、经过同行评审的耐药性决定因素和相关抗生素的集合,由抗生素耐药性本体论 (ARO) 和 AMR 基因检测模型组织而成。
mobileOG-db
- 官网: mobileOG-db
- 介绍: mobileOG-db 是一个用于注释移动基因组的数据库。它基于 HMMs,为每个移动基因组提供详细的功能注释,广泛用于基因组和代谢途径的研究。
ICEberg3
- 官网: ICEberg3
- 介绍: 整合和接合元件(ICE)是重要的移动遗传元件,在细菌进化中发挥着重要作用。它们可以整合到细菌染色体中并拥有完整的接合机制,从而实现细菌细胞之间的自我传播。通过促进不同货物基因的水平转移,ICE赋予宿主有益的特征,如抗生素抗性、发病机制、防御系统、金属抗性、化合物降解和共生,这对细菌多样性和适应有显着贡献。ICEberg 3.0 提供了三个主要增强功能:(i) 具有手动管理功能的新 ICE、IME 和 CIME 数据。 (ii) ICE 货运功能分类。 (iii) 将其重点扩展到涵盖人类微生物组中的 ICE。这些更新通过捕获 ICE 的不同功能和特征,能够有效地促进对细菌进化的理解。
PHASTEST
- 官网: PHASTEST
- 介绍: PHASTEST旨在支持细菌基因组和质粒中原噬菌体序列的快速识别、注释和可视化。
BacMet
- 官网: BacMet
- 介绍: BacMet 是一种易于使用的抗菌剂和金属抗性基因的生物信息学资源。 BacMet 由两个数据库组成:手动管理的基因数据库,具有经实验证实的抗性功能;基于与具有实验证实功能的基因的序列相似性的预测抗性基因的数据库。
mibPOPdb
- 官网: mibPOPdb
- 介绍: mibPOPdb 数据库是一个手动管理的综合资源,致力于持久性有机污染物 (POP) 研究的微生物生物修复。数据是从科学文献中系统地、手动地收集的。
元素循环
碳循环
碳循环是指碳在生物圈、大气圈、水圈和岩石圈中的循环过程。它通过光合作用、呼吸作用、分解和燃烧等途径,维持着地球上的碳平衡。碳循环的重要性在于它对气候变化和生态系统健康的影响。
相关信息可以在KEGG找到大部分,甲烷循环部分具有数据库MCycDB
NCycDB
- 官网: NCycDB
- 介绍: NCycDB 是一个专注于氮循环的基因和酶的数据库,包含与氮循环相关的功能基因信息。它有助于研究氮在生态系统中的转化过程,理解氮循环的分子机制。
PCycDB
- 官网: PCycDB
- 介绍: PCycDB 是一个关于磷循环的数据库,提供了磷循环相关基因和酶的信息。该数据库有助于研究磷的生物地球化学循环,了解磷在环境中的迁移和转化过程。
SCycDB
- 官网: SCycDB
- 介绍: SCycDB 专注于硫循环,包含硫循环相关的基因和酶信息。它帮助研究者理解硫在生态系统中的循环过程,分析硫的生物地球化学作用。
AsgeneDB
- 官网: AsgeneDB
- 介绍: AsgeneDB 是一个关于氨基酸循环的数据库,包含氨基酸循环相关的基因和酶信息。它有助于研究氨基酸在生态系统中的循环过程,理解氨基酸的生物地球化学作用。
FeGenie
- 官网: FeGenie
- 介绍: FeGenie 是一个关于铁循环的数据库,包含铁循环相关的基因和酶信息。它有助于研究铁在生态系统中的循环过程,理解铁的生物地球化学作用。
PlasticDB
- 官网: PlasticDB
- 介绍: PlasticDB 是一个关于塑料循环的数据库,包含塑料循环相关的基因和酶信息。它有助于研究塑料在生态系统中的循环过程,理解塑料的生物地球化学作用。