推荐产品
公司新闻/正文
微生物分类利器!8.6万种微生物,40万余个高质量基因组!
人阅读 发布时间:2024-04-18 09:17
2bRAD-M简化微生物组技术有一个神奇的本领:一次实验便可以同时揪出细菌、古菌和真菌。这个本领的核心在算法,但也少不了数据库的加持。正所谓“铁打的算法流水的库”,那么今天我们就来揭秘一下作为2bRAD-M“器”而存在的数据库究竟是怎么构成的,都有哪些特性和优势。
1. 2bRAD-M 简化微生物组数据库是如何构成的?
2bRAD-M简化微生物组数据库包含古菌、细菌、真菌及常见宿主(人、大鼠、小鼠等),其中古菌和细菌的物种注释及基因组来自于GTDB数据库,真菌来自于Ensembl数据库。
目前数据库收录的微生物有8.6万种,包括40万余个高质量基因组,各分类水平下的微生物统计如下表所示。
可能有不少看官对GTDB数据库感兴趣,那么接下来我们就重点介绍一下这个后起新秀。
2. GTDB 数据库是什么?
GTDB是由澳大利亚昆士兰大学化学与分子生物科学学院生态基因组学中心的团队开发,基于公认的平均核苷酸一致性(ANI)标准来设置物种界限的基因组分类数据库。该数据库提供了从界到种完整的分类学信息,解决了细菌和古菌基因组的分类问题。初版发表在 Nature Biotechnology(IF 46.9),更新后再次发表在 Nature Biotechnology、Nature Microbiology(IF 28.3) 等高水平期刊。
3. GTDB 数据库与RefSeq是什么关系?
GTDB 数据库中基因组直接来源于NCBI,版本也与RefSeq库相对应,例如GTDB版为Release 08-RS214,其中RS214表示对应RefSeq 214版本。在RefSeq基础之上进行了基因组质量控制并提供了更合理的分类信息。
4. GTDB 数据库的基因组都有哪些来源?
GTDB 中的基因组都可以从 NCBI 数据库中查询下载到。GTDB 数据库中的基因组主要有纯培养组装的基因组、宏基因组测序组装的基因组和单细胞测序组装的基因组构成。在种水平上,分离纯培养(Exclusively isolates)的基因组占比约27%,数据库、宏基因组或单细胞(Exclusively MAGs and/or SAGs)来源的基因组占比约68%、分离纯培养或环境(Isolate and environmental genomes)来源的基因组占比约5%。
图1 各分类水平下基因组来源统计图
5. GTDB 数据库中基因组的质量如何?
GTDB 对基因组质量(组装完整性和污染比例)进行了严格控制:使用 CheckM 进行污染控制,并基于 MIMAG 对基因组的完整性进行控制,入选标准为 完整性 - 5 * 污染比例 > 50,此外,为了保证数据库全面性,有部分低质量但属于重要物种的基因组,也一并纳入数据库中。其中,高质量基因组占比27.3%,中等质量基因组占比72.7%。
图2 GTDB 数据库中基因组质量分布统计图
6. GTDB 和 NCBI 分类系统有多少差异?
GTDB 对每一个基因组给出了一个分类信息,其中分为了三种情况:
1) GTDB与NCBI分类不同,标记为 Active change;
2) NCBI中无分类信息,标记为 Passive change;
3) GTDB与NCBI分类相同,标记为 Unchanged。
在种水平上,GTDB个NCBI分类相同的基因组比例为50%,NCBI没有分类而GTDB重新分类的基因组占38%,GTDB与NCBI分类不同的基因组占12%。可见GTDB对RefSeq中大量未分类的level提供了合理的分类信息。
图3 GTDB 与 NCBI(RefSeq)分类一致性统计图
7. GTDB和NCBI分类系统中的微生物名称的对应关系是怎样的?
由于两个分类系统的分类依据不同,物种名的对应关系也相对比较复杂,下面是两个分类系统中物种名的对应关系示意图,总结起来有四种:1. 一对一;2. 一对多;3. 多对一;4. 多对多。
虽然对应关系复杂,但GTDB官网提供了与 NCBI 分类系统的对应关系查询入口,可以直接在官网右上角的搜索框中输入 GCF/GCA 登录号或 NCBI 分类名或 GTDB 分类名进行查询。
8. 2bRAD-M简化微生物组技术为什么选择GTDB的分类系统?
现有16S和宏基因组分析流程/软件所用数据库,基本都是基于NCBI的分类系统构建的,而从上面的介绍中可以总结出GTDB数据库相比NCBI(RefSeq)的四大特点:
(1)基因组直接来源于NCBI的RefSeq库;
(2)对基因组进行了严格的质量控制;
(3)更合理、准确的分类方法;
(4)填补了大量NCBI中未分类的level。
2bRAD-M简化微生物组技术基于种间差异标签进行物种鉴定,可处理痕量样本,对物种分类的准确度要求自然也更高,所以2bRAD-M简化微生物组技术默认选择GTDB数据库进行分析。此外,越来越多的16S和宏基因组分析软件开始兼容并使用GTDB数据库,例如Qiime2、Metaphlan4等,使用GTDB数据库将是微生物物种分类的大趋势。
了解及咨询更多2b RAD-M技术资料可以联系欧易生物对应区域销售工程师,或者联系公众号“欧易生物创新多组学”为您答疑解惑哦~
欧易生物2bRAD-M®产品简介
2bRAD-M®是一项微生物组检测技术,像 16S 和宏基因组一样实现样本中微生物的定性和定量。该技术可以同时检测细菌、真菌和古菌;鉴定分辨率达到“种水平”;能应对痕量、降解和高宿主污染样本。2bRAD-M®技术由中国科学院青岛生物能源与过程研究所、中国海洋大学和欧易生物联合研发,于 2022 年 1 月 26 日发表于 Genome Biology(IF 17.906)。技术起源于 2bRAD 简化基因组测序技术(Nature Methods, Wang et al. 2012)。
欧易生物---2bRAD-M®产品优势
⚪2bRAD-M能检测DNA量仅为1pg的样本,是宏基因组可处理DNA起始量的1/500。
⚪2bRAD-M可处理核酸片段长度降解至50bp的样本,且仅需1片石蜡切片样本,是宏基因组处理石蜡切片样本起始量的1/5。
⚪2bRAD-M从分析层面结合机器学习升级算法MAP2B(Sun Zheng, et al. Nature Communications 14.1 (2023): 5321),高准确鉴定核心微生物, MAP2B 算法与主流宏基因组算法从精确度、召回率、F1值、L2相似性和BC相似性来比较,MAP2B 算法都是更优。