中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所生物與化學(xué)交叉研究中心研究員朱正江課題組在《自然-通訊》(Nature Communications)上,在線發(fā)表了題為Metabolite Annotation from Knowns to Unknowns through Knowledge-guided Multi-layer Metabolic Networking的研究論文。該工作發(fā)展出知識(shí)驅(qū)動(dòng)的多層代謝網(wǎng)絡(luò)技術(shù)(Knowledge-guided multi-layer networking,KGMN),在復(fù)雜生物樣本中實(shí)現(xiàn)了未知代謝物的大規(guī)模鑒定。
生命體代謝組包含內(nèi)源性產(chǎn)生的已知代謝物,以及微生物菌群、植物、食物和其他來(lái)源的未知代謝物。這些未知代謝物對(duì)生命活動(dòng)具有重要的調(diào)控作用。然而,如何大規(guī)模鑒定未知代謝物是當(dāng)前代謝組學(xué)研究的熱點(diǎn)和難點(diǎn)。前期研究中,朱正江課題組發(fā)展了基于代謝反應(yīng)網(wǎng)絡(luò)的代謝組學(xué)技術(shù)MetDNA(Nature Communications, 2019,10: 1516)。該技術(shù)利用代謝反應(yīng)網(wǎng)絡(luò)中產(chǎn)物和底物存在結(jié)構(gòu)相似性與二級(jí)質(zhì)譜圖相似性的基本原理,設(shè)計(jì)了代謝物二級(jí)質(zhì)譜圖“譜圖借用”、“多次迭代”算法,利用標(biāo)準(zhǔn)譜圖庫(kù)鑒定出的代謝物作為種子,依靠代謝反應(yīng)網(wǎng)絡(luò)進(jìn)行代謝物注釋的迭代和傳遞,突破了標(biāo)準(zhǔn)二級(jí)質(zhì)譜圖庫(kù)的覆蓋度限制,實(shí)現(xiàn)大規(guī)模的已知代謝物鑒定。然而,該技術(shù)仍存在一些局限:代謝物鑒定傳遞的過(guò)程僅限于已知代謝反應(yīng)網(wǎng)絡(luò),因而無(wú)法用于發(fā)現(xiàn)新的未知代謝物;復(fù)雜質(zhì)譜數(shù)據(jù)中的大量冗余信號(hào)(如同位素峰、加合物峰、中性丟失和源內(nèi)裂解等)會(huì)對(duì)代謝物的鑒定造成假陽(yáng)性。
針對(duì)以上問(wèn)題,在MetDNA2中,科研人員進(jìn)一步發(fā)展了知識(shí)驅(qū)動(dòng)的多層代謝網(wǎng)絡(luò)技術(shù)(KGMN),實(shí)現(xiàn)了從已知代謝物鑒定未知代謝物的能力,并顯著提升了代謝物鑒定的準(zhǔn)確度。該技術(shù)首次整合了3層代謝網(wǎng)絡(luò)(圖1)——知識(shí)驅(qū)動(dòng)的代謝反應(yīng)網(wǎng)絡(luò)、知識(shí)引導(dǎo)的二級(jí)質(zhì)譜圖相似性網(wǎng)絡(luò)、全局代謝峰相關(guān)性網(wǎng)絡(luò)。研究利用理論代謝反應(yīng)對(duì)已知的代謝反應(yīng)網(wǎng)絡(luò)進(jìn)行擴(kuò)展,從而構(gòu)建了包含已知和未知代謝物的擴(kuò)展代謝反應(yīng)網(wǎng)絡(luò)(KMRN,網(wǎng)絡(luò)1)。MetDNA2從標(biāo)準(zhǔn)譜圖庫(kù)鑒定出的種子代謝物出發(fā),基于擴(kuò)展代謝反應(yīng)網(wǎng)絡(luò)和“譜圖借用”策略,構(gòu)建二級(jí)質(zhì)譜圖相似性網(wǎng)絡(luò)(網(wǎng)絡(luò)2)。該策略可通過(guò)多次迭代和循環(huán)擴(kuò)增的算法,將代謝組學(xué)質(zhì)譜數(shù)據(jù)中所有已知和未知代謝物連接,直至沒(méi)有新的注釋代謝物。在網(wǎng)絡(luò)2中,代謝物節(jié)點(diǎn)之間的連接有四個(gè)限制條件——MS1 m/z、保留時(shí)間、MS/MS譜圖相似性和代謝反應(yīng)轉(zhuǎn)化(metabolic biotransformation)。對(duì)于注釋的每一個(gè)代謝物,MetDNA2會(huì)進(jìn)一步通過(guò)靶向檢索其相關(guān)的冗余質(zhì)譜特征峰(如同位素峰、加合物峰、中性丟失和源內(nèi)裂解等),并構(gòu)建全局代謝峰相關(guān)性網(wǎng)絡(luò)(網(wǎng)絡(luò)3)。利用全局代謝峰相關(guān)性網(wǎng)絡(luò),MetDNA2對(duì)注釋的代謝物結(jié)果進(jìn)行全局優(yōu)化,提升代謝物鑒定的準(zhǔn)確度,去除假陽(yáng)性注釋結(jié)果返回最終鑒定結(jié)果。整個(gè)數(shù)據(jù)處理流程全程自動(dòng)化,無(wú)需人工干預(yù),提升了數(shù)據(jù)分析的效率。
利用上述技術(shù),MetDNA2對(duì)已知代謝物的鑒定準(zhǔn)確性從~70%提升至>95%。同時(shí),在不同的生物樣本中,MetDNA2還可鑒定~100-300個(gè)未知代謝物。MetDNA2對(duì)單個(gè)生物樣本鑒定的代謝物數(shù)目在2000-5000個(gè)左右。在MetDNA2中,每一個(gè)鑒定結(jié)果均根據(jù)國(guó)際代謝組學(xué)協(xié)會(huì)標(biāo)準(zhǔn)指定特定的可信度。此外,MetDNA2還包含一系列重要的更新和升級(jí),如全面升級(jí)的標(biāo)準(zhǔn)代謝物譜圖數(shù)據(jù)庫(kù)(>2000個(gè)代謝物);兩種不同色譜體系的保留時(shí)間數(shù)據(jù)庫(kù)(HILIC和C18體系);適配所有廠商的高分辨二級(jí)質(zhì)譜數(shù)據(jù)等。
為了相關(guān)研究便捷的應(yīng)用這一工具,課題組提供了用戶(hù)友好型的界面和網(wǎng)站MetDNA2(http://metdna.zhulab.cn/),學(xué)術(shù)用戶(hù)可免費(fèi)注冊(cè)使用。該工作開(kāi)發(fā)的KGMN技術(shù)已申請(qǐng)國(guó)家發(fā)明專(zhuān)利和國(guó)家軟件著作權(quán)。相關(guān)技術(shù)和軟件的商業(yè)用途需要聯(lián)系朱正江進(jìn)行授權(quán)使用。研究工作得到國(guó)家自然科學(xué)基金、科技部、中科院、上海市科學(xué)技術(shù)委員會(huì)等的支持。
知識(shí)驅(qū)動(dòng)的多層代謝網(wǎng)絡(luò)技術(shù)KGMN
來(lái)源:中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所
本賬號(hào)稿件默認(rèn)開(kāi)啟微信“快捷轉(zhuǎn)載”
轉(zhuǎn)載請(qǐng)注明出處
其他渠道轉(zhuǎn)載請(qǐng)聯(lián)系 weibo@cashq.ac.cn