科技日報記者 張夢然
美國索爾克研究所開發出一種名為ShortStop的機器學習框架,用于探索以往“被忽視的DNA區域”,尋找在疾病中發揮關鍵作用的微蛋白。相關研究發表在最新一期《BMC方法學》上。
這些微蛋白是蛋白質家族中的小型成員,其組成氨基酸通常少于150個,因此難以通過傳統蛋白質分析方法檢測。長期以來,它們隱藏在基因組中被視為“非編碼”或“垃圾DNA”的99%區域中,從未被充分研究。然而,越來越多證據表明,這些區域并非無用,其所編碼的微蛋白在調節健康與疾病過程中扮演重要角色。
傳統研究方法主要關注編碼大型蛋白質的DNA區域,而忽略了可能包含微蛋白編碼指令的小開放閱讀框(smORF)。盡管已有實驗方法識別出了數千個smORF,但這些方法成本高、耗時長,且無法有效區分具有生物學功能的微蛋白與無功能的序列,嚴重限制了相關研究的進展。
ShortStop的出現改變了這一局面。該AI工具通過機器學習訓練,不僅能夠從大型基因數據庫中識別出潛在的smORF,還能預測哪些微蛋白最有可能具備生物學相關性,從而顯著提高研究效率。其核心創新在于采用雙類別排序系統:通過將真實發現的smORF與計算機生成的隨機“誘餌”序列進行比較,ShortStop能夠快速評估新發現的smORF是否可能具有功能性,從而優先篩選出值得深入研究的候選者。
團隊將ShortStop應用于已發布的smORF數據集后,發現約8%的序列可能編碼功能性微蛋白,并已將其列為優先驗證目標。該工具還能識別出以往方法遺漏的微蛋白,包括在人體細胞和組織中實際表達的種類。尤為重要的是,它可直接利用廣泛存在的RNA測序數據,這意味著許多實驗室無需額外實驗即可開展微蛋白研究。
在一項應用實例中,團隊使用ShortStop分析了肺癌相關的遺傳數據,從腫瘤與正常肺組織的對比中識別出210種全新的微蛋白候選者。其中一種微蛋白在腫瘤組織中顯著升高,顯示出作為肺癌生物標志物或治療靶點的巨大潛力,驗證了該工具在疾病研究中的實用性。