aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

一種基于深度圖對比學(xué)習(xí)的scRNA-seq缺失數(shù)據(jù)預(yù)測方法

文檔序號:42169262發(fā)布日期:2025-06-13 16:25閱讀:8來源:國知局

本發(fā)明涉及生物信息學(xué)中的單細胞rna測序缺失數(shù)據(jù)預(yù)測領(lǐng)域,具體地,涉及到一種基于深度圖對比學(xué)習(xí)的scrna-seq缺失數(shù)據(jù)預(yù)測方法。


背景技術(shù):

1、單細胞rna測序(scrna-seq)技術(shù)的快速發(fā)展增強了復(fù)雜組織中細胞間的異質(zhì)性和動態(tài)性的研究。與傳統(tǒng)的普通轉(zhuǎn)錄組測序(bulkrna-seq)技術(shù)相比,scrna-seq?能夠以單細胞分辨率解析基因表達譜,從而在腫瘤研究、免疫療法和藥物開發(fā)等領(lǐng)域得到廣泛應(yīng)用。盡管單細胞rna測序(scrna-seq)技術(shù)具有具大的潛力,然而面臨的一個重大挑戰(zhàn)是缺失事件的發(fā)生,即由于rna捕獲率低、mrna捕獲條件、擴增偏倚、測序深度等技術(shù)因素,某些表達的轉(zhuǎn)錄本被錯誤地記錄為零。基因表達數(shù)據(jù)中缺失值的存在對?scrna-seq?數(shù)據(jù)集的下游分析構(gòu)成了相當(dāng)大的障礙。因此,開發(fā)有效的缺失值插補方法尤為重要。

2、近年來,已經(jīng)開發(fā)了多種插補方法,這些方法大致可分為四類。第一類是基于平滑相似的插補方法,其具體思想是利用數(shù)據(jù)中細胞或基因間的相似性信息來恢復(fù)缺失值。例如drimpute利用聚類方法進行估算,它首先通過設(shè)定不同的聚類數(shù)量獲得多組細胞聚類簇,以識別相似的細胞,然后,通過對相似細胞的基因表達值進行平均來估算缺失值。最終的插補值是通過對多個聚類估算進行平均得到的。然而,drimpute需要進行多次迭代聚類和平均,這使得它的估算過程比較耗時和消耗大量內(nèi)存資源。magic基于馬爾科夫鏈的親和圖,通過數(shù)據(jù)擴散技術(shù)在相似細胞之間共享信息來恢復(fù)缺失基因的表達值。然而,準(zhǔn)確確定擴散時間是magic面臨的一個主要挑戰(zhàn),這可能會導(dǎo)致高估缺失值。

3、第二類插補方法是使用概率模型對稀疏性進行建模直接計算數(shù)據(jù)中的缺失值。例如,saver通過將唯一分子標(biāo)識符(unique?molecular?identifier,?umi)模擬為負二項分布隨機變量,利用伽馬-泊松混合分布(gamma-possion)模擬每個細胞中每個基因的真實表達水平。baynorm采用基于mrna?捕獲機制的二項式模型,通過經(jīng)驗貝葉斯方法推斷先驗,利用跨細胞表達數(shù)據(jù)估算基因表達水平。viper通過非負稀疏回歸模型從稀疏局部鄰域細胞中選擇最相似的一組細胞,然后利用這些鄰近細胞的基因表達數(shù)據(jù)對目標(biāo)細胞的缺失值進行插補。?scimpute采用伽馬-泊松混合模型來估計每個細胞中每個基因的丟失概率,并根據(jù)丟失概率低的基因選擇相似細胞對缺失數(shù)據(jù)進行估算。然而,這些方法大多依賴于細胞間關(guān)系的假設(shè),在涉及較少細胞類型的情況下可能會限制其性能。

4、第三類采用矩陣分解技術(shù)對缺失數(shù)據(jù)進行估算。例如alra是一種基于自適應(yīng)閾值低秩近似的插補方法。alra利用奇異值分解(svd)將高維基因表達矩陣轉(zhuǎn)換為低維近似表示,從而保留細胞或基因間的內(nèi)在相關(guān)性。該方法自動確定近似的秩,以識別主要的生物學(xué)信號成分。在低秩近似之后,原始矩陣中的零值會被填充為非零值。通過設(shè)定閾值來區(qū)分和恢復(fù)生物學(xué)零值,并重新縮放這些值,使其均值和標(biāo)準(zhǔn)差與原始矩陣一致,從而實現(xiàn)了技術(shù)零值的插補和原始非零值的去噪。然而,alra通常只能捕捉原始表達數(shù)據(jù)中的線性關(guān)系,可能會忽略一些更復(fù)雜的非線性生物學(xué)信號。

5、第四類插補方法使用深度學(xué)習(xí)模型進行估算。例如deepimpute采用“分而治之”的思想構(gòu)建多個子神經(jīng)網(wǎng)絡(luò),利用剔除層和加權(quán)均方誤差損失函數(shù)訓(xùn)練子神經(jīng)網(wǎng)絡(luò)并估算缺失值。然而,deepimpute主要側(cè)重于學(xué)習(xí)基因間的相似性,可能無法充分捕捉細胞層面的生物區(qū)別。ge-impute是一種圖嵌入的插補方法,利用歐幾里得距離構(gòu)建原始細胞相似性網(wǎng)絡(luò),然后使用廣度優(yōu)先搜索(bfs)和深度優(yōu)先搜索(dfs)策略以固定長度的隨機游走模擬每個細胞的嵌入表示,隨后重建細胞相似性網(wǎng)絡(luò),通過平均相鄰細胞的表達值來估算每個細胞的缺失數(shù)據(jù)。然而,ge-impute依賴于鄰近細胞的平均表達值,可能無法完全捕捉到全局細胞關(guān)系。cl-impute是一種基于對比學(xué)習(xí)的插補方法,通過構(gòu)建正負樣本對來增強模型捕捉數(shù)據(jù)特征的能力,從而生成細胞的嵌入表示,并根據(jù)這些嵌入表示選擇相似細胞的基因表達值來插補缺失數(shù)據(jù)。然而,由于?cl-impute?使用多頭注意力網(wǎng)絡(luò)來捕獲細胞之間的關(guān)系,這需要將整個矩陣輸入網(wǎng)絡(luò)進行學(xué)習(xí),可能會消耗大量內(nèi)存。

6、近年來,基于圖神經(jīng)網(wǎng)絡(luò)(gnn)的圖表示學(xué)習(xí)受到了廣泛關(guān)注。gnn通過探索圖結(jié)構(gòu)數(shù)據(jù)中的目標(biāo)節(jié)點與其鄰近節(jié)點之間的關(guān)聯(lián)性,有效增強了節(jié)點特征的表示能力?,F(xiàn)有的大多數(shù)gnn模型采用監(jiān)督學(xué)習(xí)的方式,需要大量的標(biāo)簽數(shù)據(jù)進行訓(xùn)練。然而,scrna-seq數(shù)據(jù)類型有限且難以獲得充足的標(biāo)簽,這在一定程度上限制了gnn在scrna-seq領(lǐng)域的應(yīng)用發(fā)展。對比學(xué)習(xí)作為一種自監(jiān)督學(xué)習(xí)方法,無需標(biāo)簽數(shù)據(jù),其核心思想是通過最大化正樣本之間的相似度并最小化負樣本之間的相似度來學(xué)習(xí)特征表示。因此,將對比學(xué)習(xí)應(yīng)用于gnn中,以自監(jiān)督的方式學(xué)習(xí)scrna-seq數(shù)據(jù)中細胞節(jié)點的嵌入特征是合理且具有前景的。

7、有鑒于此,研究scrna-seq缺失數(shù)據(jù)的插補方法有著十分重要的意義。本發(fā)明提出一種基于深度圖對比學(xué)習(xí)的scrna-seq缺失數(shù)據(jù)插補方法。


技術(shù)實現(xiàn)思路

1、本發(fā)明提出一種基于深度圖對比學(xué)習(xí)的scrna-seq缺失數(shù)據(jù)預(yù)測方法,主要步驟如下:

2、步驟1:獲取scrna-seq矩陣。

3、從ncbi?geo或10x?genomics數(shù)據(jù)庫中獲取scrna-seq,并將其命名為,其中表示scrna-seq數(shù)據(jù),和分別表示基因和細胞的數(shù)量。

4、步驟2:預(yù)處理scrna-seq矩陣。

5、為了減少測序過程中引入的技術(shù)偏差,本發(fā)明對數(shù)據(jù)集進行了數(shù)據(jù)預(yù)處理。具體分為三個步驟,首先過濾在少于三個細胞中表達的基因和表達數(shù)量少于五十的細胞。然后由于計數(shù)矩陣中的數(shù)據(jù)是離散的,因此使用大小因子對過濾后的基因表達矩陣進行標(biāo)準(zhǔn)化處理,以消除批次之間的差異限制。最后,使用log函數(shù)對歸一化基因表達矩陣進行轉(zhuǎn)換,從而得到預(yù)處理后的基因表達矩陣。

6、步驟3:使用預(yù)處理后的scrna-seq數(shù)據(jù)構(gòu)建細胞圖。

7、首先使用主成分分析(principal?components?analysis,?pca)對預(yù)處理后的單細胞rna測序數(shù)據(jù)進行降維。然后對降維后的基因表達矩陣使用余弦距離計算細胞與細胞之間的相似性。最后,使用k近鄰算法(k-nearest?neighbor,?knn)篩選每個細胞的鄰居細胞并構(gòu)建細胞鄰接圖。

8、步驟4:將細胞圖數(shù)據(jù)輸入對比學(xué)習(xí)模塊,學(xué)習(xí)并獲取細胞的嵌入表示。

9、對比學(xué)習(xí)旨在學(xué)習(xí)相似和不相似數(shù)據(jù)對之間的不變特征,由于對比學(xué)習(xí)需要兩個數(shù)據(jù)對作為輸入,因此需要采用一種圖數(shù)據(jù)增強方法構(gòu)建數(shù)據(jù)對。具體包括兩種方式,即丟棄邊和特征掩碼。然后使用基于細胞節(jié)點級的深度圖對比學(xué)習(xí)來學(xué)習(xí)細胞嵌入。

10、步驟5:基于細胞嵌入表示確定每個細胞的鄰居細胞,并通過最小二乘法計算其與鄰居細胞的相關(guān)權(quán)重,最終對每個細胞的缺失值進行填充。

11、當(dāng)網(wǎng)絡(luò)訓(xùn)練完成后,將原始圖數(shù)據(jù)送入網(wǎng)絡(luò)中,獲得細胞嵌入矩陣。然后基于細胞嵌入矩陣使用余弦相似度方法尋找每個細胞的k個最相似細胞。最后基于相似細胞使用最小二乘法估算每個細胞的缺失值。

12、步驟6:通過下游分析評估預(yù)測值的準(zhǔn)確性。

13、為了衡量插補值的準(zhǔn)確性,本發(fā)明分別從三個方面進行評估,包括插補值的準(zhǔn)確性分析、聚類和細胞發(fā)育軌跡的推斷。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1