本發(fā)明屬于圖像處理領(lǐng)域,尤其涉及基于跨模態(tài)訓(xùn)練的細胞類型和細胞豐度識別方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、細胞是生命的基本單位,構(gòu)成了生物體組織器官的結(jié)構(gòu)和功能基礎(chǔ)。組織的細胞結(jié)構(gòu),指的是細胞的空間排列和形態(tài)特征,提供了細胞相互作用如何促進生物行為的關(guān)鍵見解,包括組織發(fā)育,疾病進展和治療反應(yīng)。在癌癥研究中,細胞空間結(jié)構(gòu)可以闡明腫瘤微環(huán)境、異質(zhì)性、腫瘤淋巴細胞浸潤的關(guān)鍵特征,以及它們對患者預(yù)后和個性化治療策略的影響。
3、目前用于細胞類型識別的方法可以大致分為兩組。
4、(1)基于計算病理學(xué)的方法,通過深度學(xué)習(xí)實現(xiàn)細胞核實例分割和分類,這些方法可以組織病理圖像中識別細胞類型,但它們僅限于識別粗粒度的細胞類別,通常不超過五種主要細胞類型。這限制了對更精細的細胞類型亞型的探索。而且,這類細胞類型識別方法都依賴于手動標注的位置注釋信息,這引入了非標準化因素,會影響最終推理識別結(jié)果的可靠性。
5、(2)基于空間轉(zhuǎn)錄組學(xué)(st)的方法,例如seurat、rctd和cell2location,通常采用細胞類型反卷積算法,利用基因表達數(shù)據(jù)估計每個空間轉(zhuǎn)錄組的柵格內(nèi)細胞類型和占比。這些方法整合利用單細胞rna測序(scrna-seq)參考轉(zhuǎn)錄組數(shù)據(jù)實現(xiàn)基于空間轉(zhuǎn)錄組譜的細粒度細胞類型解析。然而,這些方法主要依賴于基因表達,未能利用組織病理圖像中存在的豐富形態(tài)模式。
技術(shù)實現(xiàn)思路
1、為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了基于跨模態(tài)訓(xùn)練的細胞類型和細胞豐度識別方法及系統(tǒng),通過跨模態(tài)聯(lián)合表示學(xué)習(xí)框架,整合圖像形態(tài)與分子基因表達模式,增強不同模態(tài)間的相互作用,實現(xiàn)僅從組織病理圖像中識別細粒度細胞類型和對應(yīng)細胞類型的豐度信息。
2、為實現(xiàn)上述目的,本發(fā)明的一個或多個實施例提供了如下技術(shù)方案:
3、本發(fā)明的第一個方面提供了一種基于跨模態(tài)訓(xùn)練的細胞類型和細胞豐度識別方法,包括:
4、獲取病理圖像-基因表達匹配的空間轉(zhuǎn)錄組學(xué)數(shù)據(jù);
5、對所述病理圖像-基因表達匹配的空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)進行預(yù)處理,得到預(yù)處理后的綜合數(shù)據(jù)集,其中,包括高表達基因表達數(shù)據(jù)、局部圖像塊、細胞類型及細胞豐度標簽;
6、構(gòu)建跨模態(tài)聯(lián)合表示學(xué)習(xí)模型,將高表達基因表達數(shù)據(jù)和局部圖像塊輸入至跨模態(tài)聯(lián)合表示學(xué)習(xí)模型進行訓(xùn)練,得到訓(xùn)練好的跨模態(tài)聯(lián)合表示學(xué)習(xí)模型;
7、基于訓(xùn)練好的跨模態(tài)聯(lián)合表示學(xué)習(xí)模型,對待識別的組織學(xué)圖像進行細胞類型和細胞豐度預(yù)測。
8、作為一種實施方式,對所述病理圖像-基因表達匹配的空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)進行預(yù)處理,具體過程為:
9、對所述病理圖像-基因表達匹配的空間轉(zhuǎn)錄組學(xué)數(shù)據(jù),使用細胞類型反卷積法生成細粒度細胞類型和對應(yīng)細胞豐度標簽;
10、從所述病理圖像-基因表達匹配的空間轉(zhuǎn)錄組學(xué)數(shù)據(jù),提取局部圖像塊、高表達基因表達數(shù)據(jù);
11、將細粒度細胞類型、對應(yīng)細胞豐度標簽、局部圖像塊及高表達基因表達數(shù)據(jù)構(gòu)成綜合數(shù)據(jù)集。
12、作為一種實施方式,構(gòu)建跨模態(tài)聯(lián)合表示學(xué)習(xí)模型,其中,跨模態(tài)聯(lián)合表示學(xué)習(xí)模型包括形態(tài)學(xué)模態(tài)表示模塊、分子模態(tài)表示模塊及跨模態(tài)嵌入對齊模塊。
13、作為一種實施方式,將高表達基因表達數(shù)據(jù)和局部圖像塊輸入至跨模態(tài)聯(lián)合表示學(xué)習(xí)模型進行訓(xùn)練,具體過程為:
14、將局部圖像塊輸入至形態(tài)學(xué)模態(tài)表示模塊,得到圖像特征嵌入;
15、將高表達基因表達數(shù)據(jù)輸入至分子模態(tài)表示模塊,得到分子表達嵌入;
16、將圖像特征嵌入和分子表達嵌入輸入至跨模態(tài)嵌入對齊模塊,分別得到細胞類型的預(yù)測豐度值和原始基因表達模式。
17、作為一種實施方式,將局部圖像塊輸入至形態(tài)學(xué)模態(tài)表示模塊,其中,形態(tài)學(xué)模態(tài)表示模塊包括特征骨干模塊和變換層,具體過程為:
18、通過特征骨干模塊提取局部圖像塊的形態(tài)特征;
19、將局部圖像塊的形態(tài)特征輸入至變換層進行非線性變換,得到圖像塊特征嵌入。
20、作為一種實施方式,將高表達基因表達數(shù)據(jù)輸入至分子模態(tài)表示模塊,其中,分子模態(tài)表示模塊包括自歸一化網(wǎng)絡(luò)模塊和變換層,具體過程為:
21、通過自歸一化網(wǎng)絡(luò)模塊,對高表達基因表達數(shù)據(jù)進行特征增強,得到增強后的高表達基因表達數(shù)據(jù);
22、通過變換層,將增強后的高表達基因表達數(shù)據(jù)映射為分子表達嵌入。
23、作為一種實施方式,將圖像特征嵌入和分子表達嵌入輸入至跨模態(tài)嵌入對齊模塊,其中,包括多層感知器和解碼器,具體過程為:
24、將圖像塊特征嵌入和分子表達嵌入對齊;
25、將對齊的圖像塊特征嵌入輸入至多層感知器,得到細胞類型的預(yù)測豐度值;
26、將對齊的分子表達嵌入輸入至解碼器,重構(gòu)原始基因表達模式。
27、作為一種實施方式,通過整體損失對模型進行優(yōu)化,整體損失公式為:
28、
29、其中和分別表示跨模態(tài)一致性比對損失細胞豐度預(yù)測損失和基因表達重建損失的平衡權(quán)重;θmorph、θmolec、和是和中的參數(shù),argmin(·)項旨在找到最小化整體損失函數(shù)的優(yōu)化參數(shù)
30、本發(fā)明的第二個方面提供了一種基于跨模態(tài)訓(xùn)練的細胞類型和細胞豐度識別系統(tǒng),包括:
31、數(shù)據(jù)獲取模塊,用于獲取病理圖像-基因表達匹配的空間轉(zhuǎn)錄組學(xué)數(shù)據(jù);
32、數(shù)據(jù)處理模塊,用于對所述病理圖像-基因表達匹配的空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)進行預(yù)處理,得到預(yù)處理后的綜合數(shù)據(jù)集,其中,包括高表達基因表達數(shù)據(jù)、局部圖像塊、細胞類型及細胞豐度標簽;
33、模型構(gòu)建與訓(xùn)練模塊,用于構(gòu)建跨模態(tài)聯(lián)合表示學(xué)習(xí)模型,將高表達基因表達數(shù)據(jù)和局部圖像塊輸入至跨模態(tài)聯(lián)合表示學(xué)習(xí)模型進行訓(xùn)練,得到訓(xùn)練好的跨模態(tài)聯(lián)合表示學(xué)習(xí)模型;
34、模型識別模塊,用于基于訓(xùn)練好的跨模態(tài)聯(lián)合表示學(xué)習(xí)模型,對待識別的組織學(xué)圖像進行細胞類型和細胞豐度預(yù)測。
35、本發(fā)明第三方面提供了一種計算機裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序,所述處理器執(zhí)行所述程序時實現(xiàn)如本發(fā)明第一方面所述的方法中的步驟。
36、以上一個或多個技術(shù)方案存在以下有益效果:
37、本實施例中,通過構(gòu)建跨模態(tài)聯(lián)合表示學(xué)習(xí)模型,實現(xiàn)從病理圖像中識別細粒度細胞類型和細胞豐度的跨模態(tài)訓(xùn)練,該模型不僅提高了從組織學(xué)圖像預(yù)測細胞豐度的能力,還可以揭示細粒度細胞類型的空間分布,實現(xiàn)僅從組織病理圖像中預(yù)測細粒度細胞類型和對應(yīng)細胞類型的豐度信息。
38、在本實施例中,通過形態(tài)模態(tài)表示模塊來學(xué)習(xí)局部圖像塊中呈現(xiàn)出的形態(tài)模式。同時引入分子模態(tài)表示模塊,通過基因表達重建任務(wù)提取基因表達數(shù)據(jù)中固有的關(guān)鍵分子特征,充分利用了組織病理圖像中存在的豐富形態(tài)模式。
39、在本實施例中,利用跨模態(tài)嵌入在訓(xùn)練過程中來對齊形態(tài)和分子模態(tài)的嵌入空間,可以整合圖像形態(tài)與分子基因表達模式,呈現(xiàn)出更好的細粒度細胞類型識別效果,這揭示了分子基因表達信息增強了圖像中的形態(tài)學(xué)模式特征。
40、本實施例中,構(gòu)建的跨模態(tài)聯(lián)合表示學(xué)習(xí)模型,在推理應(yīng)用階段表現(xiàn)出更優(yōu)異的能力,可以解析細粒度細胞空間分布,揭示細胞類型之間的共定位交互模式,為腫瘤生態(tài)系統(tǒng)內(nèi)的細胞間空間表征提供了有價值的見解。
41、本發(fā)明附加方面的優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。