本公開(kāi)總體上涉及從諸如組織樣本或血液樣本等生物樣本中獲取的核酸序列數(shù)據(jù)的預(yù)測(cè)體細(xì)胞變異的方法和系統(tǒng)。
背景技術(shù):
1、提供本背景描述旨在總體介紹本公開(kāi)的背景。本背景部分的內(nèi)容既未明確也未隱含地被認(rèn)為是本公開(kāi)的現(xiàn)有技術(shù)。
2、從腫瘤樣本的dna測(cè)序中識(shí)別體細(xì)胞突變對(duì)于癌癥研究和精準(zhǔn)腫瘤學(xué)的實(shí)施具有重要價(jià)值。在腫瘤dna中調(diào)用突變的過(guò)程受到樣本中生物學(xué)變異(例如腫瘤異質(zhì)性)和技術(shù)噪聲(例如測(cè)序誤差)的雙重干擾。現(xiàn)有最佳的體細(xì)胞變異調(diào)用方法通常依賴(lài)于變異等位基因頻率的統(tǒng)計(jì)模型,并結(jié)合一系列啟發(fā)式篩選條件以去除假陽(yáng)性結(jié)果。這些方法是基于人類(lèi)專(zhuān)家對(duì)dna測(cè)序數(shù)據(jù)和腫瘤生物學(xué)的知識(shí)開(kāi)發(fā)的。需要改進(jìn)體細(xì)胞變異預(yù)測(cè)方法或?yàn)楝F(xiàn)有方法提供替代方案。
技術(shù)實(shí)現(xiàn)思路
1、一些實(shí)施例涉及基于潛在腫瘤樣本數(shù)據(jù)預(yù)測(cè)體細(xì)胞突變的系統(tǒng),所述系統(tǒng)包括:
2、至少一個(gè)處理器;
3、包括能夠由處理器執(zhí)行的程序代碼的存儲(chǔ)器,以將處理器配置為:
4、接收潛在腫瘤樣本的核酸測(cè)序數(shù)據(jù);
5、將所述核酸測(cè)序數(shù)據(jù)轉(zhuǎn)換為類(lèi)圖像表示;
6、通過(guò)經(jīng)訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)處理類(lèi)圖像表示,以預(yù)測(cè)在核酸測(cè)序數(shù)據(jù)中的體細(xì)胞突變;
7、其中,使用訓(xùn)練數(shù)據(jù)集訓(xùn)練第一神經(jīng)網(wǎng)絡(luò),所述訓(xùn)練數(shù)據(jù)集包括:
8、包括腫瘤樣本和非腫瘤樣本的多個(gè)訓(xùn)練樣本的核酸測(cè)序數(shù)據(jù);以及
9、通過(guò)使用體細(xì)胞變異預(yù)測(cè)集成模型處理多個(gè)訓(xùn)練樣本的測(cè)序數(shù)據(jù)生成的多個(gè)訓(xùn)練樣本的偽標(biāo)簽。
10、在一些實(shí)施例中,集成模型包括用于體細(xì)胞變異預(yù)測(cè)的多個(gè)模型,基于多個(gè)模型輸出的組合生成所述偽標(biāo)簽。
11、在一些實(shí)施例中,經(jīng)訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)被訓(xùn)練成預(yù)測(cè)以下至少一項(xiàng):
12、單核苷酸變異;或
13、在接收的核酸測(cè)序數(shù)據(jù)中的添加和/或缺失。
14、在一些實(shí)施例中,接收的核酸數(shù)據(jù)包括多個(gè)候選位點(diǎn)的數(shù)據(jù);以及
15、使用包括以下一項(xiàng)或多項(xiàng)的信息為候選位點(diǎn)的至少一個(gè)子集生成類(lèi)圖像表示:原始比對(duì)數(shù)據(jù)、堿基質(zhì)量、圖譜質(zhì)量、鏈偏向性和參考?jí)A基數(shù)據(jù)。
16、在一些實(shí)施例中,經(jīng)訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)結(jié)合接收的潛在腫瘤樣本的核酸測(cè)序數(shù)據(jù)的類(lèi)圖像表示,處理與潛在腫瘤樣本相關(guān)的非腫瘤樣本的核酸測(cè)序數(shù)據(jù)的類(lèi)圖像表示,以識(shí)別體細(xì)胞突變。
17、在一些實(shí)施例中,處理器還被配置為生成與類(lèi)圖像表示相關(guān)的熱圖;
18、其中,熱圖指示類(lèi)圖像表示在體細(xì)胞突變預(yù)測(cè)中相對(duì)重要的部分。
19、熱圖可以是通過(guò)對(duì)經(jīng)訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)執(zhí)行引導(dǎo)反向傳播生成的。
20、在一些實(shí)施例中,熱圖指示在核酸數(shù)據(jù)中的被預(yù)測(cè)到包括體細(xì)胞突變的一個(gè)或多個(gè)變異等位基因或一個(gè)或多個(gè)候選位點(diǎn)。
21、在一些實(shí)施例中,處理器還被配置為:
22、訓(xùn)練用于預(yù)測(cè)福爾馬林固定石蠟包埋(formalin-fixed?paraffin-embedded,ffpe)樣本中的體細(xì)胞突變的第二神經(jīng)網(wǎng)絡(luò);
23、其中,第二神經(jīng)網(wǎng)絡(luò)部分地基于使用經(jīng)訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)的應(yīng)用來(lái)訓(xùn)練。
24、遷移學(xué)習(xí)的應(yīng)用可包括:
25、使用經(jīng)訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)對(duì)來(lái)自腫瘤樣本和相應(yīng)的非腫瘤樣本的冷凍的、ffpe樣本的核酸測(cè)序數(shù)據(jù)進(jìn)行體細(xì)胞突變預(yù)測(cè);
26、將基于冷凍的腫瘤樣本和相應(yīng)的非腫瘤樣本獲得的體細(xì)胞突變預(yù)測(cè)視為陽(yáng)性真實(shí)標(biāo)簽;
27、將與基于冷凍的腫瘤樣本和相應(yīng)的非腫瘤樣本獲得的體細(xì)胞突變預(yù)測(cè)不重疊的ffpe腫瘤樣本的體細(xì)胞突變預(yù)測(cè)視為陰性真實(shí)標(biāo)簽;
28、使用陽(yáng)性真實(shí)標(biāo)簽和陰性真實(shí)標(biāo)簽訓(xùn)練第二神經(jīng)網(wǎng)絡(luò)。
29、一些實(shí)施例涉及基于潛在腫瘤樣本數(shù)據(jù)預(yù)測(cè)體細(xì)胞突變的方法,所述方法包括:
30、接收潛在腫瘤樣本的核酸測(cè)序數(shù)據(jù);
31、將核酸測(cè)序數(shù)據(jù)轉(zhuǎn)換為類(lèi)圖像表示;
32、通過(guò)經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)處理類(lèi)圖像表示,以預(yù)測(cè)在核酸測(cè)序數(shù)據(jù)中的體細(xì)胞突變;
33、其中,使用訓(xùn)練數(shù)據(jù)集訓(xùn)練第一神經(jīng)網(wǎng)絡(luò),所述訓(xùn)練數(shù)據(jù)集包括:
34、包括腫瘤樣本和非腫瘤樣本的多個(gè)訓(xùn)練樣本的核酸測(cè)序數(shù)據(jù);以及
35、通過(guò)使用體細(xì)胞變異預(yù)測(cè)集成模型處理多個(gè)訓(xùn)練樣本的測(cè)序數(shù)據(jù)生成的多個(gè)訓(xùn)練樣本的偽標(biāo)簽。
1.一種基于潛在腫瘤樣本數(shù)據(jù)預(yù)測(cè)體細(xì)胞突變的系統(tǒng),所述系統(tǒng)包括:
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述集成模型包括用于體細(xì)胞變異預(yù)測(cè)的多個(gè)模型,基于所述多個(gè)模型的輸出組合生成所述偽標(biāo)簽。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述經(jīng)訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)被訓(xùn)練成預(yù)測(cè):
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述接收的核酸數(shù)據(jù)包括多個(gè)候選位點(diǎn)的數(shù)據(jù);以及
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述經(jīng)訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)結(jié)合接收的所述潛在腫瘤樣本的核酸測(cè)序數(shù)據(jù)的所述類(lèi)圖像表示,處理與所述潛在腫瘤樣本相關(guān)的非腫瘤樣本的核酸測(cè)序數(shù)據(jù)的類(lèi)圖像表示,以識(shí)別所述體細(xì)胞突變。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述處理器還被配置為生成與所述類(lèi)圖像表示相關(guān)的熱圖;
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述熱圖是通過(guò)對(duì)所述經(jīng)訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)執(zhí)行引導(dǎo)反向傳播生成的。
8.根據(jù)權(quán)利要求6或7所述的系統(tǒng),其中,所述熱圖指示在所述核酸數(shù)據(jù)中的被預(yù)測(cè)到包括體細(xì)胞突變的一個(gè)或多個(gè)變異等位基因或一個(gè)或多個(gè)候選位點(diǎn)。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述處理器還被配置為:
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中,遷移學(xué)習(xí)的應(yīng)用包括:
11.一種基于潛在腫瘤樣本數(shù)據(jù)預(yù)測(cè)體細(xì)胞突變的方法,所述方法包括:
12.根據(jù)權(quán)利要求11所述的方法,其中,所述集成模型包括用于體細(xì)胞變異預(yù)測(cè)的多個(gè)模型,基于所述多個(gè)模型的輸出組合生成所述偽標(biāo)簽。
13.根據(jù)權(quán)利要求11所述的方法,其中,所述經(jīng)訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)被訓(xùn)練成預(yù)測(cè):
14.根據(jù)權(quán)利要求11所述的方法,其中,所述接收的核酸數(shù)據(jù)包括多個(gè)候選位點(diǎn)的數(shù)據(jù);以及
15.根據(jù)權(quán)利要求11所述的方法,其中,所述經(jīng)訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)結(jié)合接收的所述潛在腫瘤樣本的核酸測(cè)序數(shù)據(jù)的所述類(lèi)圖像表示,處理與所述潛在腫瘤樣本相關(guān)的非腫瘤樣本的核酸測(cè)序數(shù)據(jù)的類(lèi)圖像表示,以識(shí)別所述體細(xì)胞突變。
16.根據(jù)權(quán)利要求11所述的方法,其中,所述方法還包括生成與所述類(lèi)圖像表示相關(guān)的熱圖;
17.根據(jù)權(quán)利要求16所述的方法,其中,所述熱圖是通過(guò)對(duì)所述經(jīng)訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)執(zhí)行引導(dǎo)反向傳播生成的。
18.根據(jù)權(quán)利要求16或17所述的方法,其中,所述熱圖指示在所述核酸數(shù)據(jù)中的被預(yù)測(cè)到包括體細(xì)胞突變的一個(gè)或多個(gè)變異等位基因或一個(gè)或多個(gè)候選位點(diǎn)。
19.根據(jù)權(quán)利要求11所述的方法,其中,所述方法還包括:
20.根據(jù)權(quán)利要求19所述的方法,其中,遷移學(xué)習(xí)的應(yīng)用包括: