本發(fā)明屬于生物醫(yī)學工程與人工智能交叉,具體涉及一種結合非線性機器學習模型(神經(jīng)網(wǎng)絡)與可解釋性分析(shapley?additive?explanations,?shap)的肺癌生物標志物篩選方法及系統(tǒng),用于提高肺癌早期診斷的準確性和模型可解釋性。
背景技術:
1、肺癌是全球死亡率最高的惡性腫瘤之一,早期診斷對提高治愈率至關重要?,F(xiàn)有技術中,低劑量ct(ldct)和肺活檢存在輻射風險、高成本或侵入性等問題,難以推廣。基于代謝物(如呼出氣)的非侵入性檢測方法成為研究熱點,但傳統(tǒng)統(tǒng)計模型(如火山圖)和傳統(tǒng)機器學習方法(如主成分分析,pca)在篩選生物標志物時存在以下缺陷:
2、線性假設限制:傳統(tǒng)統(tǒng)計模型無法捕捉復雜的非線性關系,導致標志物篩選不全面;
3、黑箱問題:機器學習模型(如神經(jīng)網(wǎng)絡)缺乏可解釋性,難以驗證標志物的生物學意義;
4、性能瓶頸:現(xiàn)有方法篩選的標志物組合在分類模型中準確率(auc?<?0.99)和穩(wěn)定性(方差?>?0.01)不足。
技術實現(xiàn)思路
1、為解決現(xiàn)有技術中存在的問題,本申請?zhí)峁┮环N基于神經(jīng)網(wǎng)絡與shapley解釋的肺癌生物標志物篩選方法,以滿足目前對肺癌生物標志物篩選方法的需求,該方法高精度、高可解釋性且適用于復雜生物數(shù)據(jù)的肺癌標志物篩選,具有很強的應用價值和實用性。
2、本發(fā)明采用的技術方案為:
3、本發(fā)明提供一種肺癌生物標志物篩選方法,包括以下步驟:
4、數(shù)據(jù)采集與預處理:通過熱脫附氣相色譜-質(zhì)譜(td-gc-ms)技術獲取肺癌患者與健康志愿者的呼出氣代謝物數(shù)據(jù),并對數(shù)據(jù)進行歸一化處理;
5、構建多層感知機(mlp)神經(jīng)網(wǎng)絡,輸入全部代謝物數(shù)據(jù),通過交叉熵損失函數(shù)和adam優(yōu)化器訓練模型;
6、采用shap方法解析神經(jīng)網(wǎng)絡輸出,計算各代謝物對分類結果的貢獻度,篩選貢獻度前10%的代謝物作為候選標志物;
7、模型驗證與優(yōu)化:基于篩選的標志物組合,訓練相同架構的神經(jīng)網(wǎng)絡模型,通過比對roc曲線下面積(auc)、靈敏度、特異性評估不同標志物組合的性能。
8、本發(fā)明的有益效果為:
9、高精度:通過神經(jīng)網(wǎng)絡擬合非線性關系,結合shap解釋篩選的標志物組合,使分類模型平均auc達0.991,方差低至0.007;
10、可解釋性:shap方法量化代謝物對診斷結果的影響,明確各個標志物的重要性程度;
11、高效性:篩選的標志物數(shù)量(36種)顯著少于傳統(tǒng)方法(69種),降低臨床檢測成本。
1.一種肺癌生物標志物篩選方法,其特征在于,包括以下步驟:
2.根據(jù)權利要求1所述的一種肺癌生物標志物篩選方法,其特征在于:所述步驟s2具體為:
3.根據(jù)權利要求2所述的一種肺癌生物標志物篩選方法,其特征在于:所述多層感知機神經(jīng)網(wǎng)絡,隱藏層激活函數(shù)為relu,輸出層激活函數(shù)為softmax,損失函數(shù)為交叉熵,優(yōu)化器為adam。
4.根據(jù)權利要求3所述的一種肺癌生物標志物篩選方法,其特征在于:所述多層感知機神經(jīng)網(wǎng)絡: