aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

一種多源數(shù)據(jù)資源關(guān)鍵信息挖掘方法及系統(tǒng)

文檔序號:42854864發(fā)布日期:2025-08-26 19:09閱讀:8來源:國知局

本發(fā)明涉及信息挖掘技術(shù),特別涉及一種多源數(shù)據(jù)資源關(guān)鍵信息挖掘方法及系統(tǒng)。


背景技術(shù):

1、隨著信息技術(shù)的快速發(fā)展,各種類型的數(shù)據(jù)資源不斷增加,如文本、圖像、視頻等多種形式的數(shù)據(jù),如何從海量的多源數(shù)據(jù)中快速、準(zhǔn)確地挖掘出關(guān)鍵信息成為一個重要的研究課題。

2、傳統(tǒng)的信息挖掘方法往往局限于單一數(shù)據(jù)源,難以滿足當(dāng)前多源數(shù)據(jù)環(huán)境下的需求。面對數(shù)據(jù)源類型繁多,格式各異,難以統(tǒng)一整合;數(shù)據(jù)量大,信息冗雜,關(guān)鍵信息難以快速提??;不同數(shù)據(jù)源之間存在關(guān)聯(lián)性,需要進(jìn)行深度分析和挖掘;關(guān)鍵信息提取需要結(jié)合特定應(yīng)用場景和需求;因此,迫切需要開發(fā)出一種能夠有效整合多源數(shù)據(jù)資源的關(guān)鍵信息挖掘方法及系統(tǒng),多源數(shù)據(jù)資源關(guān)鍵信息挖掘的挑戰(zhàn)。


技術(shù)實(shí)現(xiàn)思路

1、為了完善現(xiàn)有的多源數(shù)據(jù)資源關(guān)鍵信息挖掘方法,提供一種多源數(shù)據(jù)資源關(guān)鍵信息挖掘方法及系統(tǒng),該方法通過多源數(shù)據(jù)融合與處理,結(jié)合長短時記憶神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)了對文字和數(shù)字類數(shù)據(jù)的關(guān)鍵信息提取與實(shí)時更新。通過動態(tài)調(diào)整模型參數(shù)并生成知識圖譜,能夠高效地進(jìn)行領(lǐng)域特定的關(guān)鍵信息挖掘與可視化操作。

2、為達(dá)到以上目的,本發(fā)明采用的技術(shù)方案為:

3、一種多源數(shù)據(jù)資源關(guān)鍵信息挖掘方法,包括:

4、獲取各形式類型的多源數(shù)據(jù),并進(jìn)行預(yù)處理和數(shù)據(jù)融合;

5、基于處理后的多源數(shù)據(jù),根據(jù)數(shù)據(jù)類型劃分為文字類數(shù)據(jù)和數(shù)字類數(shù)據(jù);對文字類數(shù)據(jù)進(jìn)行詞頻統(tǒng)計及詞語關(guān)聯(lián)性分析,對數(shù)字類數(shù)據(jù)通過上下文語義關(guān)聯(lián)提取其數(shù)值含義;

6、基于各數(shù)據(jù)類型關(guān)鍵信息數(shù)據(jù)集構(gòu)建跨模態(tài)關(guān)鍵信息數(shù)據(jù)集;

7、設(shè)計多分支長短時記憶神經(jīng)網(wǎng)絡(luò)模型,將跨模態(tài)關(guān)鍵信息數(shù)據(jù)集輸入模型進(jìn)行訓(xùn)練,通過動態(tài)調(diào)整網(wǎng)絡(luò)參數(shù)生成針對不同領(lǐng)域的關(guān)鍵信息挖掘模型;

8、基于目標(biāo)領(lǐng)域的數(shù)據(jù)特性選擇對應(yīng)的最優(yōu)模型進(jìn)行關(guān)鍵信息實(shí)時提取與更新,生成知識圖譜,并進(jìn)行可視化操作。

9、優(yōu)選的,所述獲取各形式類型的多源數(shù)據(jù),并進(jìn)行預(yù)處理和數(shù)據(jù)融合具體包括:

10、所述各形式類型的多源數(shù)據(jù)具體包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);

11、對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行執(zhí)行缺失值填充及異常值校正;

12、對非結(jié)構(gòu)化文本數(shù)據(jù)采用分詞、去除停用詞和命名實(shí)體識別操作;

13、將處理后的各類型數(shù)據(jù)進(jìn)行元數(shù)據(jù)解析,識別各數(shù)據(jù)源的原始編碼格式,通過動態(tài)編碼識別器自動匹配最佳轉(zhuǎn)換規(guī)則進(jìn)行統(tǒng)一編碼格式轉(zhuǎn)換;

14、獲取各數(shù)據(jù)源的時間戳字段,通過基于時間戳的多源數(shù)據(jù)對齊進(jìn)行數(shù)據(jù)融合,獲取融合數(shù)據(jù)。

15、優(yōu)選的,所述基于處理后的多源數(shù)據(jù),根據(jù)數(shù)據(jù)類型劃分為文字類數(shù)據(jù)和數(shù)字類數(shù)據(jù);對文字類數(shù)據(jù)進(jìn)行詞頻統(tǒng)計及詞語關(guān)聯(lián)性分析,對數(shù)字類數(shù)據(jù)通過上下文語義關(guān)聯(lián)提取其數(shù)值含義具體包括:

16、基于處理后的多源數(shù)據(jù),通過正則表達(dá)式識別數(shù)字文本、混合文本、文本段落,并對包含數(shù)值的文本進(jìn)行結(jié)構(gòu)化解析,分離出文本描述和數(shù)值部分;

17、基于純文本段落,通過tf-idf增強(qiáng)算法,計算詞項頻率時引入位置權(quán)重,通過平滑處理獲取逆文檔頻率,并輸出每個文檔的詞頻-逆文檔頻率矩陣;

18、通過滑動窗口掃描文本,統(tǒng)計詞對共現(xiàn)次數(shù),進(jìn)行共現(xiàn)分析;

19、通過提取句子主干結(jié)構(gòu),記錄主語-謂語-賓語三元組,進(jìn)行依存句法分析;

20、基于獲取的詞頻-逆文檔頻率矩陣、共現(xiàn)分析、依存句法分析,構(gòu)建純文本段落關(guān)鍵信息數(shù)據(jù)集;

21、基于數(shù)字文本,定位數(shù)值在文本中的位置,截取其前后n個字符作為上下文片段;

22、使用bilstm-crf模型進(jìn)行命名實(shí)體識別,提取上下文中的數(shù)值主體、單位量綱和變動趨勢;

23、基于提取數(shù)據(jù)與行業(yè)知識庫中的標(biāo)準(zhǔn)術(shù)語進(jìn)行匹配,獲取數(shù)值含義解析;

24、基于獲取的數(shù)字文本數(shù)據(jù)構(gòu)建數(shù)字文本關(guān)鍵信息數(shù)據(jù)集。

25、優(yōu)選的,所述基于各數(shù)據(jù)類型關(guān)鍵信息數(shù)據(jù)集構(gòu)建跨模態(tài)關(guān)鍵信息數(shù)據(jù)集具體包括:

26、基于獲取的純文本段落關(guān)鍵信息數(shù)據(jù)集,進(jìn)行文本模態(tài)特征編碼;

27、基于獲取的數(shù)字文本關(guān)鍵信息數(shù)據(jù)集,進(jìn)行數(shù)值模態(tài)特征編碼;

28、通過按時間戳將文本特征與數(shù)值特征映射至同一時間窗口,進(jìn)行時間維度上的對齊;

29、通過全局唯一標(biāo)識符關(guān)聯(lián)同一實(shí)體的多模態(tài)數(shù)據(jù),進(jìn)行實(shí)體維度上的對齊;

30、基于對齊后的多模態(tài)數(shù)據(jù)通過雙通道注意力機(jī)制進(jìn)行加權(quán)融合,構(gòu)建跨模態(tài)關(guān)鍵信息數(shù)據(jù)集。

31、優(yōu)選的,所述設(shè)計多分支長短時記憶神經(jīng)網(wǎng)絡(luò)模型,將跨模態(tài)關(guān)鍵信息數(shù)據(jù)集輸入模型進(jìn)行訓(xùn)練,通過動態(tài)調(diào)整網(wǎng)絡(luò)參數(shù)生成針對不同領(lǐng)域的關(guān)鍵信息挖掘模型具體包括:

32、基于輸入的跨模態(tài)關(guān)鍵信息數(shù)據(jù)集,根據(jù)文本分支和數(shù)值分支進(jìn)行多分支長短時記憶神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)設(shè)計;

33、在各分支前添加輕量級領(lǐng)域分類器,根據(jù)輸入數(shù)據(jù)的領(lǐng)域標(biāo)簽生成路由權(quán)重矩陣,進(jìn)行動態(tài)參數(shù)調(diào)整;

34、基于多階段訓(xùn)練策略,第一階段進(jìn)行通用預(yù)訓(xùn)練,最小化多任務(wù)損失函數(shù),第二階段進(jìn)行領(lǐng)域微調(diào),通過對抗訓(xùn)練策略,最大化領(lǐng)域適配能力;

35、基于神經(jīng)架構(gòu)搜索在預(yù)訓(xùn)練階段自動選擇最優(yōu)卷積核組合,通過余弦退火調(diào)度器進(jìn)行學(xué)習(xí)率自適應(yīng),動態(tài)優(yōu)化超參數(shù);

36、基于各分支長短時記憶神經(jīng)網(wǎng)絡(luò)模型參數(shù)訓(xùn)練優(yōu)化結(jié)果,構(gòu)建不同領(lǐng)域的多組關(guān)鍵信息挖掘模型。

37、優(yōu)選的,所述基于目標(biāo)領(lǐng)域的數(shù)據(jù)特性選擇對應(yīng)的最優(yōu)模型進(jìn)行關(guān)鍵信息實(shí)時提取與更新,生成知識圖譜,并進(jìn)行可視化操作具體包括:

38、基于各領(lǐng)域數(shù)據(jù)結(jié)構(gòu)特征和統(tǒng)計特征進(jìn)行元數(shù)據(jù)特征提取,包括:數(shù)據(jù)模態(tài)占比、字段類型分布、數(shù)值字段的均值/方差/偏度、文本字段的平均長度、信息熵;

39、通過計算kl散度監(jiān)控數(shù)值分布變化,對世事數(shù)據(jù)流進(jìn)行數(shù)據(jù)漂移檢測;

40、基于數(shù)據(jù)特性與構(gòu)建的不同領(lǐng)域的多組關(guān)鍵信息挖掘模型進(jìn)行模型匹配,獲取數(shù)據(jù)特性匹配度最高的模型;

41、基于關(guān)鍵信息挖掘模型進(jìn)行實(shí)時關(guān)鍵信息提取,并將生成結(jié)果進(jìn)行封裝;

42、基于封裝結(jié)果和bilstm-crf模型進(jìn)行圖譜實(shí)體關(guān)系獲取,構(gòu)建知識圖譜,并進(jìn)行實(shí)時沖突檢測;

43、基于獲取的知識圖譜,進(jìn)行前端框架設(shè)計和交互功能設(shè)計,構(gòu)建可視化引擎,并通過圖譜布局優(yōu)化和時序數(shù)據(jù)聯(lián)動進(jìn)行可視化模板渲染。

44、進(jìn)一步的,提出一種多源數(shù)據(jù)資源關(guān)鍵信息挖掘系統(tǒng),包括:

45、多源數(shù)據(jù)采集與預(yù)處理模塊:所述多源數(shù)據(jù)采集與預(yù)處理模塊負(fù)責(zé)預(yù)處理操作,所述預(yù)處理操作包括從異構(gòu)數(shù)據(jù)源獲取結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),完成缺失值填充、文本分詞、編碼統(tǒng)一及時間戳對齊;

46、數(shù)據(jù)類型劃分模塊:所述數(shù)據(jù)類型劃分模塊主用于通過正則表達(dá)式和結(jié)構(gòu)化解析將數(shù)據(jù)自動分類為文本段落和含數(shù)值文本;

47、文字類關(guān)鍵信息提取模塊:所述文字類關(guān)鍵信息提取模塊基于tf-idf增強(qiáng)算法、詞對共現(xiàn)統(tǒng)計及依存句法分析,生成文本詞頻矩陣和語義三元組,構(gòu)建文本關(guān)鍵信息數(shù)據(jù)集;

48、數(shù)值類關(guān)鍵信息解析模塊:所述數(shù)值類關(guān)鍵信息解析模塊主用于利用bilstm-crf模型從數(shù)值上下文中提取實(shí)體、量綱及趨勢,結(jié)合行業(yè)知識庫匹配數(shù)值語義,生成數(shù)字文本關(guān)鍵信息數(shù)據(jù)集;

49、跨模態(tài)對齊與融合模塊:所述跨模態(tài)對齊與融合模塊主用于通過時間窗口對齊和全局實(shí)體標(biāo)識符關(guān)聯(lián)多模態(tài)數(shù)據(jù),采用雙通道注意力機(jī)制實(shí)現(xiàn)文本與數(shù)值特征的加權(quán)融合;

50、多分支lstm模型訓(xùn)練模塊:所述多分支lstm模型訓(xùn)練模塊主用于設(shè)計帶動態(tài)路由權(quán)重的多分支神經(jīng)網(wǎng)絡(luò),結(jié)合對抗訓(xùn)練和神經(jīng)架構(gòu)搜索優(yōu)化模型參數(shù),生成領(lǐng)域適配的關(guān)鍵信息挖掘模型;

51、實(shí)時知識圖譜構(gòu)建模塊:所述實(shí)時知識圖譜構(gòu)建模塊主用于通過實(shí)體關(guān)系抽取和沖突檢測動態(tài)更新圖譜,封裝結(jié)構(gòu)化數(shù)據(jù)并與歷史數(shù)據(jù)關(guān)聯(lián),生成可擴(kuò)展的知識網(wǎng)絡(luò);

52、可視化引擎與交互模塊:所述可視化引擎與交互模塊主用于設(shè)計支持動態(tài)布局優(yōu)化和時序聯(lián)動的可視化模板,將知識圖譜渲染為交互式圖形界面,支持多維度數(shù)據(jù)鉆取與過濾;

53、處理器:所述處理器主用于各公式的計算過程、各模型的構(gòu)建計算過程。

54、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)勢在于:

55、通過對多源數(shù)據(jù)的預(yù)處理與融合,能夠有效整合來自不同來源的文字和數(shù)字?jǐn)?shù)據(jù),使得信息更加全面且具有代表性。文字類數(shù)據(jù)的詞頻統(tǒng)計與關(guān)聯(lián)性分析有助于挖掘文本中的潛在關(guān)系與關(guān)鍵概念,而數(shù)字類數(shù)據(jù)通過上下文語義關(guān)聯(lián)提取其數(shù)值含義,有助于準(zhǔn)確理解數(shù)值背后的實(shí)際含義?;谶@些處理后的關(guān)鍵信息,構(gòu)建跨模態(tài)數(shù)據(jù)集,并利用多分支長短時記憶神經(jīng)網(wǎng)絡(luò)(lstm)模型進(jìn)行訓(xùn)練,能夠動態(tài)調(diào)整網(wǎng)絡(luò)參數(shù),從而針對不同領(lǐng)域生成專門的關(guān)鍵信息挖掘模型。特別地,方法中通過實(shí)時選擇最優(yōu)模型來應(yīng)對不同目標(biāo)領(lǐng)域的數(shù)據(jù)特性,使得關(guān)鍵信息提取不僅精準(zhǔn)且高效。此外,生成的知識圖譜能夠直觀展現(xiàn)信息之間的關(guān)系,通過可視化操作幫助用戶快速理解與決策。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1