aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

一種局域網(wǎng)數(shù)字檔案的語義關(guān)聯(lián)檢索方法與流程

文檔序號:42854841發(fā)布日期:2025-08-26 19:09閱讀:6來源:國知局

本發(fā)明涉及數(shù)據(jù)處理,具體涉及一種局域網(wǎng)數(shù)字檔案的語義關(guān)聯(lián)檢索方法。


背景技術(shù):

1、數(shù)字檔案中的文字檔案的語義關(guān)聯(lián)檢索是指對文字檔案內(nèi)容的深入理解和語義分析,實現(xiàn)檔案之間的關(guān)聯(lián)和檢索。在語義檢索中,通常通過計算檔案之間的語義相似度來實現(xiàn)更精準的檢索,具體的,可根據(jù)使用者輸入的檢索信息和檔案之間的語義相似度,實現(xiàn)檔案檢索。

2、但是,僅通過使用者輸入的檢索信息與數(shù)據(jù)庫文本之間的詞向量相似度,無法結(jié)合檔案中的上下文信息,往往導致匹配結(jié)果中的檔案與使用者輸入的檢索信息對應(yīng)的語義差異較大,導致無法檢索到使用者的目標檔案。


技術(shù)實現(xiàn)思路

1、本發(fā)明提供一種局域網(wǎng)數(shù)字檔案的語義關(guān)聯(lián)檢索方法,以解決數(shù)字檔案檢索無法關(guān)聯(lián)檔案中的上下文信息,導致檢索匹配結(jié)果不準確的問題,所采用的技術(shù)方案具體如下:

2、本發(fā)明一個實施例提供了一種局域網(wǎng)數(shù)字檔案的語義關(guān)聯(lián)檢索方法,該方法包括以下步驟:

3、對局域網(wǎng)中所有文字檔案進行語義關(guān)聯(lián)檢索,采集使用者的檢索文本,獲取檢索文本的分詞結(jié)果中每個詞語的詞向量;

4、將檢索文本的分詞結(jié)果中任意兩個不同的詞語分別記為第一詞語和第二詞語,根據(jù)第一詞語和第二詞語在檢索文本中的位置差異,確定第一詞語和第二詞語的位置關(guān)聯(lián)性,根據(jù)第一詞語和第二詞語在局域網(wǎng)中所有文字檔案中的同一句子中同時出現(xiàn)的句子長度和次數(shù),以及第一詞語和第二詞語的語義關(guān)聯(lián)性,確定第一詞語和第二詞語的修正權(quán)重,根據(jù)第一詞語和第二詞語的位置關(guān)聯(lián)性與修正權(quán)重,確定第一詞語和第二詞語的語義權(quán)重,根據(jù)檢索文本的分詞結(jié)果中所有詞語之間的修正權(quán)重和所有詞語的詞向量,確定檢索文本的語句向量,確定局域網(wǎng)中所有文字檔案中每個句子的語句向量;

5、根據(jù)局域網(wǎng)中所有文字檔案中每個句子的所有不同詞語在局域網(wǎng)中所有文字檔案中的同一句子中同時出現(xiàn)的次數(shù),以及局域網(wǎng)中所有文字檔案中每個句子的語句向量,分別確定局域網(wǎng)中每一文字檔案的檔案向量;

6、根據(jù)局域網(wǎng)中所有文字檔案的檔案向量與檢索文本的語句向量之間的相似度,完成數(shù)字檔案的語義關(guān)聯(lián)檢索。

7、進一步,所述第一詞語和第二詞語的位置關(guān)聯(lián)性的確定方法為:

8、將第一詞語和第二詞語的序號的差值的絕對值,記為第一詞語和第二詞語的位置距離,將第一詞語和第二詞語的位置距離的負相關(guān)處理結(jié)果,記為第一詞語和第二詞語的位置關(guān)聯(lián)性。

9、進一步,所述根據(jù)第一詞語和第二詞語在局域網(wǎng)中所有文字檔案中的同一句子中同時出現(xiàn)的句子長度和次數(shù),以及第一詞語和第二詞語的語義關(guān)聯(lián)性,確定第一詞語和第二詞語的修正權(quán)重,包括的具體方法為:

10、使用textrank算法獲取第一詞語和第二詞語之間邊的權(quán)重;

11、當?shù)谝辉~語和第二詞語在局域網(wǎng)中所有文字檔案中的同一句子中同時出現(xiàn),記為第一詞語和第二詞語在文字檔案中共現(xiàn);根據(jù)第一詞語和第二詞語的共現(xiàn)次數(shù)與局域網(wǎng)中所有文字檔案中所有不同詞語的共現(xiàn)次數(shù)之間的差異,確定第一詞語和第二詞語的第一比值;

12、局域網(wǎng)中所有文字檔案的所有句子的長度,以及第一詞語和第二詞語在文字檔案中共現(xiàn)的句子的長度,確定第一詞語和第二詞語的第二比值;

13、將第一詞語和第二詞語的第一比值與第二比值的均值,記為第一詞語和第二詞語的第三比值;

14、將第一詞語和第二詞語之間邊的權(quán)重與第三比值的差值,記為第一詞語和第二詞語的修正權(quán)重。

15、進一步,所述根據(jù)第一詞語和第二詞語的共現(xiàn)次數(shù)與局域網(wǎng)中所有文字檔案中所有不同詞語的共現(xiàn)次數(shù)之間的差異,確定第一詞語和第二詞語的第一比值,包括的具體方法為:

16、將第一詞語和第二詞語在局域網(wǎng)中所有文字檔案中共現(xiàn)的總次數(shù),記為第一詞語和第二詞語的文檔共現(xiàn)次數(shù),將局域網(wǎng)中所有文字檔案中所有不同詞語的共現(xiàn)總次數(shù),記為文檔共現(xiàn)總數(shù),將第一詞語和第二詞語的文檔共現(xiàn)次數(shù)與文檔共現(xiàn)總數(shù)的比值,記為第一詞語和第二詞語的第一比值。

17、進一步,所述局域網(wǎng)中所有文字檔案的所有句子的長度,以及第一詞語和第二詞語在文字檔案中共現(xiàn)的句子的長度,確定第一詞語和第二詞語的第二比值,包括的具體方法為:

18、將第一詞語和第二詞語在文字檔案中共現(xiàn)的句子的平均長度,記為第一詞語和第二詞語的文檔共現(xiàn)長度;將局域網(wǎng)中所有文字檔案的所有句子的平均長度,記為文檔平均長度;將第一詞語和第二詞語的文檔共現(xiàn)長度與文檔平均長度的比值,記為第一詞語和第二詞語的第二比值。

19、進一步,所述第一詞語和第二詞語的語義權(quán)重的確定方法為:

20、將第一詞語和第二詞語的位置關(guān)聯(lián)性與修正權(quán)重的均值,記為第一詞語和第二詞語的語義權(quán)重。

21、進一步,所述檢索文本的語句向量的確定方法為:

22、將第一詞語與檢索文本的分詞結(jié)果中所有其他詞語之間的修正權(quán)重的累加和的歸一化值,記為第一詞語的語義總權(quán)重,將第一詞語的語義總權(quán)重與詞向量的乘積,記為第一詞語的加權(quán)累計值;

23、將檢索文本的分詞結(jié)果中所有詞語的加權(quán)累計值的累加和,記為檢索文本的語句向量。

24、進一步,所述文字檔案的檔案向量的確定方法為:

25、將局域網(wǎng)中所有文字檔案中任意一個句子記為目標檔案句,將目標檔案句的分詞結(jié)果中所有不同的詞語的文檔共現(xiàn)次數(shù)的累加和,記為目標檔案句的共現(xiàn)頻次,將目標檔案句的共現(xiàn)頻次與文檔共現(xiàn)總數(shù)的比值,記為目標檔案句的第四比值,將目標檔案句的語句向量與第四比值的乘積,記為目標檔案句的加權(quán)向量;

26、將局域網(wǎng)中同一文字檔案中所有句子的加權(quán)向量的向量和,記為所述局域網(wǎng)中同一文字檔案的檔案向量。

27、進一步,所述根據(jù)局域網(wǎng)中所有文字檔案的檔案向量與檢索文本的語句向量之間的相似度,完成數(shù)字檔案的語義關(guān)聯(lián)檢索,包括的具體方法為:

28、將檢索文本的語句向量與局域網(wǎng)中文字檔案的檔案向量之間的余弦相似度的絕對值,記為檢索文本與文字檔案的語義關(guān)聯(lián)程度;

29、根據(jù)檢索文本與局域網(wǎng)中所有文字檔案的語義關(guān)聯(lián)程度,獲取數(shù)字檔案的語義關(guān)聯(lián)檢索結(jié)果。

30、進一步,所述根據(jù)檢索文本與局域網(wǎng)中所有文字檔案的語義關(guān)聯(lián)程度,獲取數(shù)字檔案的語義關(guān)聯(lián)檢索結(jié)果,包括的具體方法為:

31、將檢索文本對應(yīng)的所有語義關(guān)聯(lián)程度中最大的個語義關(guān)聯(lián)程度對應(yīng)的文字檔案按照文字檔案對應(yīng)的語義關(guān)聯(lián)程度從大到小的順序進行排列,獲取語義關(guān)聯(lián)檢索結(jié)果,其中,表示預(yù)設(shè)參數(shù)。

32、本發(fā)明的有益效果是:

33、本技術(shù)根據(jù)檢索文本的分詞結(jié)果中包含的所有詞語在檢索文本中的順序差異,比較句子中不同詞語之間的物理距離,對句子中不同詞語之間的內(nèi)在語義聯(lián)系的程度進行評價,獲取檢索文本的分詞結(jié)果中任意兩個不同的詞語的位置關(guān)聯(lián)性,考慮到同一詞匯在不同語境下表達的含義可能存在差異,為了避免同一詞匯的不同含義對語義關(guān)聯(lián)分析結(jié)果的影響,對textrank算法對句子中詞語之間的關(guān)聯(lián)性評價進行調(diào)整,評價檢索文本的分詞結(jié)果中任意兩個不同的詞語的語義關(guān)聯(lián)性,獲取兩個不同的詞語的修正權(quán)重,并結(jié)合位置關(guān)聯(lián)性確定語義權(quán)重,語義權(quán)重是對檢索文本的分詞結(jié)果中不同詞語的綜合關(guān)聯(lián)性評價,可以避免單一依賴語義泛化導致的語義關(guān)聯(lián)性評價偏離,同時,突破傳統(tǒng)檢索對字面匹配的依賴,進一步的,根據(jù)檢索文本的分詞結(jié)果中所有詞語之間的修正權(quán)重和所有詞語的詞向量,確定檢索文本的語句向量,并按照相同的方法,根據(jù)局域網(wǎng)中所有文字檔案,確定局域網(wǎng)中所有文字檔案中每個句子的語句向量;在語句向量的基礎(chǔ)上,判定局域網(wǎng)中所有文字檔案中每個句子相對于文字檔案的重要程度,分別確定局域網(wǎng)中每一文字檔案的檔案向量;最后,根據(jù)局域網(wǎng)中所有文字檔案的檔案向量與檢索文本的語句向量之間的相似度,完成數(shù)字檔案的語義關(guān)聯(lián)檢索,解決數(shù)字檔案檢索無法關(guān)聯(lián)檔案中的上下文信息,導致檢索匹配結(jié)果不準確的問題,提升局域網(wǎng)內(nèi)數(shù)字檔案的語義關(guān)聯(lián)檢索結(jié)果的準確性。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1