一種局域網(wǎng)數(shù)字檔案的語義關(guān)聯(lián)檢索方法與流程

文檔序號：42854841發(fā)布日期：2025-08-26 19:09閱讀：6來源：國知局

本發(fā)明涉及數(shù)據(jù)處理，具體涉及一種局域網(wǎng)數(shù)字檔案的語義關(guān)聯(lián)檢索方法。

背景技術(shù)：

1、數(shù)字檔案中的文字檔案的語義關(guān)聯(lián)檢索是指對文字檔案內(nèi)容的深入理解和語義分析，實現(xiàn)檔案之間的關(guān)聯(lián)和檢索。在語義檢索中，通常通過計算檔案之間的語義相似度來實現(xiàn)更精準的檢索，具體的，可根據(jù)使用者輸入的檢索信息和檔案之間的語義相似度，實現(xiàn)檔案檢索。

2、但是，僅通過使用者輸入的檢索信息與數(shù)據(jù)庫文本之間的詞向量相似度，無法結(jié)合檔案中的上下文信息，往往導致匹配結(jié)果中的檔案與使用者輸入的檢索信息對應(yīng)的語義差異較大，導致無法檢索到使用者的目標檔案。

技術(shù)實現(xiàn)思路

1、本發(fā)明提供一種局域網(wǎng)數(shù)字檔案的語義關(guān)聯(lián)檢索方法，以解決數(shù)字檔案檢索無法關(guān)聯(lián)檔案中的上下文信息，導致檢索匹配結(jié)果不準確的問題，所采用的技術(shù)方案具體如下：

2、本發(fā)明一個實施例提供了一種局域網(wǎng)數(shù)字檔案的語義關(guān)聯(lián)檢索方法，該方法包括以下步驟：

3、對局域網(wǎng)中所有文字檔案進行語義關(guān)聯(lián)檢索，采集使用者的檢索文本，獲取檢索文本的分詞結(jié)果中每個詞語的詞向量；

4、將檢索文本的分詞結(jié)果中任意兩個不同的詞語分別記為第一詞語和第二詞語，根據(jù)第一詞語和第二詞語在檢索文本中的位置差異，確定第一詞語和第二詞語的位置關(guān)聯(lián)性，根據(jù)第一詞語和第二詞語在局域網(wǎng)中所有文字檔案中的同一句子中同時出現(xiàn)的句子長度和次數(shù)，以及第一詞語和第二詞語的語義關(guān)聯(lián)性，確定第一詞語和第二詞語的修正權(quán)重，根據(jù)第一詞語和第二詞語的位置關(guān)聯(lián)性與修正權(quán)重，確定第一詞語和第二詞語的語義權(quán)重，根據(jù)檢索文本的分詞結(jié)果中所有詞語之間的修正權(quán)重和所有詞語的詞向量，確定檢索文本的語句向量，確定局域網(wǎng)中所有文字檔案中每個句子的語句向量；

5、根據(jù)局域網(wǎng)中所有文字檔案中每個句子的所有不同詞語在局域網(wǎng)中所有文字檔案中的同一句子中同時出現(xiàn)的次數(shù)，以及局域網(wǎng)中所有文字檔案中每個句子的語句向量，分別確定局域網(wǎng)中每一文字檔案的檔案向量；

6、根據(jù)局域網(wǎng)中所有文字檔案的檔案向量與檢索文本的語句向量之間的相似度，完成數(shù)字檔案的語義關(guān)聯(lián)檢索。

7、進一步，所述第一詞語和第二詞語的位置關(guān)聯(lián)性的確定方法為：

8、將第一詞語和第二詞語的序號的差值的絕對值，記為第一詞語和第二詞語的位置距離，將第一詞語和第二詞語的位置距離的負相關(guān)處理結(jié)果，記為第一詞語和第二詞語的位置關(guān)聯(lián)性。

9、進一步，所述根據(jù)第一詞語和第二詞語在局域網(wǎng)中所有文字檔案中的同一句子中同時出現(xiàn)的句子長度和次數(shù)，以及第一詞語和第二詞語的語義關(guān)聯(lián)性，確定第一詞語和第二詞語的修正權(quán)重，包括的具體方法為：

10、使用textrank算法獲取第一詞語和第二詞語之間邊的權(quán)重；

11、當?shù)谝辉~語和第二詞語在局域網(wǎng)中所有文字檔案中的同一句子中同時出現(xiàn)，記為第一詞語和第二詞語在文字檔案中共現(xiàn)；根據(jù)第一詞語和第二詞語的共現(xiàn)次數(shù)與局域網(wǎng)中所有文字檔案中所有不同詞語的共現(xiàn)次數(shù)之間的差異，確定第一詞語和第二詞語的第一比值；

12、局域網(wǎng)中所有文字檔案的所有句子的長度，以及第一詞語和第二詞語在文字檔案中共現(xiàn)的句子的長度，確定第一詞語和第二詞語的第二比值；

13、將第一詞語和第二詞語的第一比值與第二比值的均值，記為第一詞語和第二詞語的第三比值；

14、將第一詞語和第二詞語之間邊的權(quán)重與第三比值的差值，記為第一詞語和第二詞語的修正權(quán)重。

15、進一步，所述根據(jù)第一詞語和第二詞語的共現(xiàn)次數(shù)與局域網(wǎng)中所有文字檔案中所有不同詞語的共現(xiàn)次數(shù)之間的差異，確定第一詞語和第二詞語的第一比值，包括的具體方法為：

16、將第一詞語和第二詞語在局域網(wǎng)中所有文字檔案中共現(xiàn)的總次數(shù)，記為第一詞語和第二詞語的文檔共現(xiàn)次數(shù)，將局域網(wǎng)中所有文字檔案中所有不同詞語的共現(xiàn)總次數(shù)，記為文檔共現(xiàn)總數(shù)，將第一詞語和第二詞語的文檔共現(xiàn)次數(shù)與文檔共現(xiàn)總數(shù)的比值，記為第一詞語和第二詞語的第一比值。

17、進一步，所述局域網(wǎng)中所有文字檔案的所有句子的長度，以及第一詞語和第二詞語在文字檔案中共現(xiàn)的句子的長度，確定第一詞語和第二詞語的第二比值，包括的具體方法為：

18、將第一詞語和第二詞語在文字檔案中共現(xiàn)的句子的平均長度，記為第一詞語和第二詞語的文檔共現(xiàn)長度；將局域網(wǎng)中所有文字檔案的所有句子的平均長度，記為文檔平均長度；將第一詞語和第二詞語的文檔共現(xiàn)長度與文檔平均長度的比值，記為第一詞語和第二詞語的第二比值。

19、進一步，所述第一詞語和第二詞語的語義權(quán)重的確定方法為：

20、將第一詞語和第二詞語的位置關(guān)聯(lián)性與修正權(quán)重的均值，記為第一詞語和第二詞語的語義權(quán)重。

21、進一步，所述檢索文本的語句向量的確定方法為：

22、將第一詞語與檢索文本的分詞結(jié)果中所有其他詞語之間的修正權(quán)重的累加和的歸一化值，記為第一詞語的語義總權(quán)重，將第一詞語的語義總權(quán)重與詞向量的乘積，記為第一詞語的加權(quán)累計值；

23、將檢索文本的分詞結(jié)果中所有詞語的加權(quán)累計值的累加和，記為檢索文本的語句向量。

24、進一步，所述文字檔案的檔案向量的確定方法為：

25、將局域網(wǎng)中所有文字檔案中任意一個句子記為目標檔案句，將目標檔案句的分詞結(jié)果中所有不同的詞語的文檔共現(xiàn)次數(shù)的累加和，記為目標檔案句的共現(xiàn)頻次，將目標檔案句的共現(xiàn)頻次與文檔共現(xiàn)總數(shù)的比值，記為目標檔案句的第四比值，將目標檔案句的語句向量與第四比值的乘積，記為目標檔案句的加權(quán)向量；

26、將局域網(wǎng)中同一文字檔案中所有句子的加權(quán)向量的向量和，記為所述局域網(wǎng)中同一文字檔案的檔案向量。

27、進一步，所述根據(jù)局域網(wǎng)中所有文字檔案的檔案向量與檢索文本的語句向量之間的相似度，完成數(shù)字檔案的語義關(guān)聯(lián)檢索，包括的具體方法為：

28、將檢索文本的語句向量與局域網(wǎng)中文字檔案的檔案向量之間的余弦相似度的絕對值，記為檢索文本與文字檔案的語義關(guān)聯(lián)程度；

29、根據(jù)檢索文本與局域網(wǎng)中所有文字檔案的語義關(guān)聯(lián)程度，獲取數(shù)字檔案的語義關(guān)聯(lián)檢索結(jié)果。

30、進一步，所述根據(jù)檢索文本與局域網(wǎng)中所有文字檔案的語義關(guān)聯(lián)程度，獲取數(shù)字檔案的語義關(guān)聯(lián)檢索結(jié)果，包括的具體方法為：

31、將檢索文本對應(yīng)的所有語義關(guān)聯(lián)程度中最大的個語義關(guān)聯(lián)程度對應(yīng)的文字檔案按照文字檔案對應(yīng)的語義關(guān)聯(lián)程度從大到小的順序進行排列，獲取語義關(guān)聯(lián)檢索結(jié)果，其中，表示預(yù)設(shè)參數(shù)。

32、本發(fā)明的有益效果是：

33、本技術(shù)根據(jù)檢索文本的分詞結(jié)果中包含的所有詞語在檢索文本中的順序差異，比較句子中不同詞語之間的物理距離，對句子中不同詞語之間的內(nèi)在語義聯(lián)系的程度進行評價，獲取檢索文本的分詞結(jié)果中任意兩個不同的詞語的位置關(guān)聯(lián)性，考慮到同一詞匯在不同語境下表達的含義可能存在差異，為了避免同一詞匯的不同含義對語義關(guān)聯(lián)分析結(jié)果的影響，對textrank算法對句子中詞語之間的關(guān)聯(lián)性評價進行調(diào)整，評價檢索文本的分詞結(jié)果中任意兩個不同的詞語的語義關(guān)聯(lián)性，獲取兩個不同的詞語的修正權(quán)重，并結(jié)合位置關(guān)聯(lián)性確定語義權(quán)重，語義權(quán)重是對檢索文本的分詞結(jié)果中不同詞語的綜合關(guān)聯(lián)性評價，可以避免單一依賴語義泛化導致的語義關(guān)聯(lián)性評價偏離，同時，突破傳統(tǒng)檢索對字面匹配的依賴，進一步的，根據(jù)檢索文本的分詞結(jié)果中所有詞語之間的修正權(quán)重和所有詞語的詞向量，確定檢索文本的語句向量，并按照相同的方法，根據(jù)局域網(wǎng)中所有文字檔案，確定局域網(wǎng)中所有文字檔案中每個句子的語句向量；在語句向量的基礎(chǔ)上，判定局域網(wǎng)中所有文字檔案中每個句子相對于文字檔案的重要程度，分別確定局域網(wǎng)中每一文字檔案的檔案向量；最后，根據(jù)局域網(wǎng)中所有文字檔案的檔案向量與檢索文本的語句向量之間的相似度，完成數(shù)字檔案的語義關(guān)聯(lián)檢索，解決數(shù)字檔案檢索無法關(guān)聯(lián)檔案中的上下文信息，導致檢索匹配結(jié)果不準確的問題，提升局域網(wǎng)內(nèi)數(shù)字檔案的語義關(guān)聯(lián)檢索結(jié)果的準確性。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王愛,張麗彩,朱秀麗,郝彩玲,趙楠,石璞
技術(shù)所有人：遼寧奇點教育科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語義檢索技術(shù)相關(guān)技術(shù)

aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

一種局域網(wǎng)數(shù)字檔案的語義關(guān)聯(lián)檢索方法與流程