本發(fā)明涉及數(shù)據(jù)處理,具體涉及一種局域網(wǎng)數(shù)字檔案的語義關(guān)聯(lián)檢索方法。
背景技術(shù):
1、數(shù)字檔案中的文字檔案的語義關(guān)聯(lián)檢索是指對文字檔案內(nèi)容的深入理解和語義分析,實現(xiàn)檔案之間的關(guān)聯(lián)和檢索。在語義檢索中,通常通過計算檔案之間的語義相似度來實現(xiàn)更精準的檢索,具體的,可根據(jù)使用者輸入的檢索信息和檔案之間的語義相似度,實現(xiàn)檔案檢索。
2、但是,僅通過使用者輸入的檢索信息與數(shù)據(jù)庫文本之間的詞向量相似度,無法結(jié)合檔案中的上下文信息,往往導致匹配結(jié)果中的檔案與使用者輸入的檢索信息對應(yīng)的語義差異較大,導致無法檢索到使用者的目標檔案。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種局域網(wǎng)數(shù)字檔案的語義關(guān)聯(lián)檢索方法,以解決數(shù)字檔案檢索無法關(guān)聯(lián)檔案中的上下文信息,導致檢索匹配結(jié)果不準確的問題,所采用的技術(shù)方案具體如下:
2、本發(fā)明一個實施例提供了一種局域網(wǎng)數(shù)字檔案的語義關(guān)聯(lián)檢索方法,該方法包括以下步驟:
3、對局域網(wǎng)中所有文字檔案進行語義關(guān)聯(lián)檢索,采集使用者的檢索文本,獲取檢索文本的分詞結(jié)果中每個詞語的詞向量;
4、將檢索文本的分詞結(jié)果中任意兩個不同的詞語分別記為第一詞語和第二詞語,根據(jù)第一詞語和第二詞語在檢索文本中的位置差異,確定第一詞語和第二詞語的位置關(guān)聯(lián)性,根據(jù)第一詞語和第二詞語在局域網(wǎng)中所有文字檔案中的同一句子中同時出現(xiàn)的句子長度和次數(shù),以及第一詞語和第二詞語的語義關(guān)聯(lián)性,確定第一詞語和第二詞語的修正權(quán)重,根據(jù)第一詞語和第二詞語的位置關(guān)聯(lián)性與修正權(quán)重,確定第一詞語和第二詞語的語義權(quán)重,根據(jù)檢索文本的分詞結(jié)果中所有詞語之間的修正權(quán)重和所有詞語的詞向量,確定檢索文本的語句向量,確定局域網(wǎng)中所有文字檔案中每個句子的語句向量;
5、根據(jù)局域網(wǎng)中所有文字檔案中每個句子的所有不同詞語在局域網(wǎng)中所有文字檔案中的同一句子中同時出現(xiàn)的次數(shù),以及局域網(wǎng)中所有文字檔案中每個句子的語句向量,分別確定局域網(wǎng)中每一文字檔案的檔案向量;
6、根據(jù)局域網(wǎng)中所有文字檔案的檔案向量與檢索文本的語句向量之間的相似度,完成數(shù)字檔案的語義關(guān)聯(lián)檢索。
7、進一步,所述第一詞語和第二詞語的位置關(guān)聯(lián)性的確定方法為:
8、將第一詞語和第二詞語的序號的差值的絕對值,記為第一詞語和第二詞語的位置距離,將第一詞語和第二詞語的位置距離的負相關(guān)處理結(jié)果,記為第一詞語和第二詞語的位置關(guān)聯(lián)性。
9、進一步,所述根據(jù)第一詞語和第二詞語在局域網(wǎng)中所有文字檔案中的同一句子中同時出現(xiàn)的句子長度和次數(shù),以及第一詞語和第二詞語的語義關(guān)聯(lián)性,確定第一詞語和第二詞語的修正權(quán)重,包括的具體方法為:
10、使用textrank算法獲取第一詞語和第二詞語之間邊的權(quán)重;
11、當?shù)谝辉~語和第二詞語在局域網(wǎng)中所有文字檔案中的同一句子中同時出現(xiàn),記為第一詞語和第二詞語在文字檔案中共現(xiàn);根據(jù)第一詞語和第二詞語的共現(xiàn)次數(shù)與局域網(wǎng)中所有文字檔案中所有不同詞語的共現(xiàn)次數(shù)之間的差異,確定第一詞語和第二詞語的第一比值;
12、局域網(wǎng)中所有文字檔案的所有句子的長度,以及第一詞語和第二詞語在文字檔案中共現(xiàn)的句子的長度,確定第一詞語和第二詞語的第二比值;
13、將第一詞語和第二詞語的第一比值與第二比值的均值,記為第一詞語和第二詞語的第三比值;
14、將第一詞語和第二詞語之間邊的權(quán)重與第三比值的差值,記為第一詞語和第二詞語的修正權(quán)重。
15、進一步,所述根據(jù)第一詞語和第二詞語的共現(xiàn)次數(shù)與局域網(wǎng)中所有文字檔案中所有不同詞語的共現(xiàn)次數(shù)之間的差異,確定第一詞語和第二詞語的第一比值,包括的具體方法為:
16、將第一詞語和第二詞語在局域網(wǎng)中所有文字檔案中共現(xiàn)的總次數(shù),記為第一詞語和第二詞語的文檔共現(xiàn)次數(shù),將局域網(wǎng)中所有文字檔案中所有不同詞語的共現(xiàn)總次數(shù),記為文檔共現(xiàn)總數(shù),將第一詞語和第二詞語的文檔共現(xiàn)次數(shù)與文檔共現(xiàn)總數(shù)的比值,記為第一詞語和第二詞語的第一比值。
17、進一步,所述局域網(wǎng)中所有文字檔案的所有句子的長度,以及第一詞語和第二詞語在文字檔案中共現(xiàn)的句子的長度,確定第一詞語和第二詞語的第二比值,包括的具體方法為:
18、將第一詞語和第二詞語在文字檔案中共現(xiàn)的句子的平均長度,記為第一詞語和第二詞語的文檔共現(xiàn)長度;將局域網(wǎng)中所有文字檔案的所有句子的平均長度,記為文檔平均長度;將第一詞語和第二詞語的文檔共現(xiàn)長度與文檔平均長度的比值,記為第一詞語和第二詞語的第二比值。
19、進一步,所述第一詞語和第二詞語的語義權(quán)重的確定方法為:
20、將第一詞語和第二詞語的位置關(guān)聯(lián)性與修正權(quán)重的均值,記為第一詞語和第二詞語的語義權(quán)重。
21、進一步,所述檢索文本的語句向量的確定方法為:
22、將第一詞語與檢索文本的分詞結(jié)果中所有其他詞語之間的修正權(quán)重的累加和的歸一化值,記為第一詞語的語義總權(quán)重,將第一詞語的語義總權(quán)重與詞向量的乘積,記為第一詞語的加權(quán)累計值;
23、將檢索文本的分詞結(jié)果中所有詞語的加權(quán)累計值的累加和,記為檢索文本的語句向量。
24、進一步,所述文字檔案的檔案向量的確定方法為:
25、將局域網(wǎng)中所有文字檔案中任意一個句子記為目標檔案句,將目標檔案句的分詞結(jié)果中所有不同的詞語的文檔共現(xiàn)次數(shù)的累加和,記為目標檔案句的共現(xiàn)頻次,將目標檔案句的共現(xiàn)頻次與文檔共現(xiàn)總數(shù)的比值,記為目標檔案句的第四比值,將目標檔案句的語句向量與第四比值的乘積,記為目標檔案句的加權(quán)向量;
26、將局域網(wǎng)中同一文字檔案中所有句子的加權(quán)向量的向量和,記為所述局域網(wǎng)中同一文字檔案的檔案向量。
27、進一步,所述根據(jù)局域網(wǎng)中所有文字檔案的檔案向量與檢索文本的語句向量之間的相似度,完成數(shù)字檔案的語義關(guān)聯(lián)檢索,包括的具體方法為:
28、將檢索文本的語句向量與局域網(wǎng)中文字檔案的檔案向量之間的余弦相似度的絕對值,記為檢索文本與文字檔案的語義關(guān)聯(lián)程度;
29、根據(jù)檢索文本與局域網(wǎng)中所有文字檔案的語義關(guān)聯(lián)程度,獲取數(shù)字檔案的語義關(guān)聯(lián)檢索結(jié)果。
30、進一步,所述根據(jù)檢索文本與局域網(wǎng)中所有文字檔案的語義關(guān)聯(lián)程度,獲取數(shù)字檔案的語義關(guān)聯(lián)檢索結(jié)果,包括的具體方法為:
31、將檢索文本對應(yīng)的所有語義關(guān)聯(lián)程度中最大的個語義關(guān)聯(lián)程度對應(yīng)的文字檔案按照文字檔案對應(yīng)的語義關(guān)聯(lián)程度從大到小的順序進行排列,獲取語義關(guān)聯(lián)檢索結(jié)果,其中,表示預(yù)設(shè)參數(shù)。
32、本發(fā)明的有益效果是:
33、本技術(shù)根據(jù)檢索文本的分詞結(jié)果中包含的所有詞語在檢索文本中的順序差異,比較句子中不同詞語之間的物理距離,對句子中不同詞語之間的內(nèi)在語義聯(lián)系的程度進行評價,獲取檢索文本的分詞結(jié)果中任意兩個不同的詞語的位置關(guān)聯(lián)性,考慮到同一詞匯在不同語境下表達的含義可能存在差異,為了避免同一詞匯的不同含義對語義關(guān)聯(lián)分析結(jié)果的影響,對textrank算法對句子中詞語之間的關(guān)聯(lián)性評價進行調(diào)整,評價檢索文本的分詞結(jié)果中任意兩個不同的詞語的語義關(guān)聯(lián)性,獲取兩個不同的詞語的修正權(quán)重,并結(jié)合位置關(guān)聯(lián)性確定語義權(quán)重,語義權(quán)重是對檢索文本的分詞結(jié)果中不同詞語的綜合關(guān)聯(lián)性評價,可以避免單一依賴語義泛化導致的語義關(guān)聯(lián)性評價偏離,同時,突破傳統(tǒng)檢索對字面匹配的依賴,進一步的,根據(jù)檢索文本的分詞結(jié)果中所有詞語之間的修正權(quán)重和所有詞語的詞向量,確定檢索文本的語句向量,并按照相同的方法,根據(jù)局域網(wǎng)中所有文字檔案,確定局域網(wǎng)中所有文字檔案中每個句子的語句向量;在語句向量的基礎(chǔ)上,判定局域網(wǎng)中所有文字檔案中每個句子相對于文字檔案的重要程度,分別確定局域網(wǎng)中每一文字檔案的檔案向量;最后,根據(jù)局域網(wǎng)中所有文字檔案的檔案向量與檢索文本的語句向量之間的相似度,完成數(shù)字檔案的語義關(guān)聯(lián)檢索,解決數(shù)字檔案檢索無法關(guān)聯(lián)檔案中的上下文信息,導致檢索匹配結(jié)果不準確的問題,提升局域網(wǎng)內(nèi)數(shù)字檔案的語義關(guān)聯(lián)檢索結(jié)果的準確性。