aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

一種實體鏈接方法與系統(tǒng)的制作方法_3

文檔序號:9471483閱讀:來源:國知局
一種實體鏈接系統(tǒng),如圖5所示,為本發(fā)明實體鏈接系統(tǒng)實施例 的結(jié)構(gòu)示意圖,包括:
[0077] 預(yù)處理模塊501,用于預(yù)處理輸入文本和預(yù)設(shè)知識庫,獲取所述輸入文本中的各提 及詞、各所述提及詞的上下文W及所述預(yù)設(shè)知識庫中的實體關(guān)鍵詞;
[0078] 候選實體檢索模塊502,用于從所述預(yù)設(shè)知識庫中分別檢索各所述提及詞的候選 實體;
[0079] 提及詞分類模塊503,用于將各所述提及詞根據(jù)其候選實體的數(shù)量分類,將候選實 體數(shù)量小于預(yù)設(shè)闊值的各提及詞分別設(shè)定為明確提及詞,將候選實體數(shù)量大于或等于預(yù)設(shè) 闊值的各提及詞分別設(shè)定為不明確提及詞;
[0080] 第一階段鏈接模塊504,用于對各所述明確提及詞進(jìn)行第一階段的實體鏈接:通 過各所述明確提及詞與所述預(yù)設(shè)知識庫中實體的相似度,W及所述預(yù)設(shè)知識庫中實體間的 相似度,利用預(yù)設(shè)的提及詞與實體對應(yīng)關(guān)系圖方法為各所述明確提及詞篩選出對應(yīng)的目標(biāo) 實體;
[0081] 第二階段鏈接模塊505,用于根據(jù)已經(jīng)鏈接的所述目標(biāo)實體,對各所述不明確提及 詞利用預(yù)設(shè)的提及詞與實體對應(yīng)關(guān)系圖方法進(jìn)行第二階段的實體鏈接。
[0082] 應(yīng)用本實施例提供的一種實體鏈接系統(tǒng),預(yù)處理輸入文本和知識庫,獲取提及詞 及其上下文、實體關(guān)鍵詞;檢索每個提及詞的候選實體;將提及詞根據(jù)其候選實體數(shù)量分 為兩類,候選實體數(shù)量小于預(yù)設(shè)闊值數(shù)量的提及詞為明確提及詞,其余為不明確提及詞。對 明確提及詞進(jìn)行第一階段的實體鏈接。通過提及詞與知識庫中實體的相似度,W及實體之 間的相似度,利用預(yù)設(shè)的提及詞與實體對應(yīng)關(guān)系圖方法完成對候選實體的篩選。根據(jù)已經(jīng) 鏈接的目標(biāo)實體,對不明確的提及詞進(jìn)行第二階段的實體鏈接,根據(jù)是否為明確提及詞分 別分階段進(jìn)行實體鏈接的計算極大地減少算法的復(fù)雜度,通過更新提及詞的上下文,如已 經(jīng)鏈接的實體,可W更準(zhǔn)確、快捷地對文本中提及詞進(jìn)行實體鏈接。
[0083] 需要說明的是,本說明書中的各個實施例均采用遞進(jìn)的方式描述,每個實施例重 點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。 對于系統(tǒng)類實施例而言,由于其與方法實施例基本相似,所W描述的比較簡單,相關(guān)之處參 見方法實施例的部分說明即可。
[0084] 最后,還需要說明的是,在本文中,術(shù)語"包括"、"包含"或者其任何其他變體意在 涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些 要素,而且還包括沒有明確列出的其他要素,或者是還包括為運種過程、方法、物品或者設(shè) 備所固有的要素。在沒有更多限制的情況下,由語句"包括一個……"限定的要素,并不排 除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[00化]W上對本發(fā)明所提供的方法和系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本 發(fā)明的原理及實施方式進(jìn)行了闡述,W上實施例的說明只是用于幫助理解本發(fā)明的方法及 其核屯、思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應(yīng) 用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【主權(quán)項】
1. 一種實體鏈接方法,其特征在于,包括: 預(yù)處理輸入文本和預(yù)設(shè)知識庫,獲取所述輸入文本中的各提及詞、各所述提及詞的上 下文以及所述預(yù)設(shè)知識庫中的實體關(guān)鍵詞; 從所述預(yù)設(shè)知識庫中分別檢索各所述提及詞的候選實體; 將各所述提及詞根據(jù)其候選實體的數(shù)量分類,將候選實體數(shù)量小于預(yù)設(shè)閾值的各提及 詞分別設(shè)定為明確提及詞,將候選實體數(shù)量大于或等于預(yù)設(shè)閾值的各提及詞分別設(shè)定為不 明確提及詞; 對各所述明確提及詞進(jìn)行第一階段的實體鏈接:通過各所述明確提及詞與所述預(yù)設(shè)知 識庫中實體的相似度,以及所述預(yù)設(shè)知識庫中實體間的相似度,利用預(yù)設(shè)的提及詞與實體 對應(yīng)關(guān)系圖方法為各所述明確提及詞篩選出對應(yīng)的目標(biāo)實體; 根據(jù)已經(jīng)鏈接的所述目標(biāo)實體,對各所述不明確提及詞利用預(yù)設(shè)的提及詞與實體對應(yīng) 關(guān)系圖方法進(jìn)行第二階段的實體鏈接。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提及詞的上下文包括: 上下文提及詞序列和上下文分詞序列。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,預(yù)處理輸入文本和預(yù)設(shè)知識庫包括: 將所述輸入文本中識別出的提及詞定義為提及詞序列; 將所述輸入文本進(jìn)行分詞,去掉所述輸入文本中的預(yù)設(shè)停用詞,得到分詞序列; 設(shè)定提及詞的上下文提及詞序列為其周圍的預(yù)設(shè)提及詞數(shù)量的提及詞; 設(shè)定提及詞的上下文分詞序列為其周圍的預(yù)設(shè)分詞數(shù)量的分詞; 設(shè)定實體關(guān)鍵詞描述各實體; 設(shè)定提及詞的候選實體集。4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)先驗概率、提及詞與實體的名稱相似 度和提及詞與實體的上下文相似度計算各所述明確提及詞與所述預(yù)設(shè)知識庫中實體的相 似度。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述閾值為3~5。6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提及詞與實體對應(yīng)關(guān)系圖包括提及 詞對應(yīng)實體邊和實體對應(yīng)實體邊。7. -種實體鏈接系統(tǒng),其特征在于,包括: 預(yù)處理模塊,用于預(yù)處理輸入文本和預(yù)設(shè)知識庫,獲取所述輸入文本中的各提及詞、各 所述提及詞的上下文以及所述預(yù)設(shè)知識庫中的實體關(guān)鍵詞; 候選實體檢索模塊,用于從所述預(yù)設(shè)知識庫中分別檢索各所述提及詞的候選實體; 提及詞分類模塊,用于將各所述提及詞根據(jù)其候選實體的數(shù)量分類,將候選實體數(shù)量 小于預(yù)設(shè)閾值的各提及詞分別設(shè)定為明確提及詞,將候選實體數(shù)量大于或等于預(yù)設(shè)閾值的 各提及詞分別設(shè)定為不明確提及詞; 第一階段鏈接模塊,用于對各所述明確提及詞進(jìn)行第一階段的實體鏈接:通過各所述 明確提及詞與所述預(yù)設(shè)知識庫中實體的相似度,以及所述預(yù)設(shè)知識庫中實體間的相似度, 利用預(yù)設(shè)的提及詞與實體對應(yīng)關(guān)系圖方法為各所述明確提及詞篩選出對應(yīng)的目標(biāo)實體; 第二階段鏈接模塊,用于根據(jù)已經(jīng)鏈接的所述目標(biāo)實體,對各所述不明確提及詞利用 預(yù)設(shè)的提及詞與實體對應(yīng)關(guān)系圖方法進(jìn)行第二階段的實體鏈接。8. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述提及詞的上下文包括: 上下文提及詞序列和上下文分詞序列。9. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述閾值為3~5。10. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述提及詞與實體對應(yīng)關(guān)系圖包括提及 詞對應(yīng)實體邊和實體對應(yīng)實體邊。
【專利摘要】本發(fā)明公開了一種實體鏈接方法與系統(tǒng),預(yù)處理輸入文本和知識庫,獲取提及詞及其上下文、實體關(guān)鍵詞;檢索每個提及詞的候選實體;將提及詞根據(jù)其候選實體數(shù)量分為兩類,候選實體數(shù)量小于預(yù)設(shè)閾值數(shù)量的提及詞為明確提及詞,其余為不明確提及詞。對明確提及詞進(jìn)行第一階段的實體鏈接。通過提及詞與知識庫中實體的相似度,以及實體之間的相似度,利用預(yù)設(shè)的提及詞與實體對應(yīng)關(guān)系圖方法完成對候選實體的篩選。根據(jù)已經(jīng)鏈接的目標(biāo)實體,對不明確的提及詞進(jìn)行第二階段的實體鏈接,根據(jù)是否為明確提及詞分別分階段進(jìn)行實體鏈接的計算極大地減少算法的復(fù)雜度,通過更新提及詞的上下文,如已經(jīng)鏈接的實體,可以更準(zhǔn)確、快捷地對文本中提及詞進(jìn)行實體鏈接。
【IPC分類】G06F17/30
【公開號】CN105224648
【申請?zhí)枴緾N201510632808
【發(fā)明人】薛昊原
【申請人】浪潮(北京)電子信息產(chǎn)業(yè)有限公司
【公開日】2016年1月6日
【申請日】2015年9月29日
當(dāng)前第3頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1