0048] 定義提及詞nil的上下文分詞序列為m1周圍的預設分詞數(shù)量個分詞,如化+1個分 詞,假設叫二tJ,那么r二{^片,…,^,,…,
[0049] 定義實體關鍵詞描述每個實體e。本發(fā)明從YAG02知識庫中提取每個的實體的關 鍵短語。每個實體eGE通過關鍵詞函數(shù)TokO分配到零個或多個關鍵字符串,定義為實體 關鍵詞,運些關鍵詞通過簡化YAG02知識庫中每個實體的解釋得到。比如:對于"化ama(美 國總統(tǒng))"運個實體e,它的實體關鍵詞序列Tok(e) = { "US","president"}。
[0050] 步驟S102 :從所述預設知識庫中分別檢索各所述提及詞的候選實體;
[0051] 定義提及詞nil候選實體集為E1由對知識庫的檢索得到,其中eE1,表示提及 詞nil的第j個候選實體。
[0052] 步驟S103 :將各所述提及詞根據(jù)其候選實體的數(shù)量分類,將候選實體數(shù)量小于預 設闊值的各提及詞分別設定為明確提及詞,將候選實體數(shù)量大于或等于預設闊值的各提及 詞分別設定為不明確提及詞;
[0053] 如設定預設闊值為4,根據(jù)提及詞候選鏈接數(shù)量將文中的提及詞分為兩類,定義候 選實體數(shù)量小于4的提及詞為明確提及詞,其余為不明確提及詞。明確提及詞的候選實體 非常少,基本沒有歧義,能更容易地鏈接到正確的目標實體。
[0054] 步驟S104 :對各所述明確提及詞進行第一階段的實體鏈接:通過各所述明確提及 詞與所述預設知識庫中實體的相似度,W及所述預設知識庫中實體間的相似度,利用預設 的提及詞與實體對應關系圖方法為各所述明確提及詞篩選出對應的目標實體;
[0055] 計算明確提及詞與所述預設知識庫中實體的相似度,W及所述預設知識庫中實體 間的相似度,其中,計算明確提及詞與所述預設知識庫中實體的相似度即局部相似度使用 先驗概率、提及詞與實體的名稱相似度、提及詞與實體的上下文相似度=個指標進行計算; 計算所述預設知識庫中實體間的相似度即全局相似度使用實體間的相似度計算。
[0056] 先驗概率計算的基礎是預設知識庫連接結構,預設知識庫如維基百科,對于一個 提及詞,計算它鏈接到一個特定實體的次數(shù),也就是提及詞nil鏈接到代表實體e的維基百 科文章的相對頻率,反映了提及詞mi指向?qū)嶓we的可能性。比如,在所有的維基百科文章中 "tree(樹)"鏈接到樹(植物)的概率較高,而鏈接到tree(數(shù)據(jù)結構)的概率較低。因此 可W認為tree(植物)運個實體更具有普遍性。實體的先驗概率函數(shù)表示為公式(1):
[0057]
[0058] 提及詞名稱與實體名稱相似度函數(shù)f2反映了文中提及詞的名稱與實體e。的 名稱運兩個字符串的相似度。例如,輸入文本中的提及詞"MichaelJJordan"和實體 "Michael_Jordan"間的名稱相似度,去掉空格和符號,使用3-grams對提及詞名稱和實體 名稱的字符串進行劃分,并使用化ccard相似度系數(shù)進行計算。提及詞名稱與實體名稱相 似度表示為公式(2):
[0059]
W60] 提及詞序列與實體關鍵詞相似度函數(shù)f3反映了提及詞m1的候選實體e1,與其上下 文提及詞序列M' = {niik,…,m;,…,nviJ的語義相關度。叫表示m;的上下文提及詞序列M' 中除了m;的每個提及詞,Co_count(mt,e。)與m;的候選實體e。的同現(xiàn)計數(shù),可W根據(jù)維基 百科的統(tǒng)計數(shù)據(jù)計算。Count(mt)指的是在所有維基百科文章中,提及詞mt的上下文M'出 現(xiàn)的次數(shù)。設定運個值至少為1,然而在大部分情況下運個值非常小,因此對提及詞nil的候 選實體集Ei應用線性歸一化方法,如公式(3)所示:
[0061]
[0062] 分詞序列與實體關鍵詞相似度函數(shù)f4反映的是提及詞的上下文分詞序列T' 與其候選實體e,,的實體關鍵詞Tok(ei,)之間的關系。在對知識庫的預處理中,已經(jīng)得到實 體關鍵詞Tok(eu)。在鏈接過程中,將提及詞mi的上下文T' ={t,k,…,t,,…,與候 選實體ei,的實體關鍵詞Tok(ei,)進行比對,計算它們的重疊系數(shù),表示為公式(4);
[0063]
[0064] 實體間相似度函數(shù)反映的是兩個實體之間的關系,運兩個實體分別屬于不同提及 詞的候選實體集。若幾個實體之間的相似度較強,那么它們?yōu)槟繕藢嶓w的可能性較大。具 有相同實體關鍵詞的兩個實體具有較強的關聯(lián)度。因此,兩個實體e,,,ew的關系通過計算 它們實體關鍵詞Tok(ei,)和Tok(ew)的重疊系數(shù)得到,表示為公式巧): 陽0化]
[0066] 根據(jù)計算結果,使用提及詞與實體對應關系圖方法即提及詞-實體圖方法完成對 候選實體的篩選,提及詞-實體圖是一種帶權重的無向圖,如圖2所示,圖中節(jié)點是提及詞 和候選實體。圖2左側201是已進行過實體識別步驟的輸入文本,右側203是知識庫,中 間202是根據(jù)提及詞在知識庫中找到的候選實體??蒞看到圖中包含兩種類型的邊:提及 詞-實體邊204和實體-實體邊205。它們代表的含義如下:
[0067] (1)提及詞-實體邊:代表局部相似度,也就是文中提及詞與知識庫中候選實體之 間的相似度。通過綜合各方面的相似度計算得到其權重,將公式(1)、(2)、(3)、(4)相結合, 使用公式(6)進行計算:
[0068]
[0069] (2)實體-實體邊:代表全局一致性,也就是提及詞的候選實體之間的一致性。通 過計算實體之間的相似度得到其權重,使用公式(7)進行計算: 陽070] coh(eu,6ki)=fskij, 6ki) (7)。 陽071] -個候選實體的權重等于它提及詞-實體邊和實體-實體邊的權重之和,在提及 詞-實體圖上進行多次迭代計算:每次檢測權重最小的實體,如果它不是提及詞的最后一 個候選實體,那么將它刪除。運樣就可W得到提及詞-實體圖的最優(yōu)子圖:其包含所有明確 提及詞節(jié)點,并且每個提及詞節(jié)點保留一條提及詞-實體邊。通過運樣的方法完成了第一 階段實體鏈接。
[0072] 步驟S105 :根據(jù)已經(jīng)鏈接的所述目標實體,對各所述不明確提及詞利用預設的提 及詞與實體對應關系圖方法進行第二階段的實體鏈接。
[0073] 在第二階段的實體鏈接中,使用第一階段已經(jīng)鏈接的實體作為上下文,同第一階 段相同,利用提及詞-實體圖對不明確的提及詞進行實體鏈接。最終得到全部已鏈接的目 標實體。
[0074] 本實施例的實體鏈接分為兩階段,流程架構如圖3所示,執(zhí)行過程如圖4所示。
[00巧]應用本實施例提供的一種實體鏈接方法,預處理輸入文本和知識庫,獲取提及詞 及其上下文、實體關鍵詞;檢索每個提及詞的候選實體;將提及詞根據(jù)其候選實體數(shù)量分 為兩類,候選實體數(shù)量小于預設闊值數(shù)量的提及詞為明確提及詞,其余為不明確提及詞。對 明確提及詞進行第一階段的實體鏈接。通過提及詞與知識庫中實體的相似度,W及實體之 間的相似度,利用預設的提及詞與實體對應關系圖方法完成對候選實體的篩選。根據(jù)已經(jīng) 鏈接的目標實體,對不明確的提及詞進行第二階段的實體鏈接,根據(jù)是否為明確提及詞分 別分階段進行實體鏈接的計算極大地減少算法的復雜度,通過更新提及詞的上下文,如已 經(jīng)鏈接的實體,可W更準確、快捷地對文本中提及詞進行實體鏈接。
[0076] 本發(fā)明還提供了