aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

用于匹配實(shí)體的系統(tǒng)和方法及其中使用的同義詞群組織器的制作方法

文檔序號:6352060閱讀:205來源:國知局
專利名稱:用于匹配實(shí)體的系統(tǒng)和方法及其中使用的同義詞群組織器的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)采集和分析領(lǐng)域,并且具體地說,涉及用于確定匹配系統(tǒng)收到的實(shí)體是否與以前收到的實(shí)體匹配的方法及系統(tǒng),以及系統(tǒng)中使用的組件。這些組件包括用于組織同義詞的同義詞群組織器。本發(fā)明還涉及用于實(shí)現(xiàn)如上所述系統(tǒng)、方法及其組件的計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù)
在過去5-10年內(nèi),“搜索”已變成在全球的人們之間在數(shù)字界的一個(gè)現(xiàn)象。在典型的搜索情況中,短的搜索查詢用于查找大或至少更大的文檔。典型的示例是因特網(wǎng)搜索引擎或安裝在庫計(jì)算機(jī)上以便搜索庫中存儲的文章或書籍的搜索引擎。如上所述的傳統(tǒng)搜索情形與典型匹配情形不同。在匹配情形中,兩個(gè)或更多個(gè)用 戶將數(shù)據(jù)輸入到系統(tǒng)中以便查明該數(shù)據(jù)是否與其它用戶輸入的數(shù)據(jù)匹配。也就是說,與搜索情形不同,輸入信息到系統(tǒng)的所有用戶都關(guān)注查找匹配信息。在搜索情形中,僅錄入搜索查詢的用戶關(guān)注匹配結(jié)果,搜索查詢在典型情況下是一個(gè)或多個(gè)關(guān)鍵詞的形式。從技術(shù)角度而言,匹配系統(tǒng)與搜索引擎不同,至少表現(xiàn)在匹配系統(tǒng)要索引進(jìn)入的“查詢”,這是因?yàn)檫@些查詢也是以前或以后收到的查詢的潛在匹配。為區(qū)分“匹配查詢”和常規(guī)搜索查詢,在“匹配查詢”中傳送到匹配系統(tǒng)的數(shù)據(jù)將在本文檔通篇中稱為“實(shí)體”。匹配系統(tǒng)能夠在許多不同類型的匹配服務(wù)中使用。此類服務(wù)的示例有在線找工作/招聘服務(wù)、電子商務(wù)服務(wù)及約會服務(wù)。Ericsson以前提交的專利申請PCT/EP2008/066617公開了此類匹配系統(tǒng),該匹配系統(tǒng)能夠確定從第一用戶的客戶端裝置收到的第一實(shí)體是否與在每個(gè)實(shí)體與一個(gè)或多個(gè)索引點(diǎn)相關(guān)聯(lián)的索引中索引的多個(gè)實(shí)體至少之一匹配。實(shí)體例如可以是文本文件、圖像文件、音頻文件或具有能夠“轉(zhuǎn)換”成詞或符號的其它序列的任何其它類型的數(shù)據(jù),而詞或符號的其它序列能夠用作索引點(diǎn),表征與其相關(guān)聯(lián)的實(shí)體。PCT/EP2008/066617公開了在一個(gè)單一操作中執(zhí)行實(shí)體插入和搜索的方式,以提高系統(tǒng)用于的匹配服務(wù)的用戶感知質(zhì)量以及降低在匹配系統(tǒng)中所需計(jì)算容量。它也減少了在系統(tǒng)中查找所有潛在匹配所需的時(shí)間。在現(xiàn)有技術(shù)的匹配系統(tǒng)中,一實(shí)體匹配另一實(shí)體意味著這些實(shí)體具有共同的至少一個(gè)索引點(diǎn),即,在索引中存在兩個(gè)實(shí)體均相關(guān)聯(lián)的至少一個(gè)索引點(diǎn)。然而,當(dāng)前匹配系統(tǒng)在用于確定實(shí)體是否應(yīng)與某個(gè)索引點(diǎn)相關(guān)聯(lián)的準(zhǔn)則上是嚴(yán)格的。具體而言,當(dāng)前匹配系統(tǒng)不能將搜索實(shí)體與包含搜索實(shí)體中存在的詞的同義詞的實(shí)體相關(guān)聯(lián)。換而言之,當(dāng)前匹配系統(tǒng)不能提供實(shí)際上與搜索實(shí)體有關(guān)的更多實(shí)體。例如,在搜索實(shí)體包含表述“整理房間”時(shí),根據(jù)當(dāng)前匹配系統(tǒng),包含“整理房間”的相似含意的“家居清潔”的實(shí)體不能被視為是匹配實(shí)體,這使得當(dāng)前匹配系統(tǒng)較不適用。另外,詞的實(shí)際含意在演進(jìn),現(xiàn)有詞的新含意由于信息通信,特別是因特網(wǎng)在全球的使用原因而產(chǎn)生。匹配系統(tǒng)應(yīng)足夠靈活以反映詞的含意的動態(tài)更改。因此,與根據(jù)現(xiàn)有技術(shù)的匹配系統(tǒng)相關(guān)聯(lián)的一個(gè)問題是如何提供具有與搜索實(shí)體相似的含意、但未與匹配的實(shí)體包含搜索實(shí)體的相同詞的更多實(shí)體,以提高系統(tǒng)用于的匹配服務(wù)的用戶感知質(zhì)量。另一問題是如何動態(tài)更新匹配系統(tǒng)以反映詞的演進(jìn)含意。

發(fā)明內(nèi)容
本發(fā)明的目的是解決或至少減輕匹配系統(tǒng)的上述問題的至少之一。此目的通過用于管理至少一個(gè)同義詞群的方法而得以實(shí)現(xiàn),每個(gè)同義詞群包括第一部分和第二部分,且每個(gè)同義詞群包括至少一個(gè)同義詞,第一部分包括是代表用于同義詞群的特定類別的詞的同義詞,并且第二部分包括同義詞群的所有其它同義詞,其中,該方法包括以下步驟在同義詞群包括不止一個(gè)同義詞時(shí),計(jì)算在同義詞群的所有同義詞的每兩個(gè)同義詞之間指示這兩個(gè)同義詞相互相似程度的相似性值。
根據(jù)本發(fā)明的一實(shí)施例,計(jì)算每兩個(gè)同義詞之間相似性值的步驟包括以下步驟為同義詞群中的每個(gè)同義詞確定頁面分級值;基于同義詞群的兩個(gè)同義詞的頁面分級值,計(jì)算在這兩個(gè)同義詞之間的初始相似性值;以及將這兩個(gè)同義詞之間的初始相似性值設(shè)置為在同義詞群的每兩個(gè)同義詞之間的相似性值。根據(jù)本發(fā)明的一實(shí)施例,計(jì)算在同義詞群中兩個(gè)同義詞之間的相似性值的步驟包括以下步驟基于在會話時(shí)段內(nèi)恰巧使用兩個(gè)同義詞的第二同義詞時(shí)使用這兩個(gè)同義詞的第一同義詞的條件概率并基于在會話時(shí)段內(nèi)恰巧使用第一同義詞時(shí)使用第二同義詞的條件概率,計(jì)算這兩個(gè)同義詞之間的動態(tài)相似性值;以及將這兩個(gè)同義詞之間的動態(tài)相似性值設(shè)置為在每兩個(gè)同義詞之間的相似性值。根據(jù)本發(fā)明的一實(shí)施例,計(jì)算相似性值的步驟包括基于在兩個(gè)同義詞之間的初始相似性值和在這兩個(gè)同義詞之間的動態(tài)相似性值,設(shè)置在同義詞群中兩個(gè)同義詞之間的相似性值的步驟。根據(jù)本發(fā)明的另一方面,提供了一種同義詞群組織器,包括至少一個(gè)同義詞群,每個(gè)同義詞群包括第一部分和第二部分,且每個(gè)同義詞群包括至少一個(gè)同義詞,第一部分包括是代表用于同義詞群的特定類別的詞的同義詞,并且第二部分包括同義詞群的所有其它同義詞,其中,在同義詞群包括不止一個(gè)同義詞時(shí),所述同義詞群包括在同義詞群中所有同義詞的每兩個(gè)同義詞之間指示所述兩個(gè)同義詞相互相似程度的相似性值;以及適用于執(zhí)行本發(fā)明的方法的管理引擎。根據(jù)本發(fā)明的另一方面,提供了一種匹配系統(tǒng),包括至少一個(gè)同義詞群,每個(gè)同義詞群包括第一部分和第二部分,且每個(gè)同義詞群包括至少一個(gè)同義詞,第一部分包括是代表用于同義詞群的特定類別的詞的同義詞,并且第二部分包括同義詞群中的所有其它同義詞,其中,在同義詞群包括不止一個(gè)同義詞時(shí),同義詞群包括同義詞群中所有同義詞的每兩個(gè)同義詞之間指示所述兩個(gè)同義詞相互相似程度的相似性值;以及與至少一個(gè)同義詞群的一個(gè)或多個(gè)同義詞群相關(guān)聯(lián)的至少一個(gè)實(shí)體。根據(jù)本申請的又一方面,提供了一種用于添加新實(shí)體到匹配系統(tǒng)中的方法,所述方法包括以下步驟將新實(shí)體預(yù)處理成至少一個(gè)詞;以及對于新實(shí)體的每個(gè)詞搜索包含對應(yīng)于詞的同義詞的同義詞群;以及將新實(shí)體與搜索到的同義詞群相關(guān)聯(lián)。
根據(jù)本發(fā)申請的又一方面,提供了一種用于確定從客戶端裝置收到的第一實(shí)體是否與匹配系統(tǒng)中的至少一個(gè)實(shí)體匹配的方法,所述方法包括以下步驟將第一實(shí)體預(yù)處理成至少一個(gè)詞;對于第一實(shí)體的每個(gè)詞搜索包含對應(yīng)于所述詞的同義詞的同義詞群;以及搜索與搜索到的同義詞群相關(guān)聯(lián)的實(shí)體,并且創(chuàng)建詞的相關(guān)聯(lián)實(shí)體集合,其中每個(gè)搜索到的實(shí)體作為詞的相關(guān)聯(lián)實(shí)體集合的項(xiàng)目;通過合并第一實(shí)體的每個(gè)詞的相關(guān)聯(lián)實(shí)體集合,為第一實(shí)體創(chuàng)建合并的實(shí)體集合,其中,合并的實(shí)體集合的每個(gè)項(xiàng)目是獨(dú)特實(shí)體,并且每個(gè)項(xiàng)目包含用于對在每個(gè)詞的所有相關(guān)聯(lián)實(shí)體集合中出現(xiàn)的獨(dú)特實(shí)體的數(shù)量進(jìn)行計(jì)數(shù)的計(jì)數(shù)器;以及如果合并的實(shí)體集合包含計(jì)數(shù)器 的值大于閾值的任何實(shí)體項(xiàng)目,則確定從客戶端裝置收到的第一實(shí)體匹配,否則確定從客戶端實(shí)體收到的第一實(shí)體不匹配。通過使用同義詞群組織器組織詞,帶有相似含意的所有詞能夠編組到一個(gè)同義詞群中。當(dāng)此類同義詞群與匹配系統(tǒng)結(jié)合使用時(shí),可能在基于同義詞群形成關(guān)聯(lián)時(shí)在帶有相似含意的實(shí)體之間形成鏈接,因此,可能提供帶有與搜索實(shí)體相似含意的更多匹配實(shí)體。另外,使用同義詞群的兩個(gè)同義詞之間的相似性值,可能提供指示這兩個(gè)同義詞相互相似程度的量。還可能的是,基于在同義詞群的兩個(gè)同義詞之間的相似性值,計(jì)算兩個(gè)實(shí)體之間的相似性,這使得提供搜索實(shí)體的匹配的實(shí)體的適當(dāng)分級成為可能?;谑褂猛x詞群組織器的用戶行為統(tǒng)計(jì),可使用貝葉斯定理動態(tài)修改同義詞群的兩個(gè)同義詞之間的相似性值。通過動態(tài)更新同義詞群的兩個(gè)同義詞之間的相似性值,可能的是,更準(zhǔn)確地反映在兩個(gè)同義詞之間的相似性,并且還可能的是,基于在同義詞群的每兩個(gè)同義詞之間的相似性值更新同義詞群中的同義詞。在下文的描述中和在隨附權(quán)利要求書中將描述根據(jù)本發(fā)明的同義詞群組織器和匹配系統(tǒng)的更多有利特征。此外,本發(fā)明涉及用于促使服務(wù)器節(jié)點(diǎn)執(zhí)行如上所述的那些方法的計(jì)算機(jī)程序和包含其上存儲有此類計(jì)算機(jī)程序的存儲媒體的計(jì)算機(jī)程序產(chǎn)品。


結(jié)合附圖閱讀時(shí),將從本發(fā)明的示范實(shí)施例的以下詳細(xì)描述中更容易理解本發(fā)明的目的、優(yōu)點(diǎn)和效果及特征,其中
圖I示出根據(jù)本發(fā)明的一實(shí)施例的示范同義詞群組織器;
圖2a和2b以示意圖方式分別示出根據(jù)本發(fā)明的實(shí)施例,在同義詞群組織器中同義詞群的結(jié)構(gòu);
圖3示出流程圖,該流程圖示出根據(jù)本發(fā)明的一實(shí)施例,用于在同義詞群組織器的同義詞群中兩個(gè)同義詞之間計(jì)算初始相似性值的方法;
圖4不出在圖3所不方法中使用的同義詞圖表;
圖5示出流程圖,該流程圖示出根據(jù)本發(fā)明的一實(shí)施例,用于保持在同義詞群組織器的同義詞群中兩個(gè)同義詞之間的相似性值的方法;
圖6示出流程圖,該流程圖示出根據(jù)本發(fā)明的一實(shí)施例,用于從同義詞群中刪除不相關(guān)同義詞的方法;
圖7示出流程圖,該流程圖示出根據(jù)本發(fā)明的一實(shí)施例,用于將新同義詞添加到同義詞群中的方法;圖8示出根據(jù)本發(fā)明的一實(shí)施例的示范匹配系統(tǒng);
圖9示出流程圖,該流程圖示出根據(jù)本發(fā)明的一實(shí)施例,用于將新實(shí)體添加到匹配系統(tǒng)中的方法;
圖10示出流程圖,該流程圖示出根據(jù)本發(fā)明的一實(shí)施例,用于確定從客戶端裝置收到的第一實(shí)體是否與匹配系統(tǒng)中至少一個(gè)實(shí)體匹配的方法;
圖11示出流程圖,該流程圖示出根據(jù)本發(fā)明的一實(shí)施例,用于計(jì)算在兩個(gè)匹配的實(shí)體之間相似性的方法;以及
圖12示出框圖,該框圖示出用于實(shí)現(xiàn)本發(fā)明的實(shí)施例的典型服務(wù)器;以及 圖13示出保存或攜帶由服務(wù)器使用的程序代碼的存儲器單元的示意圖。
具體實(shí)施方式
雖然本發(fā)明包括各種修改和備選構(gòu)造,但在圖形中示出并且將在下文詳細(xì)描述本發(fā)明的實(shí)施例。然而,要理解的是,特定的描述和圖形無意將本發(fā)明限為公開的特定形式。相反,要求權(quán)利的發(fā)明的范圍要包括落入如隨附權(quán)利要求書表述的本發(fā)明的范圍內(nèi)的其所有修改和備選構(gòu)造。圖I示出根據(jù)本發(fā)明的一實(shí)施例的示范同義詞群組織器100。同義詞群組織器100在此實(shí)施例中是服務(wù)器主機(jī),并且包括至少一個(gè)同義詞群(101 -103)和用于管理同義詞群組織器100的這些同義詞群的管理引擎105。這些同義詞群可存儲在同義詞群組織器100中的數(shù)據(jù)庫108中,并且實(shí)際上,同步詞群組織器中同義詞群的數(shù)量取決于在同義詞群組織器中使用的詞的語言,典型情況下,在同義詞群組織器中使用的詞是英文時(shí),同義詞群組織器能夠包括一萬個(gè)同義詞群。圖2a示出根據(jù)本發(fā)明的一實(shí)施例,在同義詞群組織器中同義詞群的結(jié)構(gòu)。如圖2a所示,每個(gè)同義詞群101-103包括第一部分和第二部分,下文在描述中將第一部分稱為頭部110,并且下文在描述中將第二部分稱為同義詞指示器部分120。頭部110包括表示同義詞群的特定類的最常用詞,而同義詞指示器部分120包括同義詞群的頭部中詞的所有其它同義詞。視頭部110中詞的含意而定,同義詞指示器部分120可不必包括任何同義詞。例如,在頭部110中帶有詞“北京”的同義詞群101在同義詞指示器部分120中不包括任何同義詞,并且在頭部110中帶有詞“清潔”的同義詞群102此處在同義詞指示器部分120中包括6個(gè)同義詞。可存在在同義詞指示器部分120中組織同義詞的多種方式。在一種方式中,同義詞指示器部分120能夠包括同義詞列表,每個(gè)同義詞作為同義詞列表的一個(gè)項(xiàng)目。在另一種方式中,同義詞指示器部分120能夠包括其中每個(gè)項(xiàng)目指向同義詞的同義詞指示器列表。在又一種方式中,同義詞指示器部分120能夠包括鏈接的列表,通過將一個(gè)同義詞與另一同義詞鏈接而將所有同義詞鏈接在一起。應(yīng)注意的是,本發(fā)明只要求對應(yīng)于頭部中的詞的所有同義詞包括在同義詞指示器部分120中,并且在同義詞指示器部分120中組織這些同義詞的所有方式都在本發(fā)明的保護(hù)范圍內(nèi)。圖2b以示意圖方式示出同義詞群的另一結(jié)構(gòu)。根據(jù)語義定義,詞A是詞B的同義詞意味著詞A具有與詞B完全或幾乎相同的含意,詞A是詞B的上位詞意味著詞A具有比詞B更廣的含意,并且詞A是詞B的下位詞意味著詞A具有比詞B更具體的含意。根據(jù)本申請的一實(shí)施例,在描述通篇中使用的術(shù)語“同義詞”應(yīng)包括語義定義的“同義詞”、“上位詞”和“下位詞”的所有方式。在圖2b中,同義詞群的結(jié)構(gòu)更反映詞的語義定義,詳細(xì)地說,同義詞指示器部分120進(jìn)一步分成三個(gè)部分同義詞部分,包括是帶有與頭部中的詞相似含意的詞的同義詞(對應(yīng)于語義定義的術(shù)語“同義詞”);超類部分,包括是包含與頭部中的詞相似含意的根源詞(parent words)的同義詞(對應(yīng)于語義定義的術(shù)語“上位詞”);以及子類部分,包括是與頭部中的詞相似含意的擴(kuò)展詞的同義詞(對應(yīng)于語義定義的術(shù)語“下位詞”)。普林斯頓大學(xué)所著的著名同義詞詞典WordNet (有關(guān)詳情,請?jiān)L問http://wordnet.princeton. edu/)具有與結(jié)合圖2a和2b所定義的那些內(nèi)容相似的結(jié)構(gòu),并且根據(jù)本發(fā)明的一實(shí)施例,同義詞群組織器的那些同義詞群從此類同義詞詞典推導(dǎo)。有多種方式來選擇同義詞之中的詞作為同義詞群的頭部110中的詞。例如,能夠基于具體的服務(wù)或應(yīng)用上下文選擇此類詞,例如,如果它是象清潔等日常生活有關(guān)的服務(wù),則使用例如“清潔”等最常見的服務(wù)類別名稱作為頭部中的詞;如果它是位置,則使用例如“Kista”等位置的最常見名稱作為頭部中的詞;如果它是商品或產(chǎn)品,則也使用例如“移動電話”等最常見的名稱作為頭部中的詞。在另一種方式中,頭部中的詞應(yīng)該是根據(jù)同義詞群組織器100的用戶數(shù)據(jù)的歷史統(tǒng)計(jì)出現(xiàn)或呈現(xiàn)次數(shù)最多的名稱。一種方式可以是計(jì)算同義 詞群中每個(gè)同義詞的頁面分級(PR)值(這將在下面的描述中詳細(xì)描述),并且選擇同義詞群中具有最高PR值的同義詞作為頭部中的詞。可基于字母表順序組織同義詞群,典型情況下從同義詞群的頭部中詞的“a”開始。應(yīng)注意的是,同義詞群的所有其它組織方式能夠使每個(gè)同義詞群在同義詞群組織器內(nèi)可搜索,此類組織方式便均在本申請的保護(hù)范圍內(nèi)。為給出有關(guān)同義詞群中兩個(gè)同義詞相互相似程度的計(jì)量,每個(gè)同義詞群包括在同義詞群的所有同義詞的每兩個(gè)同義詞之間的,所述相似性值指示這兩個(gè)同義詞相互相似程度。同義詞群組織器基于這些相似性值管理同義詞群的同義詞。再參照圖1,管理引擎105負(fù)責(zé)管理同義詞群(101-103),即,對于每個(gè)同義詞群計(jì)算相似性值,在同義詞群組織器的實(shí)際使用期間更新相似性值,在同義詞群組織器的實(shí)際使用期間管理每個(gè)同義詞群的要素。在下面的描述中結(jié)合圖3-7詳細(xì)描述管理引擎105為計(jì)算相似性值和管理同義詞群而執(zhí)行的方法。應(yīng)理解的是,同義詞群組織器100的所示結(jié)構(gòu)只是示范,并且同義詞群組織器能夠以許多其它方式實(shí)現(xiàn)。例如,用于存儲同義詞群的數(shù)據(jù)庫108能夠在專用服務(wù)器節(jié)點(diǎn)中被托管,并且管理引擎105位于與托管數(shù)據(jù)庫108的服務(wù)器通信的另一服務(wù)器中,以便對同義詞群進(jìn)行的所有過程能夠由管理引擎105執(zhí)行。存在多種方式用來計(jì)算在同義詞群中兩個(gè)同義詞之間的相似性值。在最初根據(jù)同義詞詞典創(chuàng)建同義詞群組織器的同義詞群時(shí),根據(jù)本發(fā)明的一實(shí)施例,在同義詞群中兩個(gè)同義詞之間的相似性值能夠設(shè)成在同義詞群中兩個(gè)同義詞之間的初始相似性值。圖3示出流程圖,所述流程圖示出根據(jù)本發(fā)明的一實(shí)施例、由管理引擎105執(zhí)行的用于計(jì)算同義詞群組織器的同義詞群中兩個(gè)同義詞之間的初始相似性值的頁面分級方法300。頁面分級方面300是基于以下原理首先,如果兩個(gè)詞A和B是同義詞,則在描述其定義中必須有多個(gè)相同詞,或者兩個(gè)詞A和B必須經(jīng)常一起使用以定義某一其它第三詞;其次,在知道A和B是同義詞時(shí),同時(shí)如果B在A的定義中存在,這意味著A引用B,則B應(yīng)包括A的頁面分級值。此方法300從步驟S310開始,其中,從同義詞詞典加載同義詞群中每個(gè)同義詞的定義。例如,對于圖I和2的同義詞群102,每個(gè)同義詞的定義如下
權(quán)利要求
1.一種用于管理至少一個(gè)同義詞群的方法,每個(gè)同義詞群包括第一部分和第二部分,并且每個(gè)同義詞群包括至少一個(gè)同義詞,所述第一部分包括是代表用于所述同義詞群的特定類別的詞的同義詞,并且所述第二部分包括所述同義詞群的所有其它同義詞,其中所述方法包括以下步驟 在同義詞群包括不止一個(gè)同義詞時(shí),計(jì)算在所述同義詞群的所有同義詞的每兩個(gè)同義詞之間的相似性值,所述相似性值指示這兩個(gè)同義詞相互的相似程度。
2.如權(quán)利要求I所述的方法,其中計(jì)算每兩個(gè)同義詞之間的所述相似性值的所述步驟包括以下步驟 為所述同義詞群中的每個(gè)同義詞確定頁面分級值; 基于這兩個(gè)同義詞的所述頁面分級值,計(jì)算在所述同義詞群的兩個(gè)同義詞之間的初始相似性值;以及 將這兩個(gè)同義詞之間的所述初始相似性值設(shè)置為在所述同義詞群的每兩個(gè)同義詞之間的所述相似性值。
3.如權(quán)利要求2所述的方法,其中兩個(gè)同義詞之間的所述初始相似性值通過下式計(jì)算Simi(AfB) = (PR(A)十 PR(B)) / (2 + jPR(A) - PR(B)]),, 其中A是第一同義詞,并且B是第二同義詞;PR(A)和PR(B)分別是所述第一同義詞和所述第二同義詞的所述頁面分級值;以及Simi (A,B)是在所述第一同義詞與所述第二同義詞之間的所述初始相似性值。
4.如權(quán)利要求2所述的方法,其中為每個(gè)同義詞確定所述頁面分級值包括以下步驟 從所述同義詞詞典中得到每個(gè)同義詞的定義; 將每個(gè)同義詞的所述頁面分級值定義為PR(W) = (l*d)-d{ PE(T1)/CCT1)+ ……+PR(Td)/C(Tn)) 其中W是被定義的所述同義詞;T1,. . . Tn是在所述同義詞群中所述同義詞W的所述定義中出現(xiàn)的同義詞;PR(Tl),...PR(Tn)分別是所述同義詞Tl,... Tn的所述頁面分級值;C(Tl),.. .C(Tn)分別是在所述同義詞Tl,. . . Tn的所述定義中出現(xiàn)的所述同義詞群中其它同義詞的數(shù)量;以及d是范圍設(shè)在O到I的阻尼因數(shù);以及 將定義每個(gè)同義詞的所述頁面分級值的所述步驟迭代至少兩次。
5.如權(quán)利要求2所述的方法,其中將所述同義詞群中所有同義詞之中具有最高頁面分級值的所述同義詞設(shè)置為在所述同義詞群的所述第一部分中的所述同義詞。
6.如權(quán)利要求4所述的方法,其中將定義每個(gè)同義詞的所述頁面分級值的所述步驟迭代log2 (N)次,所述N是所述同義詞群中同義詞的數(shù)量。
7.如權(quán)利要求6所述的方法,其中所述阻尼因數(shù)d設(shè)為O.15。
8.如權(quán)利要求2所述的方法,其中在每個(gè)同義詞群中,所述第二部分進(jìn)一步分成三個(gè)子部分同義詞部分、超類部分和子類部分;以及 計(jì)算這兩個(gè)同義詞之間的所述初始相似性值的所述步驟還包括通過考慮這兩個(gè)同義詞所屬的所述子部分,修改所述初始相似性值。
9.如權(quán)利要求8所述的方法,其中作為第一同義詞和第二同義詞的這兩個(gè)同義詞之間的所述初始相似性值通過還乘以(l-w(A)廣(l-w(B))而得到修改, 其中W(A)和《(B)分別是所述第一同義詞和所述第二同義詞的折扣因數(shù),以及 對于屬于所述頭部的同義詞,w=0 ; 對于屬于所述同義詞部分的同義詞,w=0 ; 對于屬于所述超類部分的同義詞,w=0. 2 ;以及 對于屬于所述子類部分的同義詞,w=0. 2。
10.如權(quán)利要求1-8任一項(xiàng)所述的方法,還包括以下步驟 基于使用所述同義詞群組織器的用戶行為統(tǒng)計(jì),計(jì)算在所述同義詞群中兩個(gè)同義詞之間的所述相似性值。
11.如權(quán)利要求10所述的方法,其中計(jì)算在所述同義詞群中兩個(gè)同義詞之間的所述相似性值包括以下步驟 基于在會話時(shí)段內(nèi)恰巧使用兩個(gè)同義詞的第二同義詞時(shí)使用這兩個(gè)同義詞的第一同義詞的條件概率并基于在所述會話時(shí)段內(nèi)恰巧使用所述第一同義詞時(shí)使用所述第二同義詞的條件概率,計(jì)算這兩個(gè)同義詞之間的動態(tài)相似性值;以及 將這兩個(gè)同義詞之間的所述動態(tài)相似性值設(shè)置為在每兩個(gè)同義詞之間的所述相似性值。
12.如權(quán)利要求11所述的方法,其中兩個(gè)同義詞之間的所述動態(tài)相似性值按照下式計(jì)算Simm(AtB) = I;P(AjB) + Ρ(Β|ΑΗ/α + (Ρ(Α[Β) - Ρ(Β|Α)|) 其中,Simffl(A, B)是在所述第一同義詞與所述第二同義詞之間的所述動態(tài)相似性值;P(A|B)是在所述會話時(shí)段內(nèi)恰巧使用所述第二同義詞時(shí)使用所述第一同義詞的所述條件概率; P(B|A)是在所述會話時(shí)段內(nèi)恰巧使用所述第一同義詞時(shí)使用所述第二同義詞的所述條件概率;以及 能夠從3秒到30分鐘的范圍中選擇所述會話時(shí)段。
13.如權(quán)利要求12所述的方法,其中所述會話時(shí)段設(shè)為30秒。
14.如權(quán)利要求1-13任一項(xiàng)所述的方法,還包括如下步驟基于在兩個(gè)同義詞之間的所述初始相似性值和在這兩個(gè)同義詞之間的所述動態(tài)相似性值,設(shè)置在所述同義詞群中兩個(gè)同義詞之間的所述相似性值。
15.如權(quán)利要求14所述的方法,其中兩個(gè)同義詞之間的所述相似性值按照下式計(jì)算Sim(AsB) = q* Simi(A5B) + (1-q) * Simm(AtB) Simi (A, B)是在第一同義詞與第二同義詞之間的所述初始相似性值; Simffl(A, B)是在所述第一同義詞與所述第二同義詞之間的所述動態(tài)相似性值;以及q是其值為OSqSl的調(diào)整因數(shù),并且能夠基于使用所述同義詞群組織器的用戶行為統(tǒng)計(jì)的量設(shè)置所述調(diào)整因數(shù)q。
16.如權(quán)利要求15所述的方法,其中q的初始值設(shè)為1,并且q的最終值設(shè)為0,以及q隨著用戶行為統(tǒng)計(jì)的所述量增大而減小。
17.如權(quán)利要求1-16任一項(xiàng)所述的方法,包括以下步驟基于在同義詞群中第一同義詞與所有其它同義詞之間的所述相似性值,為所述同義詞群的每個(gè)同義詞計(jì)算平均相似性值; 如果所述第一同義詞的所述平均相似性值低于第一閾值,則從所述同義詞群中去除所述第一同義詞。
18.如權(quán)利要求17所述的方法,其中用于所述第一同義詞的所述平均相似性值按照下式計(jì)算Sim(A) = 1/M * Σ Sim(A, Bj), j = U 其中A表示所述第一同義詞,M是所述同義詞群中同義詞的數(shù)量,Bj是所述同義詞群中的同義詞,以及Sim(A, A)的值定義為I。
19.如權(quán)利要求17所述的方法,包括以下步驟如果所述第一同義詞是所述同義詞群的所述第一部分中的所述同義詞,并且所述第一同義詞是第二同義詞群的同義詞,則將所述同義詞群中的所有其它同義詞移到所述第二同義詞群。
20.如權(quán)利要求17所述的方法,其中所述第一閾值是O.3。
21.如權(quán)利要求1-20任一項(xiàng)所述的方法,包括以下步驟 針對詞計(jì)算相對于同義詞群的平均相似性值,相對于所述同義詞群的所述平均相似性值是基于在所述詞與所述同義詞群中所有同義詞之間的所述相似性值計(jì)算的;以及 如果所述平均相似性值高于第二閾值,則將所述詞添加到所述同義詞群中。
22.如權(quán)利要求21所述的方法,其中通過下式計(jì)算相對于所述同義詞群的所述平均相似性值Sim(NW, SG) - I/M * I SimCNW, Bj), j = I,”M 其中NW表示所述詞,SG表示所述同義詞群,M是所述同義詞群中同義詞的數(shù)量,以及Bj是所述同義詞群中的所述同義詞。
23.如權(quán)利要求22所述的方法,其中所述第二閾值是O.6。
24.一種同義詞群組織器,包括 至少一個(gè)同義詞群,每個(gè)同義詞群包括第一部分和第二部分,且每個(gè)同義詞群包括至少一個(gè)同義詞,所述第一部分包括是代表用于所述同義詞群的特定類別的詞的同義詞,并且所述第二部分包括所述同義詞群的所有其它同義詞,其中在同義詞群包括不止一個(gè)同義詞時(shí),所述同義詞群包括所述同義詞群中所有同義詞的每兩個(gè)同義詞之間的相似性值,所述相似性值指示所述兩個(gè)同義詞相互相似程度; 管理引擎,適用于執(zhí)行如權(quán)利要求1-23任一項(xiàng)所述的方法。
25.—種匹配系統(tǒng),包括 至少一個(gè)同義詞群,每個(gè)同義詞群包括第一部分和第二部分,且每個(gè)同義詞群包括至少一個(gè)同義詞,所述第一部分包括是代表用于所述同義詞群的特定類別的詞的同義詞,并且所述第二部分包括所述同義詞群中所有其它同義詞,其中在同義詞群包括不止一個(gè)同義詞時(shí),所述同義詞群包括所述同義詞群中所有同義詞的每兩個(gè)同義詞之間的相似性值,所述相似性值指示所述兩個(gè)同義詞相互相似程度;以及 與所述至少一個(gè)同義詞群的一個(gè)或多個(gè)同義詞群相關(guān)聯(lián)的至少一個(gè)實(shí)體。
26.如權(quán)利要求25所述的匹配系統(tǒng),其中所述同義詞群還包括指示與所述同義詞群相關(guān)聯(lián)的所有實(shí)體的實(shí)體。
27.如權(quán)利要求25或26所述的匹配系統(tǒng),還包括適用于執(zhí)行如權(quán)利要求1-23任一項(xiàng)所述方法的管理引擎。
28.如權(quán)利要求25-27任一項(xiàng)所述的匹配系統(tǒng),其中所述匹配系統(tǒng)包括適用于添加新實(shí)體到所述匹配系統(tǒng)中并確定從客戶端裝置收到的第一實(shí)體是否與所述匹配系統(tǒng)中的所述至少一個(gè)實(shí)體匹配的匹配引擎。
29.如權(quán)利要求28所述的匹配系統(tǒng),其中所述匹配引擎適用于通過以下操作添加新實(shí)體到所述匹配系統(tǒng)中 將所述新實(shí)體預(yù)處理成至少一個(gè)詞;以及 對于所述新實(shí)體的每個(gè)詞 搜索包含對應(yīng)于所述詞的所述同義詞的同義詞群;以及 將所述新實(shí)體與所述搜索到的同義詞群相關(guān)聯(lián)。
30.如權(quán)利要求29所述的匹配系統(tǒng),其中所述匹配引擎適用于通過以下操作將所述新實(shí)體預(yù)處理成至少一個(gè)詞 從所述新實(shí)體中去除不必要的詞; 識別所述新實(shí)體中的至少一個(gè)關(guān)鍵詞;以及 將所述新實(shí)體分段成對應(yīng)于所述至少一個(gè)關(guān)鍵詞的至少一個(gè)詞。
31.如權(quán)利要求29所述的匹配系統(tǒng),其中如果未搜索到包含對應(yīng)于所述詞的所述同義詞的所述同義詞群,則所述匹配引擎適用于 將其中所述第一部分設(shè)為所述詞的新同義詞群添加到所述同義詞群組織器中;以及 將所述新實(shí)體與所述新同義詞群相關(guān)聯(lián)。
32.如權(quán)利要求28所述的匹配系統(tǒng),其中所述匹配引擎適用于通過以下操作確定從所述客戶端裝置收到的所述第一實(shí)體是否與所述匹配系統(tǒng)中的所述至少一個(gè)實(shí)體匹配 將所述第一實(shí)體預(yù)處理成至少一個(gè)詞; 對于所述第一實(shí)體的每個(gè)詞 搜索包含對應(yīng)于所述詞的所述同義詞的同義詞群;以及 搜索與所述搜索到的同義詞群相關(guān)聯(lián)的所述實(shí)體,并且創(chuàng)建所述詞的相關(guān)聯(lián)實(shí)體集合,其中每個(gè)搜索到的實(shí)體作為所述詞的所述相關(guān)聯(lián)實(shí)體集合的項(xiàng)目; 通過合并所述第一實(shí)體的每個(gè)詞的所述相關(guān)聯(lián)實(shí)體集合,為所述第一實(shí)體創(chuàng)建合并的實(shí)體集合,其中所述合并的實(shí)體集合的每個(gè)項(xiàng)目是獨(dú)特實(shí)體,并且每個(gè)項(xiàng)目包含用于對在每個(gè)詞的所有相關(guān)聯(lián)實(shí)體集合中出現(xiàn)的所述獨(dú)特實(shí)體的數(shù)量進(jìn)行計(jì)數(shù)的計(jì)數(shù)器;以及如果所述合并的實(shí)體集合包含計(jì)數(shù)器的所述值大于閾值的任何實(shí)體項(xiàng)目,則確定從所述客戶端裝置收到的所述第一實(shí)體匹配,否則確定從所述客戶端實(shí)體收到的所述第一實(shí)體不匹配。
33.如權(quán)利要求32所述的匹配系統(tǒng),其中所述閾值設(shè)為所述第一實(shí)體的關(guān)鍵詞的數(shù)量乘以匹配比率。
34.如權(quán)利要求33所述的匹配系統(tǒng),其中所述匹配比率設(shè)為O.8。
35.如權(quán)利要求32所述的匹配系統(tǒng),其中所述匹配引擎適用于通過以下操作將所述第一實(shí)體預(yù)處理成至少一個(gè)詞 從所述第一實(shí)體中去除不必要的詞;識別所述第一實(shí)體中的至少一個(gè)關(guān)鍵詞;以及 將所述第一實(shí)體分段成對應(yīng)于所述至少一個(gè)關(guān)鍵詞的至少一個(gè)詞。
36.如權(quán)利要求32所述的匹配系統(tǒng),其中所述匹配引擎適用于將所述合并的實(shí)體集合中的所述實(shí)體輸出到所述客戶端裝置。
37.如權(quán)利要求36所述的匹配系統(tǒng),其中所述匹配引擎適用于在將所述合并的實(shí)體集合中的所述實(shí)體輸出到所述客戶端裝置前基于在所述第一實(shí)體與所述合并的實(shí)體集合中所述實(shí)體之間的相似性,為所述合并的實(shí)體集合中的所述實(shí)體分級;以及 所述匹配引擎適用于通過以下操作計(jì)算在所述第一實(shí)體與所述合并的實(shí)體集合中所述實(shí)體之間的所述相似性 對于所述第一實(shí)體中的每個(gè)詞 獲得包含對應(yīng)于所述詞的所述同義詞并且與所述合并的實(shí)體集合中的所述實(shí)體相關(guān)聯(lián)的所述同義詞群;以及 在所述同義詞群中,獲得在對應(yīng)于所述詞的所述同義詞與所述合并的實(shí)體集合中的所述實(shí)體關(guān)聯(lián)所述同義詞群所依據(jù)的所述同義詞之間的所述相似性值,作為用于所述詞的所述相似性值; 將用于所述第一實(shí)體中所有詞的所述相似性值相加并且除以所述第一實(shí)體中所述詞的數(shù)量以獲得在所述第一實(shí)體與所述合并的實(shí)體集合中所述實(shí)體之間的所述相似性。
38.如權(quán)利要求37所述的匹配系統(tǒng),其中如果在對應(yīng)于所述詞的所述同義詞與所述合并的實(shí)體集合中的所述實(shí)體關(guān)聯(lián)所述同義詞群所依據(jù)的所述同義詞之間的所述相似性值在不止一個(gè)同義詞群中存在,則將所有同義詞群之中的最高相似性值設(shè)為用于所述詞的所述相似性值。
39.一種用于將新實(shí)體添加到如權(quán)利要求25所述匹配系統(tǒng)中的方法,所述方法包括以下步驟 將所述新實(shí)體預(yù)處理成至少一個(gè)詞;以及 對于所述新實(shí)體的每個(gè)詞 搜索包含對應(yīng)于所述詞的所述同義詞的同義詞群;以及 將所述新實(shí)體與所述搜索到的同義詞群相關(guān)聯(lián)。
40.如權(quán)利要求39所述的方法,其中將所述新實(shí)體預(yù)處理成至少一個(gè)詞還包括以下步驟 從所述新實(shí)體中去除不必要的詞; 識別所述新實(shí)體中的至少一個(gè)關(guān)鍵詞;以及 將所述新實(shí)體分段成對應(yīng)于所述至少一個(gè)關(guān)鍵詞的至少一個(gè)詞。
41.如權(quán)利要求39所述的方法,其中如果未搜索到包含對應(yīng)于所述詞的所述同義詞的同義詞群,則所述方法還包括以下步驟 將其中頭部設(shè)為所述詞的新同義詞群添加到同義詞群組織器中;以及 將所述新實(shí)體與所述新同義詞群相關(guān)聯(lián)。
42.一種用于確定從所述客戶端裝置收到的所述第一實(shí)體與如權(quán)利要求25所述的匹配系統(tǒng)中的所述至少一個(gè)實(shí)體是否匹配的方法,所述方法包括以下步驟 將所述第一實(shí)體預(yù)處理成至少一個(gè)詞;對于所述第一實(shí)體的每個(gè)詞 搜索包含對應(yīng)于所述詞的所述同義詞的同義詞群;以及 搜索與所述搜索到的同義詞群相關(guān)聯(lián)的所述實(shí)體,并且創(chuàng)建所述詞的相關(guān)聯(lián)實(shí)體集合,其中每個(gè)搜索到的實(shí)體作為所述詞的所述相關(guān)聯(lián)實(shí)體集合的項(xiàng)目; 通過合并所述第一實(shí)體的每個(gè)詞的所述相關(guān)聯(lián)實(shí)體集合,為所述第一實(shí)體創(chuàng)建合并的實(shí)體集合,其中所述合并的實(shí)體集合的每個(gè)項(xiàng)目是獨(dú)特實(shí)體,并且每個(gè)項(xiàng)目包含用于對在每個(gè)詞的所有相關(guān)聯(lián)實(shí)體集合中出現(xiàn)的所述獨(dú)特實(shí)體的數(shù)量進(jìn)行計(jì)數(shù)的計(jì)數(shù)器;以及 如果所述合并的實(shí)體集合包含計(jì)數(shù)器的所述值大于閾值的任何實(shí)體項(xiàng)目,則確定從所述客戶端裝置收到的所述第一實(shí)體匹配,否則確定從所述客戶端實(shí)體收到的所述第一實(shí)體不匹配。
43.如權(quán)利要求42所述的方法,其中所述閾值設(shè)為所述第一實(shí)體的關(guān)鍵詞的數(shù)量乘以匹配比率。
44.如權(quán)利要求43所述的方法,其中所述匹配比率設(shè)為O.8。
45.如權(quán)利要求44所述的方法,其中將所述第一實(shí)體預(yù)處理成至少一個(gè)詞還包括以下步驟 從所述第一實(shí)體中去除不必要的詞; 識別所述第一實(shí)體中的至少一個(gè)關(guān)鍵詞;以及 將所述第一實(shí)體分段成對應(yīng)于所述至少一個(gè)關(guān)鍵詞的至少一個(gè)詞。
46.如權(quán)利要求45所述的方法,還包括如下步驟將所述合并的實(shí)體集合中的所述實(shí)體輸出到所述客戶端裝置。
47.如權(quán)利要求46所述的方法,還包括如下步驟在將所述合并的實(shí)體集合中的所述實(shí)體輸出到所述客戶端裝置前基于在所述第一實(shí)體與所述合并的實(shí)體集合中所述實(shí)體之間的相似性,為所述合并的實(shí)體集合中的所述實(shí)體分級,以及 通過以下操作計(jì)算在所述第一實(shí)體與所述合并的實(shí)體集合中所述實(shí)體之間的所述相似性 對于所述第一實(shí)體中的每個(gè)詞 獲得包含對應(yīng)于所述詞的所述同義詞并且與所述合并的實(shí)體集合中的所述實(shí)體相關(guān)聯(lián)的所述同義詞群;以及 在所述同義詞群中,獲得在對應(yīng)于所述詞的所述同義詞與所述合并的實(shí)體集合中的所述實(shí)體關(guān)聯(lián)所述同義詞群所依據(jù)的所述同義詞之間的所述相似性值,作為用于所述詞的所述相似性值; 將用于所述第一實(shí)體中所有詞的所述相似性值相加并且除以所述第一實(shí)體中所述詞的數(shù)量以獲得在所述第一實(shí)體與在所述合并的實(shí)體集合中所述實(shí)體之間的所述相似性。
48.如權(quán)利要求47所述的方法,其中如果在對應(yīng)于所述詞的所述同義詞與所述合并的實(shí)體集合中的所述實(shí)體關(guān)聯(lián)所述同義詞群所依據(jù)的所述同義詞之間的所述相似性值在不止一個(gè)同義詞群中存在,則將所有同義詞群之中的最高相似性值設(shè)為用于所述詞的所述相似性值。
49.一種計(jì)算機(jī)程序,在應(yīng)用服務(wù)器上運(yùn)行時(shí),所述計(jì)算機(jī)程序促使所述應(yīng)用服務(wù)器執(zhí)行如權(quán)利要求1-23和39-48任一項(xiàng)所述的方法。
50.一種計(jì)算機(jī)可讀媒體,上面存儲有如權(quán)利要求49所述的計(jì)算機(jī)程序。
全文摘要
提供了一種用于管理至少一個(gè)同義詞群的方法,其中,該方法包括以下步驟在同義詞群包括不止一個(gè)同義詞時(shí),計(jì)算在同義詞群的所有同義詞的每兩個(gè)同義詞之間指示這兩個(gè)同義詞相互相似程度的相似性值。本發(fā)明還提供同義詞群組織器、使用同義詞群組織器的匹配系統(tǒng)及其方法。
文檔編號G06F17/30GK102906736SQ201080065386
公開日2013年1月30日 申請日期2010年3月12日 優(yōu)先權(quán)日2010年3月12日
發(fā)明者李強(qiáng), O.倫德斯特倫, 麥興隆 申請人:愛立信(中國)通信有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1