aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng)及方法

文檔序號(hào):6384657閱讀:362來(lái)源:國(guó)知局
專利名稱:基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明關(guān)于一種主題元搜索系統(tǒng)及方法,特別是涉及一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng)及方法。
背景技術(shù)
目前的很多搜索服務(wù)中,有一些針對(duì)不同用戶的個(gè)性化的信息搜索服務(wù),如基于用戶行為分析的個(gè)性化搜索服務(wù),對(duì)于不同用戶的相同查詢請(qǐng)求返回的查詢結(jié)果也有所不同,即系統(tǒng)能夠在一定程度上識(shí)別不同用戶個(gè)性信息需求上的差別。但是由于對(duì)用戶的查詢主題不能進(jìn)行比較準(zhǔn)確的確定及描述,或者搜索結(jié)果特征向量的提取算法不同,而導(dǎo)致離散的特征向量無(wú)法正確表達(dá)搜索結(jié)果文檔,從而影響了搜索的準(zhǔn)確性。因此如何在搜索的過(guò)程中更精確地表達(dá)主題,以及如何更精確地計(jì)算搜索結(jié)果與主題的相似度,成為了信息檢索領(lǐng)域中許多學(xué)者的研究熱點(diǎn)。實(shí)體關(guān)系抽取是信息抽取的一種方法,而信息抽取與信息檢索是相輔相成的,一方面信息檢索的輸出可以作為信息抽取的輸入,另一方面信息抽取能改善信息檢索的結(jié)果。無(wú)監(jiān)督的實(shí)體關(guān)系抽取作為實(shí)體關(guān)系抽取的一種方法,可以改善主題元搜索的性能,提高搜索的精確度。在很多主題元搜索方法中,對(duì)搜索結(jié)果一般采用提取特征向量的方法,然后采用夾角余弦算法,計(jì)算搜索結(jié)果與主題的相符合程度,但是特征向量是離散的,可能無(wú)法正確表達(dá)搜索結(jié)果文檔,因此以此計(jì)算與主題的相似度就會(huì)不夠準(zhǔn)確,搜索結(jié)果的準(zhǔn)確性就大大受到影響。

發(fā)明內(nèi)容
為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明之目的在于提供一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng)及方法,在保證查全率的前提下,根據(jù)無(wú)監(jiān)督的關(guān)系抽取的結(jié)果,判斷與主題的相符合程度,從而得到更高的查準(zhǔn)率。為達(dá)上述及其它目的,本發(fā)明提出一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng),至少包括主題模型建立模組,用于建立各種主題模型;匹配搜索引擎模組,于用戶選擇了要進(jìn)行搜索的主題時(shí),根據(jù)不同的主題模型,匹配合適的成員搜索引擎進(jìn)行主題搜索;以及搜索結(jié)果處理模組,對(duì)于各成員搜索引擎返回的搜索結(jié)果,利用無(wú)監(jiān)督的實(shí)體關(guān)系抽取算法,對(duì)搜索結(jié)果的特征詞進(jìn)行實(shí)體關(guān)系抽取,并依據(jù)抽取的關(guān)系對(duì)計(jì)算與主題的相似度,將滿足條件的結(jié)果返回給用戶。進(jìn)一步地,該主題模型采取三元組Topic (C,P,S)來(lái)表示,形成主題樹(shù)結(jié)構(gòu),其中C表示由主題領(lǐng)域中的名詞概念抽象出來(lái),具有相同屬性和行為結(jié)構(gòu)的概念類的集合,P描述概念和關(guān)系的屬性,S表示主題類之間的結(jié)構(gòu)關(guān)系。進(jìn)一步地,C采用向量空間模型來(lái)表示,使用二元組Ci (Keyi7Weighti),其中Key#示關(guān)鍵詞,Weighti表示關(guān)鍵詞的權(quán)重。進(jìn)一步地,該匹配搜索引擎模組針對(duì)不同的主題,預(yù)先分配一些推薦的成員搜索引擎,對(duì)用戶進(jìn)行引導(dǎo)。進(jìn)一步地,該搜索結(jié)果處理模組包括預(yù)處理模塊,用于對(duì)各成員搜索引擎的檢索結(jié)果進(jìn)行初步的集成、去重;特征向量抽取模組,用于將搜索結(jié)果進(jìn)行分詞處理,抽取出表達(dá)網(wǎng)頁(yè)內(nèi)容的特征
向量;實(shí)體關(guān)系抽取模組,首先根據(jù)所抽取的頁(yè)面的特征向量,識(shí)別實(shí)體,并基于啟發(fā)式規(guī)則,獲取實(shí)體的上下文特征,然后構(gòu)建上下文特征詞的特征向量,采用應(yīng)用特征頻度函數(shù)對(duì)特征項(xiàng)進(jìn)行數(shù)值化,并采用k-means的聯(lián)合聚類算法,來(lái)實(shí)現(xiàn)實(shí)體對(duì)的聚類,最后對(duì)實(shí)體對(duì)的關(guān)系進(jìn)行標(biāo)注;以及主題匹配模組,用于計(jì)算搜索結(jié)果與主題的相似度,返回滿足相似度要求的搜索結(jié)果。進(jìn)一步地,該主題匹配模組根據(jù)向量空間模型,將兩特征向量夾角的余弦值表示它們的相似度,計(jì)算出網(wǎng)頁(yè)與主題的相似度,根據(jù)設(shè)定的閾值,將相似度最大的或滿足相似度要求的若干個(gè)網(wǎng)頁(yè)按照相似度大小返回給用戶。為達(dá)到上述及其他目的,本發(fā)明還提供一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索方法,包括如下步驟步驟一,建立各種主題模型;步驟二,于用戶選擇了要進(jìn)行搜索的主題時(shí),根據(jù)不同的主題模型,匹配合適的成員搜索引擎進(jìn)行主題搜索;以及步驟三,對(duì)于各個(gè)成員搜索引擎返回的搜索結(jié)果,利用無(wú)監(jiān)督的實(shí)體關(guān)系抽取算法,對(duì)搜索結(jié)果的特征詞進(jìn)行實(shí)體關(guān)系抽取,并依據(jù)抽取的關(guān)系對(duì)計(jì)算與主題的相似度,將滿足條件的結(jié)果返回給用戶。進(jìn)一步地,步驟三還包括如下步驟將來(lái)自各成員搜索引擎的檢索結(jié)果經(jīng)過(guò)初步的集成、去重;將搜索結(jié)果進(jìn)行分詞處理,抽取出表達(dá)網(wǎng)頁(yè)內(nèi)容的特征向量;進(jìn)行無(wú)監(jiān)督實(shí)體關(guān)系的抽取,將搜索結(jié)果采用標(biāo)注過(guò)關(guān)系的實(shí)體對(duì)及關(guān)系的向量來(lái)表示;以及計(jì)算搜索結(jié)果與主題的相似度,返回滿足相似度要求的搜索結(jié)果。進(jìn)一步地,該無(wú)監(jiān)督實(shí)體關(guān)系的抽取步驟還包括如下步驟首先根據(jù)所抽取的頁(yè)面的特征向量,識(shí)別實(shí)體;基于啟發(fā)式規(guī)則,獲取實(shí)體的上下文特征;構(gòu)建上下文特征詞的特征向量,采用應(yīng)用特征頻度函數(shù)對(duì)特征項(xiàng)進(jìn)行數(shù)值化;采用k-means的聯(lián)合聚類算法,來(lái)實(shí)現(xiàn)實(shí)體對(duì)的聚類;以及對(duì)實(shí)體對(duì)的關(guān)系進(jìn)行標(biāo)注。進(jìn)一步地,于該計(jì)算搜索結(jié)果與主題的相似度的步驟中,根據(jù)向量空間模型,將兩特征向量夾角的余弦值表示它們的相似度,由此計(jì)算出網(wǎng)頁(yè)與主題的相似度,根據(jù)設(shè)定的閾值,將相似度最大的或滿足相似度要求的若干個(gè)網(wǎng)頁(yè)按照相似度大小返回給用戶。
與現(xiàn)有技術(shù)相比,本發(fā)明一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng)及方法通過(guò)采用無(wú)監(jiān)督的實(shí)體關(guān)系抽取方法,能夠?qū)λ阉鹘Y(jié)果的特征向量進(jìn)行實(shí)體關(guān)系的標(biāo)注,因此能夠更準(zhǔn)確地表達(dá)搜索結(jié)果的特征,搜索結(jié)果的準(zhǔn)確性得到了提高。


圖1為本發(fā)明一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng)的系統(tǒng)架構(gòu)圖;圖2為本發(fā)明一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索方法的步驟流程圖;圖3為圖2之本發(fā)明較佳實(shí)施例中步驟203的細(xì)節(jié)流程圖。
具體實(shí)施例方式以下通過(guò)特定的具體實(shí)例并結(jié)合

本發(fā)明的實(shí)施方式,本領(lǐng)域技術(shù)人員可由本說(shuō)明書(shū)所揭示的內(nèi)容輕易地了解本發(fā)明的其它優(yōu)點(diǎn)與功效。本發(fā)明亦可通過(guò)其它不同的具體實(shí)例加以施行或應(yīng)用,本說(shuō)明書(shū)中的各項(xiàng)細(xì)節(jié)亦可基于不同觀點(diǎn)與應(yīng)用,在不背離本發(fā)明的精神下進(jìn)行各種修飾與變更。圖1為本發(fā)明一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng)的系統(tǒng)架構(gòu)圖。如圖1所示,本發(fā)明一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng),至少包括主題模型建立模組10、匹配搜索引擎模組11以及搜索結(jié)果處理模組12。其中主題模型建立模組10用于建立各種主題模型,在本發(fā)明較佳實(shí)施例中,基于本體的主題模型采取三元組Topic (C,P,S)來(lái)表示,形成主題樹(shù)結(jié)構(gòu),其中C表示由主題領(lǐng)域中的名詞概念抽象出來(lái),具有相同屬性和行為結(jié)構(gòu)的概念類的集合#描述概念和關(guān)系的屬性;S表示主題類之間的結(jié)構(gòu)關(guān)系,如父類、子類等。C采用向量空間模型(VSM)來(lái)表示,使用二元組Ci (Keyi, Weighti),其中Keyi表示關(guān)鍵詞,Weighti表示關(guān)鍵詞的權(quán)重。匹配搜索引擎模組11,于用戶選擇了要進(jìn)行搜索的主題時(shí),根據(jù)不同的主題模型,匹配合適的成員搜索引擎進(jìn)行主題搜索。對(duì)每個(gè)不同的主題,適用的成員搜索引擎也有所不同。在本發(fā)明中,針對(duì)不同的主題,預(yù)先分配一些推薦的成員搜索引擎,對(duì)用戶進(jìn)行引導(dǎo),用戶在選擇搜索的主題時(shí),可以對(duì)成員搜索引擎進(jìn)行增減。搜索結(jié)果處理模組12對(duì)于各個(gè)成員搜索引擎返回的搜索結(jié)果,利用無(wú)監(jiān)督的實(shí)體關(guān)系抽取算法,對(duì)搜索結(jié)果的特征詞進(jìn)行實(shí)體關(guān)系抽取,并依據(jù)抽取的關(guān)系對(duì)計(jì)算與主題的相似度,將滿足條件的結(jié)果返回給用戶。具體來(lái)說(shuō),搜索結(jié)果處理模組12進(jìn)一步包括預(yù)處理模組120、特征向量抽取模組121、實(shí)體關(guān)系抽取模組122以及主題匹配模組123,預(yù)處理模塊120用于對(duì)各成員搜索引擎的檢索結(jié)果進(jìn)行初步的集成、去重;特征向量抽取模組121用于將搜索結(jié)果進(jìn)行分詞處理,抽取出表達(dá)網(wǎng)頁(yè)內(nèi)容的特征向量;實(shí)體關(guān)系抽取模組122首先根據(jù)所抽取的頁(yè)面的特征向量,識(shí)別實(shí)體,并基于啟發(fā)式規(guī)則,獲取實(shí)體的上下文特征,然后構(gòu)建上下文特征詞的特征向量,采用應(yīng)用特征頻度函數(shù)對(duì)特征項(xiàng)進(jìn)行數(shù)值化,并采用k-means的聯(lián)合聚類算法,來(lái)實(shí)現(xiàn)實(shí)體對(duì)的聚類,最后對(duì)實(shí)體對(duì)的關(guān)系進(jìn)行標(biāo)注,這樣搜索結(jié)果就采用標(biāo)注過(guò)關(guān)系的實(shí)體對(duì)及關(guān)系的向量來(lái)表示了 ;主題匹配模組123用于計(jì)算搜索結(jié)果與主題的相似度,返回滿足相似度要求的搜索結(jié)果。由于搜索結(jié)果頁(yè)面采用了實(shí)體對(duì)及關(guān)系的特征向量來(lái)表示,主題的各個(gè)子類的概念也是特征向量,根據(jù)向量空間模型,兩特征向量夾角的余弦值可以表示它們的相似度,由此可以計(jì)算出一個(gè)網(wǎng)頁(yè)與主題的相似度Sitv根據(jù)設(shè)定的閾值,將相似度最大的或滿足相似度要求的若干個(gè)網(wǎng)頁(yè)按照相似度大小返回給用戶。如果一個(gè)網(wǎng)頁(yè)與主題中的所有特征詞的相似度均達(dá)不到閾值策略中設(shè)定的最低相似度,則該網(wǎng)頁(yè)可被認(rèn)定為不屬于該主題領(lǐng)域的范疇,將它從結(jié)果集中剔除。圖2為本發(fā)明一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索方法的步驟流程圖。如圖2所示,本發(fā)明一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索方法,包括如下步驟步驟201,建立各種主題模型,在本發(fā)明較佳實(shí)施例中,基于本體的主題模型采取三元組Topic (C,P,S)來(lái)表示,形成主題樹(shù)結(jié)構(gòu),其中C表示由主題領(lǐng)域中的名詞概念抽象出來(lái),具有相同屬性和行為結(jié)構(gòu)的概念類的集合;P描述概念和關(guān)系的屬性;S表示主題類之間的結(jié)構(gòu)關(guān)系,如父類、子類等。C采用向量空間模型(VSM)來(lái)表示,使用二元組Ci (Keyi,Weighti),其中Keyi表示關(guān)鍵詞,Weighti表示關(guān)鍵詞的權(quán)重。步驟202,于用戶選擇了要進(jìn)行搜索的主題時(shí),根據(jù)不同的主題模型,匹配合適的成員搜索引擎進(jìn)行搜索。對(duì)每個(gè)不同的主題,適用的成員搜索引擎也有所不同。在本發(fā)明中,針對(duì)不同的主題,預(yù)先分配一些推薦的成員搜索引擎,對(duì)用戶進(jìn)行引導(dǎo),用戶在選擇搜索的主題時(shí),可以對(duì)成員搜索引擎進(jìn)行增減。步驟203,對(duì)于各個(gè)成員搜索引擎返回的搜索結(jié)果,利用無(wú)監(jiān)督的實(shí)體關(guān)系抽取算法,對(duì)搜索結(jié)果的特征詞進(jìn)行實(shí)體關(guān)系抽取,并依據(jù)抽取的關(guān)系對(duì)計(jì)算與主題的相似度,將滿足條件的結(jié)果返回給用戶。圖3為圖2之本發(fā)明較佳實(shí)施例中步驟203的細(xì)節(jié)流程圖。如圖3所示,步驟203還包括如下步驟步驟301,將來(lái)自各成員搜索引擎的檢索結(jié)果經(jīng)過(guò)初步的集成、去重;步驟302,將搜索結(jié)果進(jìn)行分詞處理,抽取出表達(dá)網(wǎng)頁(yè)內(nèi)容的特征向量;

步驟303,進(jìn)行無(wú)監(jiān)督實(shí)體關(guān)系的抽取,將搜索結(jié)果采用標(biāo)注過(guò)關(guān)系的實(shí)體對(duì)及關(guān)系的向量來(lái)表示;以及步驟304,計(jì)算搜索結(jié)果與主題的相似度,返回滿足相似度要求的搜索結(jié)果。由于搜索結(jié)果頁(yè)面采用了實(shí)體對(duì)及關(guān)系的特征向量來(lái)表示,主題的各個(gè)子類的概念也是特征向量,根據(jù)向量空間模型,兩特征向量夾角的余弦值可以表示它們的相似度,由此可以計(jì)算出一個(gè)網(wǎng)頁(yè)與主題的相似度Sin^根據(jù)設(shè)定的閾值,將相似度最大的或滿足相似度要求的若干個(gè)網(wǎng)頁(yè)按照相似度大小返回給用戶。如果一個(gè)網(wǎng)頁(yè)與主題中的所有特征詞的相似度均達(dá)不到閾值策略中設(shè)定的最低相似度,則該網(wǎng)頁(yè)可被認(rèn)定為不屬于該主題領(lǐng)域的范疇,將它從結(jié)果集中剔除。較佳的,步驟303進(jìn)一步包括如下步驟a.首先根據(jù)所抽取的頁(yè)面的特征向量,識(shí)別實(shí)體;b.基于啟發(fā)式規(guī)則,獲取實(shí)體的上下文特征;c.構(gòu)建上下文特征詞的特征向量,采用應(yīng)用特征頻度函數(shù)對(duì)特征項(xiàng)進(jìn)行數(shù)值化;d.采用k-means的聯(lián)合聚類算法,來(lái)實(shí)現(xiàn)實(shí)體對(duì)的聚類;以及e.對(duì)實(shí)體對(duì)的關(guān)系進(jìn)行標(biāo)注,這樣搜索結(jié)果就采用標(biāo)注過(guò)關(guān)系的實(shí)體對(duì)及關(guān)系的向量來(lái)表示??梢?jiàn),本發(fā)明一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng)及方法在對(duì)搜索結(jié)果的處理中采用無(wú)監(jiān)督的實(shí)體關(guān)系抽取方法,用標(biāo)注過(guò)關(guān)系的實(shí)體對(duì)向量對(duì)搜索結(jié)果進(jìn)行標(biāo)識(shí),用戶在進(jìn)行搜索時(shí),可以選擇要進(jìn)行搜索的主題,根據(jù)各個(gè)主題模型匹配與主題相關(guān)的最佳成員搜索引擎,用戶可以刪減偏愛(ài)的成員搜索引擎,對(duì)于各個(gè)成員搜索引擎返回的搜索結(jié)果,采用空間向量模型分別計(jì)算與主題的相似度,將滿足條件的結(jié)果返回給用戶,由于本發(fā)明采用了無(wú)監(jiān)督的實(shí)體關(guān)系抽取方法,能夠?qū)λ阉鹘Y(jié)果的特征向量進(jìn)行實(shí)體關(guān)系的標(biāo)注,因此能夠更準(zhǔn)確地表達(dá)搜索結(jié)果的特征,因此搜索結(jié)果的準(zhǔn)確性得到了提高。上述實(shí)施例僅例示性說(shuō)明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何本領(lǐng)域技術(shù)人員均可在不違背本發(fā)明的精神及范疇下,對(duì)上述實(shí)施例進(jìn)行修飾與改變。因此,本發(fā)明的權(quán)利保護(hù)范圍,應(yīng)如權(quán)利要求書(shū)所列。
權(quán)利要求
1.一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng),至少包括 主題模型建立模組,用于建立各種主題模型; 匹配搜索引擎模組,于用戶選擇了要進(jìn)行搜索的主題時(shí),根據(jù)不同的主題模型,匹配合適的成員搜索引擎進(jìn)行主題搜索;以及 搜索結(jié)果處理模組,對(duì)于各成員搜索引擎返回的搜索結(jié)果,利用無(wú)監(jiān)督的實(shí)體關(guān)系抽取算法,對(duì)搜索結(jié)果的特征詞進(jìn)行實(shí)體關(guān)系抽取,并依據(jù)抽取的關(guān)系對(duì)計(jì)算與主題的相似度,將滿足條件的結(jié)果返回給用戶。
2.如權(quán)利要求1所述的一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng),其特征在于該主題模型采取三元組Topic (C, P, S)來(lái)表示,形成主題樹(shù)結(jié)構(gòu),其中C表示由主題領(lǐng)域中的名詞概念抽象出來(lái),具有相同屬性和行為結(jié)構(gòu)的概念類的集合,P描述概念和關(guān)系的屬性,S表示主題類之間的結(jié)構(gòu)關(guān)系。
3.如權(quán)利要求2所述的一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng),其特征在于C采用向量空間模型來(lái)表示,使用二元組Ci (Keyi, Weighti),其中Keyi表示關(guān)鍵詞,Weighti表示關(guān)鍵詞的權(quán)重。
4.如權(quán)利要求1所述的一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng),其特征在于該匹配搜索引擎模組針對(duì)不同的主題,預(yù)先分配一些推薦的成員搜索引擎,對(duì)用戶進(jìn)行引導(dǎo)。
5.如權(quán)利要求1所述的一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng),其特征在于,該搜索結(jié)果處理模組包括 預(yù)處理模塊,用于對(duì)各成員搜索引擎的檢索結(jié)果進(jìn)行初步的集成、去重; 特征向量抽取模組,用于將搜索結(jié)果進(jìn)行分詞處理,抽取出表達(dá)網(wǎng)頁(yè)內(nèi)容的特征向量; 實(shí)體關(guān)系抽取模組,首先根據(jù)所抽取的頁(yè)面的特征向量,識(shí)別實(shí)體,并基于啟發(fā)式規(guī)貝U,獲取實(shí)體的上下文特征,然后構(gòu)建上下文特征詞的特征向量,采用應(yīng)用特征頻度函數(shù)對(duì)特征項(xiàng)進(jìn)行數(shù)值化,并采用k-means的聯(lián)合聚類算法,來(lái)實(shí)現(xiàn)實(shí)體對(duì)的聚類,最后對(duì)實(shí)體對(duì)的關(guān)系進(jìn)行標(biāo)注;以及 主題匹配模組,用于計(jì)算搜索結(jié)果與主題的相似度,返回滿足相似度要求的搜索結(jié)果。
6.如權(quán)利要求5所述的一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng),其特征在于該主題匹配模組根據(jù)向量空間模型,將兩特征向量夾角的余弦值表示它們的相似度,計(jì)算出網(wǎng)頁(yè)與主題的相似度,根據(jù)設(shè)定的閾值,將相似度最大的或滿足相似度要求的若干個(gè)網(wǎng)頁(yè)按照相似度大小返回給用戶。
7.一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索方法,包括如下步驟 步驟一,建立各種主題模型; 步驟二,于用戶選擇了要進(jìn)行搜索的主題時(shí),根據(jù)不同的主題模型,匹配合適的成員搜索引擎進(jìn)行主題搜索;以及 步驟三,對(duì)于各個(gè)成員搜索引擎返回的搜索結(jié)果,利用無(wú)監(jiān)督的實(shí)體關(guān)系抽取算法,對(duì)搜索結(jié)果的特征詞進(jìn)行實(shí)體關(guān)系抽取,并依據(jù)抽取的關(guān)系對(duì)計(jì)算與主題的相似度,將滿足條件的結(jié)果返回給用戶。
8.如權(quán)利要求7所述的一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索方法,其特征在于,步驟三還包括如下步驟 將來(lái)自各成員搜索引擎的檢索結(jié)果經(jīng)過(guò)初步的集成、去重; 將搜索結(jié)果進(jìn)行分詞處理,抽取出表達(dá)網(wǎng)頁(yè)內(nèi)容的特征向量; 進(jìn)行無(wú)監(jiān)督實(shí)體關(guān)系的抽取,將搜索結(jié)果采用標(biāo)注過(guò)關(guān)系的實(shí)體對(duì)及關(guān)系的向量來(lái)表示;以及 計(jì)算搜索結(jié)果與主題的相似度,返回滿足相似度要求的搜索結(jié)果。
9.如權(quán)利要求8所述的一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索方法,其特征在于,該無(wú)監(jiān)督實(shí)體關(guān)系的抽取步驟還包括如下步驟 首先根據(jù)所抽取的頁(yè)面的特征向量,識(shí)別實(shí)體; 基于啟發(fā)式規(guī)則,獲取實(shí)體的上下文特征; 構(gòu)建上下文特征詞的特征向量,采用應(yīng)用特征頻度函數(shù)對(duì)特征項(xiàng)進(jìn)行數(shù)值化; 采用k-means的聯(lián)合聚類算法,來(lái)實(shí)現(xiàn)實(shí)體對(duì)的聚類;以及 對(duì)實(shí)體對(duì)的關(guān)系進(jìn)行標(biāo)注。
10.如權(quán)利要求8所述的一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索方法,其特征在于,于該計(jì)算搜索結(jié)果與主題的相似度的步驟中,根據(jù)向量空間模型,將兩特征向量夾角的余弦值表示它們的相似度,由此計(jì)算出網(wǎng)頁(yè)與主題的相似度,根據(jù)設(shè)定的閾值,將相似度最大的或滿足相似度要求的若干個(gè)網(wǎng)頁(yè)按照相似度大小返回給用戶。
全文摘要
本發(fā)明公開(kāi)了一種基于無(wú)監(jiān)督的實(shí)體關(guān)系抽取的主題元搜索系統(tǒng)及方法,該系統(tǒng)包括主題模型建立模組,用于建立各種主題模型;匹配搜索引擎模組,于用戶選擇了要進(jìn)行搜索的主題時(shí),根據(jù)不同的主題模型,匹配合適的成員搜索引擎進(jìn)行主題搜索;以及搜索結(jié)果處理模組,對(duì)于各成員搜索引擎返回的搜索結(jié)果,利用無(wú)監(jiān)督的實(shí)體關(guān)系抽取算法,對(duì)搜索結(jié)果的特征詞進(jìn)行實(shí)體關(guān)系抽取,并依據(jù)抽取的關(guān)系對(duì)計(jì)算與主題的相似度,將滿足條件的結(jié)果返回給用戶,本發(fā)明在保證查全率的前提下,根據(jù)無(wú)監(jiān)督的關(guān)系抽取的結(jié)果,判斷與主題的相符合程度,從而得到更高的查準(zhǔn)率。
文檔編號(hào)G06F17/30GK103064907SQ201210553560
公開(kāi)日2013年4月24日 申請(qǐng)日期2012年12月18日 優(yōu)先權(quán)日2012年12月18日
發(fā)明者閆俊英 申請(qǐng)人:上海電機(jī)學(xué)院
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1