aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

輿情事件的實(shí)體關(guān)系抽取方法和裝置的制作方法

文檔序號(hào):6362987閱讀:1466來源:國知局
專利名稱:輿情事件的實(shí)體關(guān)系抽取方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域,具體而言,涉及一種輿情事件的實(shí)體關(guān)系抽取方法和裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)全民普及率的提高,互聯(lián)網(wǎng)日漸成為人們發(fā)布信息、獲取信息和傳遞信息的主要載體,一定程度地反映了社會(huì)公眾對社會(huì)現(xiàn)實(shí)的主觀情感,即輿情。在互聯(lián)網(wǎng)上對于熱門輿情事件(即熱點(diǎn)事件)往往有大量網(wǎng)站對其轉(zhuǎn)載報(bào)道,如何從這些無結(jié)構(gòu)的文本中提取出真正對用戶有用的信息,日益成為人們關(guān)注的問題。因此,信息抽取技術(shù)應(yīng)運(yùn)而生,而實(shí)體關(guān)系抽取是其中的一個(gè)子任務(wù)。實(shí)體是指事件中的人、地點(diǎn)和機(jī)構(gòu),實(shí)體關(guān)系是指這些人、地點(diǎn)和機(jī)構(gòu)之間的關(guān)系。相關(guān)的實(shí)體關(guān)系抽取技術(shù)主要采取有監(jiān)督實(shí)體關(guān)系抽取方法和弱監(jiān)督實(shí)體關(guān)系抽取方法。有監(jiān)督實(shí)體關(guān)系抽取方法的流程一般為:對訓(xùn)練文本預(yù)處理,進(jìn)行關(guān)系詞對及關(guān)系的人工標(biāo)記,抽取特征向量化,用分類算法進(jìn)行訓(xùn)練生成模型,用模型進(jìn)行關(guān)系的類別標(biāo)記。弱監(jiān)督實(shí)體關(guān)系抽取方法與上一種方法的主要不同之處在于對標(biāo)注語料的依賴程度。弱監(jiān)督用少量的標(biāo)注語料集,利用bootstrapping(自學(xué)習(xí))框架,結(jié)合各種分類算法進(jìn)行實(shí)體關(guān)系抽取。弱監(jiān)督實(shí)體關(guān)系抽取方法因?yàn)椴捎眯∫?guī)模標(biāo)注語料庫,所以性能較差。而有監(jiān)督實(shí)體關(guān)系抽取方法依賴大規(guī)模標(biāo)注語料庫,而這部分工作需要根據(jù)任務(wù)情況,人工進(jìn)行標(biāo)注。需要耗費(fèi)巨大的人力物力,在此基礎(chǔ)上采用各種算法訓(xùn)練模型,對生成的模型的性能無法準(zhǔn)確估計(jì),存在較大風(fēng)險(xiǎn)。

發(fā)明內(nèi)容
本發(fā)明旨在提供一種,以解決相關(guān)技術(shù)的實(shí)體關(guān)系抽取技術(shù)的性能問題。在本發(fā)明的實(shí)施例中,提供了一種輿情事件的實(shí)體關(guān)系抽取方法,包括:對輿情事件的文本集合進(jìn)行分詞;從分詞得到的切分單元中抽取主題短語;基于聚類方法從主題短語中獲取子主題;從子主題中獲取實(shí)體關(guān)系。在本發(fā)明的實(shí)施例中,提供了一種輿情事件的實(shí)體關(guān)系抽取裝置,包括:分詞模塊,用于對輿情事件的文本集合進(jìn)行分詞;主題短語模塊,用于從分詞得到的切分單元中抽取主題短語;子主題模塊,用于基于聚類方法從主題短語中獲取子主題;實(shí)體關(guān)系模塊,用于從子主題中獲取實(shí)體關(guān)系。本發(fā)明上述實(shí)施例的輿情事件的實(shí)體關(guān)系抽取方法和裝置,屬于無監(jiān)督的實(shí)體關(guān)系抽取,不依賴語料庫,提高了抽取實(shí)體關(guān)系的性能。


此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:圖1示出了根據(jù)本發(fā)明實(shí)施例的輿情事件的實(shí)體關(guān)系抽取方法的流程圖;圖2示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的輿情事件的實(shí)體關(guān)系抽取方法的流程圖;圖3示出了根據(jù)本發(fā)明實(shí)施例的輿情事件的實(shí)體關(guān)系抽取裝置的示意圖。
具體實(shí)施例方式下面將參考附圖并結(jié)合實(shí)施例,來詳細(xì)說明本發(fā)明。圖1示出了根據(jù)本發(fā)明實(shí)施例的輿情事件的實(shí)體關(guān)系抽取方法的流程圖,包括:步驟S10,對輿情事件的文本集合進(jìn)行分詞之類的預(yù)處理;步驟S20,從分詞得到的切分單元中抽取主題短語;步驟S30,基于聚類方法從主題短語中獲取子主題;步驟S40,從子主題中獲取實(shí)體關(guān)系。本方法屬于無監(jiān)督的實(shí)體關(guān)系抽取,不依賴語料庫,因此提高了抽取實(shí)體關(guān)系的性能。另外,現(xiàn)有研究中大多針對各種及關(guān)系的標(biāo)注,標(biāo)注的關(guān)系比較局限在朋友、上下級(jí)、家庭、同學(xué)、合作等方面,或者出現(xiàn)關(guān)系詞的獲取不十分準(zhǔn)確的現(xiàn)象。而本實(shí)施例的方法不依賴于標(biāo)注的關(guān)系,所以還解決了關(guān)系詞獲取不準(zhǔn)確的問題。優(yōu)選地,步驟SlO包括:對文本集合進(jìn)行預(yù)處理,預(yù)處理主要包括分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、禁用詞標(biāo)注,斷句。命名實(shí)體可以包括人名、地名、機(jī)構(gòu)名。文本由句組成,句由分詞的切分單元組成;對于斷句得到的每一句中連續(xù)的切分單元進(jìn)行組合,對生成的詞串統(tǒng)計(jì)詞頻,以詞頻作為指標(biāo)進(jìn)行過濾,其中,被標(biāo)記為禁用詞的切分單元不作為組合單元,詞性打分低于第一預(yù)設(shè)閥值的切分單元,不作為詞串的開頭與結(jié)尾;利用改進(jìn)的C-Value算法計(jì)算詞串的詞頻,以詞串計(jì)算后的詞頻作為指標(biāo)進(jìn)行過濾,改進(jìn)的C-Value算法公式為:log2|a|*f(a) 當(dāng)a沒有被包含現(xiàn)象
權(quán)利要求
1.一種輿情事件的實(shí)體關(guān)系抽取方法,其特征在于,包括: 對輿情事件的文本集合進(jìn)行分詞; 從分詞得到的切分單元中抽取主題短語; 基于聚類方法從所述主題短語中獲取子主題; 從所述子主題中獲取所述實(shí)體關(guān)系。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,從分詞得到的切分單元中抽取主題短語包括: 對所述文本集合進(jìn)行分詞時(shí)還對所述文本集合進(jìn)行斷句、詞性標(biāo)注和禁用詞標(biāo)記;對于斷句得到的每一句中連續(xù)的所述切分單元進(jìn)行組合,對生成的詞串統(tǒng)計(jì)詞頻,以詞頻作為指標(biāo)進(jìn)行過濾,其中,被標(biāo)記為禁用詞的切分單元不作為組合單元,詞性打分低于第一預(yù)設(shè)閥值的切分單元,不作為詞串的開頭與結(jié)尾; 利用改進(jìn)的C-Value算法計(jì)算所述詞串的詞頻,以詞串計(jì)算后的詞頻作為指標(biāo)進(jìn)行過濾,改進(jìn)的C-Value算法公式為: log2|a|*f(a) 當(dāng)a沒有被包含現(xiàn)象
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,詞串X與y的重復(fù)度dup的計(jì)算公式如下:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于聚類方法從所述主題短語中獲取子主題包括: 將得到的N個(gè)所述主題短語構(gòu)建一個(gè)N*N的二維共現(xiàn)關(guān)系度矩陣; 利用互信息計(jì)算所述二維共現(xiàn)關(guān)系度矩陣中每兩個(gè)主題短語X和y的共現(xiàn)關(guān)系度I (X,y),計(jì)算公式如下:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,對N個(gè)所述主題短語執(zhí)行基于所述共現(xiàn)關(guān)系度的凝聚式層次聚類包括: .1、從集合I中取Iv關(guān)系(X,y); .2、判斷在所有已有聚類Ck中是否存在滿足包含X的聚類Cx,包含y的聚類Cy; .3、若Cx與Cy同時(shí)不存在,則創(chuàng)建新的聚類C= {x, y 11 (x, y)}; .4、若Cx與Cy只存在一個(gè),如為Cy,則從集合X中得到X的y列表,計(jì)算當(dāng)將y列表中第i個(gè)主題短語Ii歸入Cy聚類中時(shí),Cy聚類的平均點(diǎn)共現(xiàn)關(guān)系度
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,從所述發(fā)展脈絡(luò)中獲取所述實(shí)體關(guān)系包括: 以所述子主題創(chuàng)建有向圖; 從所述有向圖中獲取所述實(shí)體關(guān)系。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,以所述子主題創(chuàng)建有向圖包括: 將一個(gè)子主題內(nèi)部的主題短語作為點(diǎn)集合,所述主題短語之間的共現(xiàn)關(guān)系度作為邊集合,共現(xiàn)關(guān)系度的值越大,兩點(diǎn)的距離越小,邊由早時(shí)間指向晚時(shí)間,由索引號(hào)小的所述主題短語指向索引號(hào)大的所述主題短語,由此得到一個(gè)有向圖。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,從所述有向圖中獲取所述實(shí)體關(guān)系包括: 對所述有向圖中存在共現(xiàn)關(guān)系對的主題短語A與B按切分單元進(jìn)行分解; 對于主題短語A與B中的人名,將所述人名前的名詞、形容詞和/或命名實(shí)體作為所述人名的修飾性屬性;對于主題短語A與B中的非人名的命名實(shí)體,則將該命名實(shí)體左右連續(xù)的名詞進(jìn)行合并; 對于主題短語A與B中的連續(xù)的名詞進(jìn)行合并;對于主題短語A與B中的連續(xù)的動(dòng)詞進(jìn)行合并; 對于主題短語A與B中的多個(gè)名詞性結(jié)構(gòu)之間無動(dòng)詞性結(jié)構(gòu),則將前者變?yōu)楹笳叩男揎棇傩裕? 對于主題短語A與B中的多個(gè)名詞性結(jié)構(gòu)之間存在動(dòng)詞性結(jié)構(gòu),則將所述多個(gè)名詞性結(jié)構(gòu)并列成為短語主體,將所述動(dòng)詞性結(jié)構(gòu)添加到關(guān)系詞列表中; 將主題短語A與B分別用其短語主體表示,將主題短語A與B的關(guān)系詞列表合并后,作為A與B的關(guān)系詞; 其中,若其中一主題短語沒有短語主體,則將此主題短語退化為關(guān)系詞。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 通過對所述切分單元進(jìn)行詞頻分析,消除所述文本集合中重復(fù)的文本。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,通過對所述切分單元進(jìn)行詞頻分析,消除所述文本集合中重復(fù)的文本包括: 如果文本X和I的文本向量維度差距不大于第四預(yù)設(shè)閥值,則利用動(dòng)態(tài)規(guī)劃算法計(jì)算其相似度Sim,計(jì)算公式為:
11.一種輿情事件的實(shí)體關(guān)系抽取裝置,其特征在于,包括: 分詞模塊,用于對輿情事件的文本集合進(jìn)行分詞; 主題短語模塊,用于從分詞得到的切分單元中抽取主題短語; 子主題模塊,用于基于聚類方法從所述主題短語中獲取子主題; 實(shí)體關(guān)系模塊,用于從所述子主題中獲取所述實(shí)體關(guān)系。
全文摘要
本發(fā)明提供了一種輿情事件的實(shí)體關(guān)系抽取方法,包括對輿情事件的文本集合進(jìn)行分詞;從分詞得到的切分單元中抽取主題短語;基于聚類方法從主題短語中獲取子主題;從子主題中獲取實(shí)體關(guān)系。本發(fā)明還提供了一種輿情事件的實(shí)體關(guān)系抽取裝置,包括分詞模塊,用于對輿情事件的文本集合進(jìn)行分詞;主題短語模塊,用于從分詞得到的切分單元中抽取主題短語;子主題模塊,用于基于聚類方法從主題短語中獲取子主題;實(shí)體關(guān)系模塊,用于從子主題中獲取實(shí)體關(guān)系。本發(fā)明提高了抽取輿情事件的實(shí)體關(guān)系的性能。
文檔編號(hào)G06F17/30GK103207860SQ20121000769
公開日2013年7月17日 申請日期2012年1月11日 優(yōu)先權(quán)日2012年1月11日
發(fā)明者鄭妍, 于曉明, 楊建武 申請人:北大方正集團(tuán)有限公司, 北京大學(xué), 北京北大方正電子有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1