aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

實體標簽的抽取方法和裝置的制造方法

文檔序號:9471477閱讀:748來源:國知局
實體標簽的抽取方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明設及數(shù)據(jù)處理技術領域,尤其設及一種實體標簽的抽取方法和裝置。
【背景技術】
[0002] 在知識庫中,為方便機器理解知識,通常將實體的關系及屬性(統(tǒng)稱實體關系)映 射到架構(Schema)預定義的關系上。借助Schema,機器能準確無歧義地理解知識,但是運 種知識表示方式在實際應用中存在W下兩個問題:實體關系種類繁多并且會動態(tài)變化,預 定義關系難W涵蓋所有可能的關系,大量知識無法映射到知識庫中;預定義關系構造出來 的關系描述生硬模式化,缺乏語言美感,難W直接應用到要求語言豐富多彩的產(chǎn)品場景中。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明旨在至少在一定程度上解決相關技術中的技術問題之一。
[0004] 為此,本發(fā)明的一個目的在于提出一種實體標簽的抽取方法,該方法可W提高能 夠描述的實體關系的覆蓋范圍,并且可W提高描述方式的自然度。
[0005] 本發(fā)明的另一個目的在于提出一種實體標簽的抽取裝置。
[0006] 為達到上述目的,本發(fā)明第一方面實施例提出的實體標簽的抽取方法,包括:從網(wǎng) 頁中獲取用于描述實體間共性的自然語言片段;獲取滿足所述自然語言片段的實體;將所 述自然語言片段作為多實體標簽,建立所述多實體標簽與所述實體之間的關聯(lián)關系。
[0007] 本發(fā)明第一方面實施例提出的實體標簽的抽取方法,通過從網(wǎng)頁中獲取多實體標 簽,可W使得實體標簽不限于Schema預定義的關系,從而可W提高能夠描述的實體關系的 覆蓋范圍,通過將自然語言片段作為多實體標簽,可W提高描述方式的自然度。
[000引為達到上述目的,本發(fā)明第二方面實施例提出的實體標簽的抽取裝置,包括:第一 獲取模塊,用于從網(wǎng)頁中獲取用于描述實體間共性的自然語言片段;第二獲取模塊,用于獲 取滿足所述自然語言片段的實體;關聯(lián)模塊,用于將所述自然語言片段作為多實體標簽,建 立所述多實體標簽與所述實體之間的關聯(lián)關系。
[0009] 本發(fā)明第二方面實施例提出的實體標簽的抽取裝置,通過從網(wǎng)頁中獲取多實體標 簽,可W使得實體標簽不限于Schema預定義的關系,從而可W提高能夠描述的實體關系的 覆蓋范圍,通過將自然語言片段作為多實體標簽,可W提高描述方式的自然度。
[0010] 本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0011] 本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變 得明顯和容易理解,其中:
[0012] 圖1是本發(fā)明一實施例提出的實體標簽的抽取方法的流程示意圖;
[0013] 圖2是本發(fā)明另一實施例提出的實體標簽的抽取方法的流程示意圖;
[0014] 圖3是本發(fā)明另一實施例提出的實體標簽的抽取裝置的結構示意圖;
[0015] 圖4是本發(fā)明另一實施例提出的實體標簽的抽取裝置的結構示意圖。
【具體實施方式】
[0016] 下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考 附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反, 本發(fā)明的實施例包括落入所附加權利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同 物。
[0017] 圖1是本發(fā)明一實施例提出的實體標簽的抽取方法的流程示意圖,該方法包括:
[0018] S11:從網(wǎng)頁中獲取用于描述實體間共性的自然語言片段。
[0019] 例如,可W從網(wǎng)頁標題中提取用于描述實體間共性的自然語言片段。網(wǎng)頁例如包 括:新聞、博客或論壇等。
[0020] 實體標簽(TAG)可W分為單實體標簽和多實體標簽,多實體標簽是指用于描述至 少兩個實體之間的實體關系的標簽,本發(fā)明實施例W多實體標簽為例。
[0021] 本實施例中,將獲取的用于描述實體間共性的自然語言片段作為多實體標簽。
[0022] S12:獲取滿足所述自然語言片段的實體。
[0023] 例如,從網(wǎng)頁標題對應的網(wǎng)頁內(nèi)容中進行實體挖掘,獲取滿足所述自然語言片段 的實體。
[0024] S13:將所述自然語言片段作為多實體標簽,建立所述多實體標簽與所述實體之間 的關聯(lián)關系。
[0025] 其中,滿足所述自然語言片段的實體可W組成實體集合(entity-list),多實體標 簽與實體集合之間的關聯(lián)關系可W如表1所示:
[0026] 表 1
[0027]
[0028] 在建立上述的關聯(lián)關系后,可W基于該關聯(lián)關系向用戶提供更豐富和自然的內(nèi) 容,例如,當用戶捜索"楊幕"時可W給出"劉詩詩"等其他推薦內(nèi)容,并給出標簽是"因戲得 良緣的娛樂圈明星",提升用戶體驗。
[0029] 本實施例中,通過從網(wǎng)頁中獲取多實體標簽,可W使得實體標簽不限于Schema預 定義的關系,從而可W提高能夠描述的實體關系的覆蓋范圍,通過將自然語言片段作為多 實體標簽,可W提高描述方式的自然度。
[0030] 圖2是本發(fā)明另一實施例提出的實體標簽的抽取方法的流程示意圖,多實體標簽 對應的實體集合中包括的實體個數(shù)可W是兩個或至少=個,其中,至少=個實體對應的多 實體標簽可W稱為盤點型標簽,本實施例W盤點型標簽為例。該方法包括:
[0031] S201 :從網(wǎng)頁標題(title)數(shù)據(jù)庫中,獲取盤點型網(wǎng)頁標題。
[0032] 其中,盤點型網(wǎng)頁標題是指標題中包含:用于描述至少=個實體間共性的自然語 言片段。通過對網(wǎng)頁標題進行分析,可W從中選擇出盤點型網(wǎng)頁標題。
[0033] S202:從盤點型網(wǎng)頁標題中,提取盤點型標簽。
[0034] 例如,可W利用正則表達式,從盤點型網(wǎng)頁標簽中提取盤點型標簽,例如,提取的 盤點型標簽是"因戲得良緣的娛樂圈明星"。
[0035] 可選的,還可W對提取出的盤點型標簽進行進一步處理,進一步處理例如包括如 下的S203-S205。
[0036] S203 :盤點型標簽的規(guī)范化及基礎特征提取。
[0037] 規(guī)范化例如包括:利用詞性標注、詞干識別等自然語言工具識別并移除盤點型標 簽中的冗余詞。
[003引基礎特征提取例如包括:提取盤點型標簽的語義向量,要求語義相似的盤點型標 簽的語義向量相近。
[0039] S204 :盤點型標簽的領域識別。
[0040] 例如,根據(jù)盤點型標簽的核屯、主干詞識別該標簽所屬領域。例如,針對"娛樂圈潛 力花旦"運樣的標簽,通過核屯、詞"花旦"可W推斷該標簽所屬領域是人物。
[0041] S205 :盤點型標簽的質(zhì)量控制。
[0042] 例如,利用標簽的語義向量識別并過濾黃反負面的標簽,例如,過濾掉"蹲過監(jiān)獄 的內(nèi)地明星"運種屬于負面的標簽。
[0043] 經(jīng)過上述的S201-S205可W獲取到盤點型標簽,另一方面還需要獲取對應的實體 集合。獲取實體集合的流程可W包括:
[0044]S206 :翻頁序列挖掘,獲取上述的盤點型網(wǎng)頁標題所在的網(wǎng)頁的翻頁網(wǎng)頁。
[0045] 由于一篇網(wǎng)頁內(nèi)容通常會分布在多個頁面上,而網(wǎng)頁庫內(nèi)往往只收錄其中幾頁, 為最大化召回被盤點實體,需要通過翻頁序列挖掘來補充未被收錄的頁面。例如,當前收錄 的頁面是第一頁,而該篇內(nèi)容還包括第一頁翻頁后的第二頁和第S頁等,則通過翻頁序列 挖掘,可W獲取到第二頁和第=頁等。
[0046] S207:對上述的盤點型網(wǎng)頁標題所在的網(wǎng)頁W及獲取的翻頁網(wǎng)頁,進行網(wǎng)頁正文 內(nèi)容抽取。
[0047] 本實施例W在正文內(nèi)容中提取實體為例,因此之前可W先過濾掉網(wǎng)頁中其余無用 內(nèi)容。
[0048] S208 :從正文內(nèi)容中提取與盤點型標簽所屬領域相同的實體集合。
[0049] 例如,利用實體識別工具進行相應領域的實體抽取。
[0050] S209 :盤點型標簽與實體的相關性控制。
[0051] 例如,利用基礎屬性約束、網(wǎng)頁結構特征、標簽與實體語義相似度等技術來確保標 簽燈AG)與實體巧ntity)的相關性。
[0052] 可選的,還可W執(zhí)行S210-S211。
[0053] S210 :相似標簽和/或?qū)嶓w的合并。
[0054] 例如,利用語義相似度識別語義相似的盤點型標簽,并將相似的盤點型標簽歸一 化為統(tǒng)一的一個盤點型標簽,W及,將相似的盤點型標簽關聯(lián)的實體與該統(tǒng)一的盤點型標 簽進行融合,使得該統(tǒng)一的盤點型標簽關聯(lián)的實體集合包括:所有的相似的盤點型標簽關 聯(lián)的實體集合。
[00W] S211 :對數(shù)據(jù)保存到數(shù)據(jù)庫內(nèi)。
[0056] 例如,將盤點型標簽與關聯(lián)的實體集合關聯(lián)保存到數(shù)據(jù)庫內(nèi)。另外,在保存之前可 W進行人工或預設算法的評估,W將滿足一定要求的數(shù)據(jù)進行保存。
[0057] 本實施例中,通過從網(wǎng)頁中獲取多實體標簽,可W使得實體標簽不限于Schema預 定義的關系,從而可W提高能夠描述的實體關系的覆蓋范圍,通過將自然語言片段作為多 實體標簽,可W提高描述方式的自然度。另外,通過上述的各種進一步處理,可W提高獲取 的盤點型標簽和/或關聯(lián)的實體的準確度。
[0058] 圖3是本發(fā)明另一實施例提出的實體標簽的抽取裝置的結構示意圖,該裝置30包 括:第一獲取模塊31,第二獲取模塊32和關聯(lián)模塊33。
[0059] 第一獲取模塊31,用于從網(wǎng)頁中獲取用于描述實體間共性的自然語言片段;
[0060] 例如,可W從網(wǎng)頁標題中提取用于描述實體間共性的自然語言片段。網(wǎng)頁例如包 括:新聞、博客或論壇等。
[0061] 實體標簽(TAG)可W分為單實體標簽和多實體標簽,多實體標簽是指用于描述至 少兩個實體之間的實體關系的標簽,本發(fā)明實施例W多實體標簽為例。
[0062] 本實施例中,將獲取的用于描述實體間共性的自然語言片段作為多實體標簽。
[0063] 可選的,第一獲取模塊31具體用于:
[0064] 從網(wǎng)頁標題庫中選擇具有多實體標簽的網(wǎng)頁標題;
[0065] 從所述網(wǎng)頁標題中提取用于描述實體間共性的自然語言片段。
[0066] W多實體標簽是盤點型標簽為例,例如,從網(wǎng)頁標題(title)數(shù)據(jù)庫中,獲取盤點 型網(wǎng)頁標題。
[0067] 其中,盤點型網(wǎng)頁標題是指標題中包含:用于描述至少=個實體間共性的自然語 言片段。通過對網(wǎng)頁標題進行分析,可W從中選擇出盤點型網(wǎng)頁標題。 W側(cè)之后,從盤點型網(wǎng)頁標題中,提取盤點型標簽。 W例例如,可W利用正則表達式,從盤點型網(wǎng)頁標簽中提取盤點型標簽,例如,提取的 盤點型標簽是"因戲得良緣的娛樂圈明星"。
[0070] 第二獲取模塊32,用于獲取滿足所述自然語言片段的實體;<
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1