本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,特別是涉及一種語(yǔ)言模型優(yōu)化方法及裝置。
背景技術(shù):
n-gram語(yǔ)言模型是現(xiàn)階段語(yǔ)音識(shí)別中最為常用的一種語(yǔ)言模型,可以通過(guò)對(duì)分詞后的文本進(jìn)行統(tǒng)計(jì)計(jì)算獲得。這種模型基于馬爾科夫假設(shè),認(rèn)為句子中第n個(gè)詞的出現(xiàn)概率至于前面的n-1個(gè)詞有關(guān)。在自然語(yǔ)言處理中應(yīng)用廣泛,主要用途為判斷某句話的成句概率。
但n-gram語(yǔ)言模型本身具有語(yǔ)義孤立的缺陷,即無(wú)法認(rèn)知不同單詞之間的聯(lián)系,僅憑統(tǒng)計(jì)信息決定模型參數(shù)。舉例來(lái)講,我們可以理解“高興”與“開心”是兩個(gè)語(yǔ)義相近的詞,所以句子中可以使用“高興”的位置,使用“開心”來(lái)代替也常常是可行的。但是,假如我們用于訓(xùn)練n-gram語(yǔ)言模型的訓(xùn)練語(yǔ)料中只有出現(xiàn)“高興”而沒(méi)有出現(xiàn)“開心”,則對(duì)于“我今天很高興”這句話會(huì)給出較高成句概率,而對(duì)于“我今天很開心”則無(wú)法給出高的成句概率。
可見,傳統(tǒng)n-gram語(yǔ)言模型對(duì)訓(xùn)練語(yǔ)料的需求量很大,且一些時(shí)候效果不盡如人意。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種語(yǔ)言模型優(yōu)化方法及裝置,以解決現(xiàn)有技術(shù)中的語(yǔ)言模型中成句概率低的問(wèn)題。
為了解決上述問(wèn)題,本發(fā)明公開了一種語(yǔ)言模型優(yōu)化方法,所述方法包括:從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,所述第一詞向量為第一詞語(yǔ)的向量,所述第二詞向量為第二詞語(yǔ)的向量,所述第二詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率低于所述第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且所述第一詞語(yǔ)與所述第二詞語(yǔ)語(yǔ)義相近;計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值;獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,所述第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;將所述第二詞語(yǔ)與所述第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);將所述第二詞語(yǔ)組與所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中。
優(yōu)選地,所述計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值的步驟包括:通過(guò)以下公式對(duì)第一詞向量以及第二詞向量夾角的余弦值進(jìn)行計(jì)算:cosa=<b,c>/|b||c|,其中a為第一詞向量與所述第二詞向量的夾角,b為第一詞向量,c為第二詞向量。
優(yōu)選地,所述依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)的步驟包括:依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)計(jì)算出第一詞語(yǔ)組的出現(xiàn)概率;將所述第一詞語(yǔ)組的出現(xiàn)概率,與第一詞向量以及第二詞向量夾角的余弦值相乘,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率;依據(jù)所述第二詞語(yǔ)組的出現(xiàn)概率計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。
優(yōu)選地,在所述從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量的步驟之前,所述方法還包括:對(duì)語(yǔ)料進(jìn)行訓(xùn)練,生成詞向量以及語(yǔ)言模型,其中,所述語(yǔ)言模型中包含多個(gè)詞語(yǔ)、各詞語(yǔ)的出現(xiàn)概率對(duì)數(shù)、多個(gè)詞語(yǔ)組以及各詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù),所述詞向量為各所述詞語(yǔ)對(duì)應(yīng)的向量。
優(yōu)選地,所述余弦值的范圍值為(0-1)。
為了解決上述問(wèn)題,本發(fā)明還公開了一種語(yǔ)言模型優(yōu)化裝置,所述裝置包括:第一獲取模塊,用于從從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,所述第一詞向量為第一詞語(yǔ)的向量,所述第二詞向量為第二詞語(yǔ)的向量,所述第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于所述第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且所述第一詞語(yǔ)與所述第二詞語(yǔ)語(yǔ)義相近;第一計(jì)算模塊,用于計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值;第二獲取模塊,用于獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,所述第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;第一生成模塊,用于將所述第二詞語(yǔ)與所述第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;第二計(jì)算模塊,用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);添加模塊,用于將所述第二詞語(yǔ)組與所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至所述語(yǔ)言模型中。
優(yōu)選地,所述第一計(jì)算模塊具體用于:通過(guò)以下公式對(duì)第一詞向量以及第二詞向量夾角的余弦值進(jìn)行計(jì)算:cosa=<b,c>/|b||c|,其中a為第一詞向量與所述第二詞向量的夾角,b為第一詞向量,c為第二詞向量。
優(yōu)選地,所述第二計(jì)算模塊包括:第一計(jì)算子模塊,用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)計(jì)算出第一詞語(yǔ)組的出現(xiàn)概率;第二計(jì)算子模塊,用于將所述第一詞語(yǔ)組的出現(xiàn)概率,與第一詞向量以及第二詞向量夾角的余弦值相乘,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率;第三計(jì)算子模塊,用于依據(jù)所述第二詞語(yǔ)組的出現(xiàn)概率計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。
優(yōu)選地,所述裝置還包括:訓(xùn)練模塊,用于在所述第一獲取模塊從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量之前,對(duì)語(yǔ)料進(jìn)行訓(xùn)練,生成詞向量以及語(yǔ)言模型,其中,所述語(yǔ)言模型中包含多個(gè)詞語(yǔ)、各詞語(yǔ)的出現(xiàn)概率對(duì)數(shù)、多個(gè)詞語(yǔ)組以及各詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù),所述詞向量為各所述詞語(yǔ)對(duì)應(yīng)的向量。
優(yōu)選地,所述余弦值的范圍值為(0-1)。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化方案,從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近;計(jì)算第一詞向量與第二詞向量夾角的余弦值;獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中??梢姡ㄟ^(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化方案,用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息,利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整,達(dá)到優(yōu)化語(yǔ)言模型的效果,提升用戶的使用體驗(yàn)。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例一的一種語(yǔ)言模型優(yōu)化方法的步驟流程圖;
圖2是本發(fā)明實(shí)施例二的一種語(yǔ)言模型優(yōu)化方法的步驟流程圖;
圖3是本發(fā)明實(shí)施例三的一種語(yǔ)言模型優(yōu)化裝置的結(jié)構(gòu)框圖;
圖4是本發(fā)明實(shí)施例四的一種語(yǔ)言模型優(yōu)化裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
實(shí)施例一
參照?qǐng)D1,示出了本發(fā)明實(shí)施例一的一種語(yǔ)言模型優(yōu)化方法的步驟流程圖。
本發(fā)明實(shí)施例提供的語(yǔ)言模型優(yōu)化方法包括以下步驟:
步驟101:從從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量。
其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,第一詞語(yǔ)與第二詞語(yǔ)的語(yǔ)義相近。
步驟102:計(jì)算第一詞向量與第二詞向量夾角的余弦值。
根據(jù)獲取的詞向量,可以利用兩個(gè)向量夾角余弦值公式進(jìn)行計(jì)算。
目前常用的方法為,采用分散式標(biāo)識(shí)方法將每個(gè)詞標(biāo)識(shí)為一種低維實(shí)數(shù)向量,該向量就是詞語(yǔ)對(duì)應(yīng)的詞向量。
步驟103:獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。
例如:第一詞語(yǔ)組為“今天天氣”,在語(yǔ)言模型中獲取“今天天氣”的出現(xiàn)概率對(duì)數(shù)。
在語(yǔ)言模型中會(huì)有一條路徑為:
-0.1760913今天天氣,表示今天天氣出現(xiàn)概率的對(duì)數(shù)。
通過(guò)上述路徑可知,今天天氣的出現(xiàn)概率對(duì)數(shù)為-0.1760913。
其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合。
需要說(shuō)明的是,本申請(qǐng)中的語(yǔ)言模型特指為n-gram語(yǔ)言模型。
步驟104:將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組。
步驟105:依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。
步驟106:將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中。
將第二詞組的出現(xiàn)概率對(duì)數(shù)添加至語(yǔ)言模型中,當(dāng)進(jìn)行語(yǔ)音識(shí)別時(shí),提高成句概率。
本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化方法,從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近;計(jì)算第一詞向量與第二詞向量夾角的余弦值;獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中??梢?,通過(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化方法,用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息。利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整,達(dá)到優(yōu)化語(yǔ)言模型的效果,提升用戶的使用體驗(yàn)。
實(shí)施例二
參照?qǐng)D2,示出了本發(fā)明實(shí)施例二的一種語(yǔ)言模型優(yōu)化方法的步驟流程圖。
本發(fā)明實(shí)施例提供的語(yǔ)言模型優(yōu)化方法包括以下步驟:
步驟201:對(duì)語(yǔ)料進(jìn)行訓(xùn)練,生成詞向量以及語(yǔ)言模型。
其中,語(yǔ)言模型中包含多個(gè)詞語(yǔ)、各詞語(yǔ)的出現(xiàn)概率對(duì)數(shù)、多個(gè)詞語(yǔ)組以及各詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù),詞向量為各詞語(yǔ)對(duì)應(yīng)的向量。。
步驟202:從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量。
其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近。
步驟203:通過(guò)以下公式對(duì)第一詞向量以及第二詞向量夾角的余弦值進(jìn)行計(jì)算:
cosa=<b,c>/|b||c|,其中a為第一詞向量與第二詞向量的夾角,b為第一詞向量,c為第二詞向量。
根據(jù)獲取的詞向量,可以利用兩個(gè)向量夾角余弦值公式進(jìn)行計(jì)算。
目前常用的方法為,采用分散式標(biāo)識(shí)方法將每個(gè)詞標(biāo)識(shí)為一種低維實(shí)數(shù)向量,該向量就是詞語(yǔ)對(duì)應(yīng)的詞向量。
步驟204:獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。
其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合。
例如:第一詞語(yǔ)組為“今天天氣”,在語(yǔ)言模型中獲取“今天天氣”的出現(xiàn)概率對(duì)數(shù)。
在語(yǔ)言模型中會(huì)有一條路徑為:
-0.1760913今天天氣,表示今天天氣出現(xiàn)概率的對(duì)數(shù)。
通過(guò)上述路徑可知,今天天氣的出現(xiàn)概率對(duì)數(shù)為-0.1760913。
步驟205:將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組。
例如,第二詞語(yǔ)和第三詞語(yǔ)分別為“明天”、“天氣”,則第二詞語(yǔ)組為“明天天氣”。
步驟206:依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)計(jì)算出第一詞語(yǔ)組的出現(xiàn)概率。
例如:獲取的第一詞組的出現(xiàn)概率對(duì)數(shù)為“今天天氣”對(duì)應(yīng)的出現(xiàn)概率對(duì)數(shù),且“今天天氣”的出現(xiàn)概率對(duì)數(shù)為-0.1760913,其小數(shù)值為10^(-0.1760913)約為0.667,則“今天天氣的出現(xiàn)概率為0.667。
步驟207:將第一詞語(yǔ)組的出現(xiàn)概率,與第一詞向量以及第二詞向量夾角的余弦值相乘,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率。
例如:“明天天氣”這個(gè)二元組的條件概率為0.78423*0.6667與等于0.5228。
對(duì)0.5228進(jìn)行對(duì)數(shù)計(jì)算,則“明天天氣”的出現(xiàn)概率對(duì)數(shù)為-0.28166。步驟209:依據(jù)第二詞語(yǔ)組的出現(xiàn)概率計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。
步驟208:將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中。
在語(yǔ)言模型中添加“-0.28166明天天氣”,其中-0.28166為0.5228以十為底的對(duì)數(shù)。
這樣一來(lái),即使訓(xùn)練語(yǔ)料中沒(méi)有出現(xiàn)過(guò)“明天”這個(gè)詞,對(duì)它在句子中可能出現(xiàn)的概率也有一個(gè)較好的估計(jì)。依照需要,對(duì)所有語(yǔ)料中未出現(xiàn)而關(guān)心的詞做這樣的概率補(bǔ)充。這樣修改后的語(yǔ)言模型在各類任務(wù)中都會(huì)具有更優(yōu)秀的使用價(jià)值。
本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化方法,從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近;計(jì)算第一詞向量與第二詞向量夾角的余弦值;獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中??梢?,通過(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化方法,用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息。利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整,達(dá)到優(yōu)化語(yǔ)言模型的效果,提升用戶的使用體驗(yàn)。
實(shí)施例三
參照?qǐng)D3,示出了本發(fā)明實(shí)施例三的一種語(yǔ)言模型優(yōu)化裝置的結(jié)構(gòu)框圖。
本發(fā)明實(shí)施例提供的語(yǔ)言模型優(yōu)化裝置包括:第一獲取模塊301,用于從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,所述第一詞向量為第一詞語(yǔ)的向量,所述第二詞向量為第二詞語(yǔ)的向量,所述第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于所述第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且所述第一詞語(yǔ)與所述第二詞語(yǔ)語(yǔ)義相近;第一計(jì)算模塊302,用于計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值;第二獲取模塊303,用于獲取所述語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,所述第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;第一生成模塊304,用于將所述第二詞語(yǔ)與所述第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;第二計(jì)算模塊305,用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);添加模塊306,用于將所述第二詞語(yǔ)組與所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至所述語(yǔ)言模型中。
本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化裝置,從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近;計(jì)算第一詞向量與第二詞向量夾角的余弦值;獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中??梢姡ㄟ^(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化裝置,用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息。利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整,達(dá)到優(yōu)化語(yǔ)言模型的效果,提升用戶的使用體驗(yàn)。
實(shí)施例四
參照?qǐng)D4,示出了本發(fā)明實(shí)施例四的一種語(yǔ)言模型優(yōu)化裝置的結(jié)構(gòu)框圖。
本發(fā)明實(shí)施例提供的語(yǔ)言模型優(yōu)化裝置包括:第一獲取模塊401,用于從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,所述第一詞向量為第一詞語(yǔ)的向量,所述第二詞向量為第二詞語(yǔ)的向量,所述第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于所述第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且所述第一詞語(yǔ)與所述第二詞語(yǔ)語(yǔ)義相近;第一計(jì)算模塊402,用于計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值;第二獲取模塊403,用于獲取所述語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,所述第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;第一生成模塊404,用于將所述第二詞語(yǔ)與所述第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;第二計(jì)算模塊405,用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);添加模塊406,用于將所述第二詞語(yǔ)組與所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至所述語(yǔ)言模型中。
優(yōu)選地,所述第一計(jì)算模塊402具體用于:通過(guò)以下公式對(duì)第一詞向量以及第二詞向量夾角的余弦值進(jìn)行計(jì)算:cosa=<b,c>/|b||c|,其中a為第一詞向量與所述第二詞向量的夾角,b為第一詞向量,c為第二詞向量。
優(yōu)選地,所述第二計(jì)算模塊405包括:第一計(jì)算子模塊4051,用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)計(jì)算出第一詞語(yǔ)組的出現(xiàn)概率;第二計(jì)算子模塊4052,用于將所述第一詞語(yǔ)組的出現(xiàn)概率,與第一詞向量以及第二詞向量夾角的余弦值相乘,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率;第三計(jì)算子模塊4053,用于依據(jù)所述第二詞語(yǔ)組的出現(xiàn)概率計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。
優(yōu)選地,所述裝置還包括:訓(xùn)練模塊407,用于在所述第一獲取模塊從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量之前,對(duì)語(yǔ)料進(jìn)行訓(xùn)練,生成詞向量以及語(yǔ)言模型,其中,所述語(yǔ)言模型中包含多個(gè)詞語(yǔ)、各詞語(yǔ)的出現(xiàn)概率對(duì)數(shù)、多個(gè)詞語(yǔ)組以及各詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù),所述詞向量為各所述詞語(yǔ)對(duì)應(yīng)的向量。
優(yōu)選地,所述余弦值的范圍值為(0-1)。
本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化裝置,從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且第一詞語(yǔ)與第二詞語(yǔ)的語(yǔ)義相近;計(jì)算第一詞向量與第二詞向量夾角的余弦值;獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中??梢?,通過(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化裝置,用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息。利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整,達(dá)到優(yōu)化語(yǔ)言模型的效果,提升用戶的使用體驗(yàn)。
本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于系統(tǒng)實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說(shuō)明即可。
以上對(duì)本發(fā)明所提供的一種語(yǔ)言模型優(yōu)化方法及裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。