aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

一種語(yǔ)言模型優(yōu)化方法及裝置與流程

文檔序號(hào):11232668閱讀:850來(lái)源:國(guó)知局
一種語(yǔ)言模型優(yōu)化方法及裝置與流程

本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,特別是涉及一種語(yǔ)言模型優(yōu)化方法及裝置。



背景技術(shù):

n-gram語(yǔ)言模型是現(xiàn)階段語(yǔ)音識(shí)別中最為常用的一種語(yǔ)言模型,可以通過(guò)對(duì)分詞后的文本進(jìn)行統(tǒng)計(jì)計(jì)算獲得。這種模型基于馬爾科夫假設(shè),認(rèn)為句子中第n個(gè)詞的出現(xiàn)概率至于前面的n-1個(gè)詞有關(guān)。在自然語(yǔ)言處理中應(yīng)用廣泛,主要用途為判斷某句話的成句概率。

但n-gram語(yǔ)言模型本身具有語(yǔ)義孤立的缺陷,即無(wú)法認(rèn)知不同單詞之間的聯(lián)系,僅憑統(tǒng)計(jì)信息決定模型參數(shù)。舉例來(lái)講,我們可以理解“高興”與“開心”是兩個(gè)語(yǔ)義相近的詞,所以句子中可以使用“高興”的位置,使用“開心”來(lái)代替也常常是可行的。但是,假如我們用于訓(xùn)練n-gram語(yǔ)言模型的訓(xùn)練語(yǔ)料中只有出現(xiàn)“高興”而沒(méi)有出現(xiàn)“開心”,則對(duì)于“我今天很高興”這句話會(huì)給出較高成句概率,而對(duì)于“我今天很開心”則無(wú)法給出高的成句概率。

可見,傳統(tǒng)n-gram語(yǔ)言模型對(duì)訓(xùn)練語(yǔ)料的需求量很大,且一些時(shí)候效果不盡如人意。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提供了一種語(yǔ)言模型優(yōu)化方法及裝置,以解決現(xiàn)有技術(shù)中的語(yǔ)言模型中成句概率低的問(wèn)題。

為了解決上述問(wèn)題,本發(fā)明公開了一種語(yǔ)言模型優(yōu)化方法,所述方法包括:從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,所述第一詞向量為第一詞語(yǔ)的向量,所述第二詞向量為第二詞語(yǔ)的向量,所述第二詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率低于所述第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且所述第一詞語(yǔ)與所述第二詞語(yǔ)語(yǔ)義相近;計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值;獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,所述第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;將所述第二詞語(yǔ)與所述第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);將所述第二詞語(yǔ)組與所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中。

優(yōu)選地,所述計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值的步驟包括:通過(guò)以下公式對(duì)第一詞向量以及第二詞向量夾角的余弦值進(jìn)行計(jì)算:cosa=<b,c>/|b||c|,其中a為第一詞向量與所述第二詞向量的夾角,b為第一詞向量,c為第二詞向量。

優(yōu)選地,所述依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)的步驟包括:依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)計(jì)算出第一詞語(yǔ)組的出現(xiàn)概率;將所述第一詞語(yǔ)組的出現(xiàn)概率,與第一詞向量以及第二詞向量夾角的余弦值相乘,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率;依據(jù)所述第二詞語(yǔ)組的出現(xiàn)概率計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

優(yōu)選地,在所述從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量的步驟之前,所述方法還包括:對(duì)語(yǔ)料進(jìn)行訓(xùn)練,生成詞向量以及語(yǔ)言模型,其中,所述語(yǔ)言模型中包含多個(gè)詞語(yǔ)、各詞語(yǔ)的出現(xiàn)概率對(duì)數(shù)、多個(gè)詞語(yǔ)組以及各詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù),所述詞向量為各所述詞語(yǔ)對(duì)應(yīng)的向量。

優(yōu)選地,所述余弦值的范圍值為(0-1)。

為了解決上述問(wèn)題,本發(fā)明還公開了一種語(yǔ)言模型優(yōu)化裝置,所述裝置包括:第一獲取模塊,用于從從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,所述第一詞向量為第一詞語(yǔ)的向量,所述第二詞向量為第二詞語(yǔ)的向量,所述第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于所述第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且所述第一詞語(yǔ)與所述第二詞語(yǔ)語(yǔ)義相近;第一計(jì)算模塊,用于計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值;第二獲取模塊,用于獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,所述第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;第一生成模塊,用于將所述第二詞語(yǔ)與所述第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;第二計(jì)算模塊,用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);添加模塊,用于將所述第二詞語(yǔ)組與所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至所述語(yǔ)言模型中。

優(yōu)選地,所述第一計(jì)算模塊具體用于:通過(guò)以下公式對(duì)第一詞向量以及第二詞向量夾角的余弦值進(jìn)行計(jì)算:cosa=<b,c>/|b||c|,其中a為第一詞向量與所述第二詞向量的夾角,b為第一詞向量,c為第二詞向量。

優(yōu)選地,所述第二計(jì)算模塊包括:第一計(jì)算子模塊,用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)計(jì)算出第一詞語(yǔ)組的出現(xiàn)概率;第二計(jì)算子模塊,用于將所述第一詞語(yǔ)組的出現(xiàn)概率,與第一詞向量以及第二詞向量夾角的余弦值相乘,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率;第三計(jì)算子模塊,用于依據(jù)所述第二詞語(yǔ)組的出現(xiàn)概率計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

優(yōu)選地,所述裝置還包括:訓(xùn)練模塊,用于在所述第一獲取模塊從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量之前,對(duì)語(yǔ)料進(jìn)行訓(xùn)練,生成詞向量以及語(yǔ)言模型,其中,所述語(yǔ)言模型中包含多個(gè)詞語(yǔ)、各詞語(yǔ)的出現(xiàn)概率對(duì)數(shù)、多個(gè)詞語(yǔ)組以及各詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù),所述詞向量為各所述詞語(yǔ)對(duì)應(yīng)的向量。

優(yōu)選地,所述余弦值的范圍值為(0-1)。

與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):

本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化方案,從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近;計(jì)算第一詞向量與第二詞向量夾角的余弦值;獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中??梢姡ㄟ^(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化方案,用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息,利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整,達(dá)到優(yōu)化語(yǔ)言模型的效果,提升用戶的使用體驗(yàn)。

附圖說(shuō)明

圖1是本發(fā)明實(shí)施例一的一種語(yǔ)言模型優(yōu)化方法的步驟流程圖;

圖2是本發(fā)明實(shí)施例二的一種語(yǔ)言模型優(yōu)化方法的步驟流程圖;

圖3是本發(fā)明實(shí)施例三的一種語(yǔ)言模型優(yōu)化裝置的結(jié)構(gòu)框圖;

圖4是本發(fā)明實(shí)施例四的一種語(yǔ)言模型優(yōu)化裝置的結(jié)構(gòu)框圖。

具體實(shí)施方式

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。

實(shí)施例一

參照?qǐng)D1,示出了本發(fā)明實(shí)施例一的一種語(yǔ)言模型優(yōu)化方法的步驟流程圖。

本發(fā)明實(shí)施例提供的語(yǔ)言模型優(yōu)化方法包括以下步驟:

步驟101:從從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量。

其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,第一詞語(yǔ)與第二詞語(yǔ)的語(yǔ)義相近。

步驟102:計(jì)算第一詞向量與第二詞向量夾角的余弦值。

根據(jù)獲取的詞向量,可以利用兩個(gè)向量夾角余弦值公式進(jìn)行計(jì)算。

目前常用的方法為,采用分散式標(biāo)識(shí)方法將每個(gè)詞標(biāo)識(shí)為一種低維實(shí)數(shù)向量,該向量就是詞語(yǔ)對(duì)應(yīng)的詞向量。

步驟103:獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

例如:第一詞語(yǔ)組為“今天天氣”,在語(yǔ)言模型中獲取“今天天氣”的出現(xiàn)概率對(duì)數(shù)。

在語(yǔ)言模型中會(huì)有一條路徑為:

-0.1760913今天天氣,表示今天天氣出現(xiàn)概率的對(duì)數(shù)。

通過(guò)上述路徑可知,今天天氣的出現(xiàn)概率對(duì)數(shù)為-0.1760913。

其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合。

需要說(shuō)明的是,本申請(qǐng)中的語(yǔ)言模型特指為n-gram語(yǔ)言模型。

步驟104:將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組。

步驟105:依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

步驟106:將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中。

將第二詞組的出現(xiàn)概率對(duì)數(shù)添加至語(yǔ)言模型中,當(dāng)進(jìn)行語(yǔ)音識(shí)別時(shí),提高成句概率。

本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化方法,從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近;計(jì)算第一詞向量與第二詞向量夾角的余弦值;獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中??梢?,通過(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化方法,用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息。利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整,達(dá)到優(yōu)化語(yǔ)言模型的效果,提升用戶的使用體驗(yàn)。

實(shí)施例二

參照?qǐng)D2,示出了本發(fā)明實(shí)施例二的一種語(yǔ)言模型優(yōu)化方法的步驟流程圖。

本發(fā)明實(shí)施例提供的語(yǔ)言模型優(yōu)化方法包括以下步驟:

步驟201:對(duì)語(yǔ)料進(jìn)行訓(xùn)練,生成詞向量以及語(yǔ)言模型。

其中,語(yǔ)言模型中包含多個(gè)詞語(yǔ)、各詞語(yǔ)的出現(xiàn)概率對(duì)數(shù)、多個(gè)詞語(yǔ)組以及各詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù),詞向量為各詞語(yǔ)對(duì)應(yīng)的向量。。

步驟202:從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量。

其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近。

步驟203:通過(guò)以下公式對(duì)第一詞向量以及第二詞向量夾角的余弦值進(jìn)行計(jì)算:

cosa=<b,c>/|b||c|,其中a為第一詞向量與第二詞向量的夾角,b為第一詞向量,c為第二詞向量。

根據(jù)獲取的詞向量,可以利用兩個(gè)向量夾角余弦值公式進(jìn)行計(jì)算。

目前常用的方法為,采用分散式標(biāo)識(shí)方法將每個(gè)詞標(biāo)識(shí)為一種低維實(shí)數(shù)向量,該向量就是詞語(yǔ)對(duì)應(yīng)的詞向量。

步驟204:獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合。

例如:第一詞語(yǔ)組為“今天天氣”,在語(yǔ)言模型中獲取“今天天氣”的出現(xiàn)概率對(duì)數(shù)。

在語(yǔ)言模型中會(huì)有一條路徑為:

-0.1760913今天天氣,表示今天天氣出現(xiàn)概率的對(duì)數(shù)。

通過(guò)上述路徑可知,今天天氣的出現(xiàn)概率對(duì)數(shù)為-0.1760913。

步驟205:將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組。

例如,第二詞語(yǔ)和第三詞語(yǔ)分別為“明天”、“天氣”,則第二詞語(yǔ)組為“明天天氣”。

步驟206:依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)計(jì)算出第一詞語(yǔ)組的出現(xiàn)概率。

例如:獲取的第一詞組的出現(xiàn)概率對(duì)數(shù)為“今天天氣”對(duì)應(yīng)的出現(xiàn)概率對(duì)數(shù),且“今天天氣”的出現(xiàn)概率對(duì)數(shù)為-0.1760913,其小數(shù)值為10^(-0.1760913)約為0.667,則“今天天氣的出現(xiàn)概率為0.667。

步驟207:將第一詞語(yǔ)組的出現(xiàn)概率,與第一詞向量以及第二詞向量夾角的余弦值相乘,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率。

例如:“明天天氣”這個(gè)二元組的條件概率為0.78423*0.6667與等于0.5228。

對(duì)0.5228進(jìn)行對(duì)數(shù)計(jì)算,則“明天天氣”的出現(xiàn)概率對(duì)數(shù)為-0.28166。步驟209:依據(jù)第二詞語(yǔ)組的出現(xiàn)概率計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

步驟208:將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中。

在語(yǔ)言模型中添加“-0.28166明天天氣”,其中-0.28166為0.5228以十為底的對(duì)數(shù)。

這樣一來(lái),即使訓(xùn)練語(yǔ)料中沒(méi)有出現(xiàn)過(guò)“明天”這個(gè)詞,對(duì)它在句子中可能出現(xiàn)的概率也有一個(gè)較好的估計(jì)。依照需要,對(duì)所有語(yǔ)料中未出現(xiàn)而關(guān)心的詞做這樣的概率補(bǔ)充。這樣修改后的語(yǔ)言模型在各類任務(wù)中都會(huì)具有更優(yōu)秀的使用價(jià)值。

本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化方法,從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近;計(jì)算第一詞向量與第二詞向量夾角的余弦值;獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中??梢?,通過(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化方法,用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息。利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整,達(dá)到優(yōu)化語(yǔ)言模型的效果,提升用戶的使用體驗(yàn)。

實(shí)施例三

參照?qǐng)D3,示出了本發(fā)明實(shí)施例三的一種語(yǔ)言模型優(yōu)化裝置的結(jié)構(gòu)框圖。

本發(fā)明實(shí)施例提供的語(yǔ)言模型優(yōu)化裝置包括:第一獲取模塊301,用于從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,所述第一詞向量為第一詞語(yǔ)的向量,所述第二詞向量為第二詞語(yǔ)的向量,所述第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于所述第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且所述第一詞語(yǔ)與所述第二詞語(yǔ)語(yǔ)義相近;第一計(jì)算模塊302,用于計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值;第二獲取模塊303,用于獲取所述語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,所述第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;第一生成模塊304,用于將所述第二詞語(yǔ)與所述第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;第二計(jì)算模塊305,用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);添加模塊306,用于將所述第二詞語(yǔ)組與所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至所述語(yǔ)言模型中。

本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化裝置,從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近;計(jì)算第一詞向量與第二詞向量夾角的余弦值;獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中??梢姡ㄟ^(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化裝置,用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息。利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整,達(dá)到優(yōu)化語(yǔ)言模型的效果,提升用戶的使用體驗(yàn)。

實(shí)施例四

參照?qǐng)D4,示出了本發(fā)明實(shí)施例四的一種語(yǔ)言模型優(yōu)化裝置的結(jié)構(gòu)框圖。

本發(fā)明實(shí)施例提供的語(yǔ)言模型優(yōu)化裝置包括:第一獲取模塊401,用于從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,所述第一詞向量為第一詞語(yǔ)的向量,所述第二詞向量為第二詞語(yǔ)的向量,所述第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于所述第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且所述第一詞語(yǔ)與所述第二詞語(yǔ)語(yǔ)義相近;第一計(jì)算模塊402,用于計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值;第二獲取模塊403,用于獲取所述語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,所述第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;第一生成模塊404,用于將所述第二詞語(yǔ)與所述第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;第二計(jì)算模塊405,用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);添加模塊406,用于將所述第二詞語(yǔ)組與所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至所述語(yǔ)言模型中。

優(yōu)選地,所述第一計(jì)算模塊402具體用于:通過(guò)以下公式對(duì)第一詞向量以及第二詞向量夾角的余弦值進(jìn)行計(jì)算:cosa=<b,c>/|b||c|,其中a為第一詞向量與所述第二詞向量的夾角,b為第一詞向量,c為第二詞向量。

優(yōu)選地,所述第二計(jì)算模塊405包括:第一計(jì)算子模塊4051,用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)計(jì)算出第一詞語(yǔ)組的出現(xiàn)概率;第二計(jì)算子模塊4052,用于將所述第一詞語(yǔ)組的出現(xiàn)概率,與第一詞向量以及第二詞向量夾角的余弦值相乘,計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率;第三計(jì)算子模塊4053,用于依據(jù)所述第二詞語(yǔ)組的出現(xiàn)概率計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

優(yōu)選地,所述裝置還包括:訓(xùn)練模塊407,用于在所述第一獲取模塊從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量之前,對(duì)語(yǔ)料進(jìn)行訓(xùn)練,生成詞向量以及語(yǔ)言模型,其中,所述語(yǔ)言模型中包含多個(gè)詞語(yǔ)、各詞語(yǔ)的出現(xiàn)概率對(duì)數(shù)、多個(gè)詞語(yǔ)組以及各詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù),所述詞向量為各所述詞語(yǔ)對(duì)應(yīng)的向量。

優(yōu)選地,所述余弦值的范圍值為(0-1)。

本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化裝置,從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量,其中,第一詞向量為第一詞語(yǔ)的向量,第二詞向量為第二詞語(yǔ)的向量,第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率,且第一詞語(yǔ)與第二詞語(yǔ)的語(yǔ)義相近;計(jì)算第一詞向量與第二詞向量夾角的余弦值;獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);其中,第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合;將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合,生成第二詞語(yǔ)組;依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值,計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù);將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中??梢?,通過(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化裝置,用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息。利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整,達(dá)到優(yōu)化語(yǔ)言模型的效果,提升用戶的使用體驗(yàn)。

本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于系統(tǒng)實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說(shuō)明即可。

以上對(duì)本發(fā)明所提供的一種語(yǔ)言模型優(yōu)化方法及裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1