一種語(yǔ)言模型優(yōu)化方法及裝置與流程

文檔序號(hào)：11232668閱讀：850來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域，特別是涉及一種語(yǔ)言模型優(yōu)化方法及裝置。

背景技術(shù)：

n-gram語(yǔ)言模型是現(xiàn)階段語(yǔ)音識(shí)別中最為常用的一種語(yǔ)言模型，可以通過(guò)對(duì)分詞后的文本進(jìn)行統(tǒng)計(jì)計(jì)算獲得。這種模型基于馬爾科夫假設(shè)，認(rèn)為句子中第n個(gè)詞的出現(xiàn)概率至于前面的n-1個(gè)詞有關(guān)。在自然語(yǔ)言處理中應(yīng)用廣泛，主要用途為判斷某句話的成句概率。

但n-gram語(yǔ)言模型本身具有語(yǔ)義孤立的缺陷，即無(wú)法認(rèn)知不同單詞之間的聯(lián)系，僅憑統(tǒng)計(jì)信息決定模型參數(shù)。舉例來(lái)講，我們可以理解“高興”與“開心”是兩個(gè)語(yǔ)義相近的詞，所以句子中可以使用“高興”的位置，使用“開心”來(lái)代替也常常是可行的。但是，假如我們用于訓(xùn)練n-gram語(yǔ)言模型的訓(xùn)練語(yǔ)料中只有出現(xiàn)“高興”而沒(méi)有出現(xiàn)“開心”，則對(duì)于“我今天很高興”這句話會(huì)給出較高成句概率，而對(duì)于“我今天很開心”則無(wú)法給出高的成句概率。

可見，傳統(tǒng)n-gram語(yǔ)言模型對(duì)訓(xùn)練語(yǔ)料的需求量很大，且一些時(shí)候效果不盡如人意。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明提供了一種語(yǔ)言模型優(yōu)化方法及裝置，以解決現(xiàn)有技術(shù)中的語(yǔ)言模型中成句概率低的問(wèn)題。

為了解決上述問(wèn)題，本發(fā)明公開了一種語(yǔ)言模型優(yōu)化方法，所述方法包括：從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量，其中，所述第一詞向量為第一詞語(yǔ)的向量，所述第二詞向量為第二詞語(yǔ)的向量，所述第二詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率低于所述第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率，且所述第一詞語(yǔ)與所述第二詞語(yǔ)語(yǔ)義相近；計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值；獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；其中，所述第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合；將所述第二詞語(yǔ)與所述第三詞語(yǔ)進(jìn)行組合，生成第二詞語(yǔ)組；依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值，計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；將所述第二詞語(yǔ)組與所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中。

優(yōu)選地，所述計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值的步驟包括：通過(guò)以下公式對(duì)第一詞向量以及第二詞向量夾角的余弦值進(jìn)行計(jì)算：cosa＝＜b，c＞/|b||c|，其中a為第一詞向量與所述第二詞向量的夾角，b為第一詞向量，c為第二詞向量。

優(yōu)選地，所述依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值，計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)的步驟包括：依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)計(jì)算出第一詞語(yǔ)組的出現(xiàn)概率；將所述第一詞語(yǔ)組的出現(xiàn)概率，與第一詞向量以及第二詞向量夾角的余弦值相乘，計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率；依據(jù)所述第二詞語(yǔ)組的出現(xiàn)概率計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

優(yōu)選地，在所述從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量的步驟之前，所述方法還包括：對(duì)語(yǔ)料進(jìn)行訓(xùn)練，生成詞向量以及語(yǔ)言模型，其中，所述語(yǔ)言模型中包含多個(gè)詞語(yǔ)、各詞語(yǔ)的出現(xiàn)概率對(duì)數(shù)、多個(gè)詞語(yǔ)組以及各詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)，所述詞向量為各所述詞語(yǔ)對(duì)應(yīng)的向量。

優(yōu)選地，所述余弦值的范圍值為(0-1)。

為了解決上述問(wèn)題，本發(fā)明還公開了一種語(yǔ)言模型優(yōu)化裝置，所述裝置包括：第一獲取模塊，用于從從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量，其中，所述第一詞向量為第一詞語(yǔ)的向量，所述第二詞向量為第二詞語(yǔ)的向量，所述第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于所述第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率，且所述第一詞語(yǔ)與所述第二詞語(yǔ)語(yǔ)義相近；第一計(jì)算模塊，用于計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值；第二獲取模塊，用于獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；其中，所述第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合；第一生成模塊，用于將所述第二詞語(yǔ)與所述第三詞語(yǔ)進(jìn)行組合，生成第二詞語(yǔ)組；第二計(jì)算模塊，用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值，計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；添加模塊，用于將所述第二詞語(yǔ)組與所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至所述語(yǔ)言模型中。

優(yōu)選地，所述第一計(jì)算模塊具體用于：通過(guò)以下公式對(duì)第一詞向量以及第二詞向量夾角的余弦值進(jìn)行計(jì)算：cosa＝＜b，c＞/|b||c|，其中a為第一詞向量與所述第二詞向量的夾角，b為第一詞向量，c為第二詞向量。

優(yōu)選地，所述第二計(jì)算模塊包括：第一計(jì)算子模塊，用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)計(jì)算出第一詞語(yǔ)組的出現(xiàn)概率；第二計(jì)算子模塊，用于將所述第一詞語(yǔ)組的出現(xiàn)概率，與第一詞向量以及第二詞向量夾角的余弦值相乘，計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率；第三計(jì)算子模塊，用于依據(jù)所述第二詞語(yǔ)組的出現(xiàn)概率計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

優(yōu)選地，所述裝置還包括：訓(xùn)練模塊，用于在所述第一獲取模塊從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量之前，對(duì)語(yǔ)料進(jìn)行訓(xùn)練，生成詞向量以及語(yǔ)言模型，其中，所述語(yǔ)言模型中包含多個(gè)詞語(yǔ)、各詞語(yǔ)的出現(xiàn)概率對(duì)數(shù)、多個(gè)詞語(yǔ)組以及各詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)，所述詞向量為各所述詞語(yǔ)對(duì)應(yīng)的向量。

優(yōu)選地，所述余弦值的范圍值為(0-1)。

與現(xiàn)有技術(shù)相比，本發(fā)明具有以下優(yōu)點(diǎn)：

本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化方案，從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量，其中，第一詞向量為第一詞語(yǔ)的向量，第二詞向量為第二詞語(yǔ)的向量，第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率，且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近；計(jì)算第一詞向量與第二詞向量夾角的余弦值；獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；其中，第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合；將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合，生成第二詞語(yǔ)組；依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值，計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中?？梢姡ㄟ^(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化方案，用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息，利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整，達(dá)到優(yōu)化語(yǔ)言模型的效果，提升用戶的使用體驗(yàn)。

附圖說(shuō)明

圖1是本發(fā)明實(shí)施例一的一種語(yǔ)言模型優(yōu)化方法的步驟流程圖；

圖2是本發(fā)明實(shí)施例二的一種語(yǔ)言模型優(yōu)化方法的步驟流程圖；

圖3是本發(fā)明實(shí)施例三的一種語(yǔ)言模型優(yōu)化裝置的結(jié)構(gòu)框圖；

圖4是本發(fā)明實(shí)施例四的一種語(yǔ)言模型優(yōu)化裝置的結(jié)構(gòu)框圖。

具體實(shí)施方式

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂，下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。

實(shí)施例一

參照?qǐng)D1，示出了本發(fā)明實(shí)施例一的一種語(yǔ)言模型優(yōu)化方法的步驟流程圖。

本發(fā)明實(shí)施例提供的語(yǔ)言模型優(yōu)化方法包括以下步驟：

步驟101：從從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量。

其中，第一詞向量為第一詞語(yǔ)的向量，第二詞向量為第二詞語(yǔ)的向量，第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率，第一詞語(yǔ)與第二詞語(yǔ)的語(yǔ)義相近。

步驟102：計(jì)算第一詞向量與第二詞向量夾角的余弦值。

根據(jù)獲取的詞向量，可以利用兩個(gè)向量夾角余弦值公式進(jìn)行計(jì)算。

目前常用的方法為，采用分散式標(biāo)識(shí)方法將每個(gè)詞標(biāo)識(shí)為一種低維實(shí)數(shù)向量，該向量就是詞語(yǔ)對(duì)應(yīng)的詞向量。

步驟103：獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

例如：第一詞語(yǔ)組為“今天天氣”，在語(yǔ)言模型中獲取“今天天氣”的出現(xiàn)概率對(duì)數(shù)。

在語(yǔ)言模型中會(huì)有一條路徑為：

-0.1760913今天天氣，表示今天天氣出現(xiàn)概率的對(duì)數(shù)。

通過(guò)上述路徑可知，今天天氣的出現(xiàn)概率對(duì)數(shù)為-0.1760913。

其中，第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合。

需要說(shuō)明的是，本申請(qǐng)中的語(yǔ)言模型特指為n-gram語(yǔ)言模型。

步驟104：將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合，生成第二詞語(yǔ)組。

步驟105：依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值，計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

步驟106：將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中。

將第二詞組的出現(xiàn)概率對(duì)數(shù)添加至語(yǔ)言模型中，當(dāng)進(jìn)行語(yǔ)音識(shí)別時(shí)，提高成句概率。

本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化方法，從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量，其中，第一詞向量為第一詞語(yǔ)的向量，第二詞向量為第二詞語(yǔ)的向量，第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率，且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近；計(jì)算第一詞向量與第二詞向量夾角的余弦值；獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；其中，第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合；將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合，生成第二詞語(yǔ)組；依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值，計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中?？梢?，通過(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化方法，用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息。利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整，達(dá)到優(yōu)化語(yǔ)言模型的效果，提升用戶的使用體驗(yàn)。

實(shí)施例二

參照?qǐng)D2，示出了本發(fā)明實(shí)施例二的一種語(yǔ)言模型優(yōu)化方法的步驟流程圖。

本發(fā)明實(shí)施例提供的語(yǔ)言模型優(yōu)化方法包括以下步驟：

步驟201：對(duì)語(yǔ)料進(jìn)行訓(xùn)練，生成詞向量以及語(yǔ)言模型。

其中，語(yǔ)言模型中包含多個(gè)詞語(yǔ)、各詞語(yǔ)的出現(xiàn)概率對(duì)數(shù)、多個(gè)詞語(yǔ)組以及各詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)，詞向量為各詞語(yǔ)對(duì)應(yīng)的向量。。

步驟202：從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量。

其中，第一詞向量為第一詞語(yǔ)的向量，第二詞向量為第二詞語(yǔ)的向量，第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率，且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近。

步驟203：通過(guò)以下公式對(duì)第一詞向量以及第二詞向量夾角的余弦值進(jìn)行計(jì)算：

cosa＝<b，c>/|b||c|，其中a為第一詞向量與第二詞向量的夾角，b為第一詞向量，c為第二詞向量。

根據(jù)獲取的詞向量，可以利用兩個(gè)向量夾角余弦值公式進(jìn)行計(jì)算。

步驟204：獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

其中，第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合。

例如：第一詞語(yǔ)組為“今天天氣”，在語(yǔ)言模型中獲取“今天天氣”的出現(xiàn)概率對(duì)數(shù)。

在語(yǔ)言模型中會(huì)有一條路徑為：

-0.1760913今天天氣，表示今天天氣出現(xiàn)概率的對(duì)數(shù)。

通過(guò)上述路徑可知，今天天氣的出現(xiàn)概率對(duì)數(shù)為-0.1760913。

步驟205：將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合，生成第二詞語(yǔ)組。

例如，第二詞語(yǔ)和第三詞語(yǔ)分別為“明天”、“天氣”，則第二詞語(yǔ)組為“明天天氣”。

步驟206：依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)計(jì)算出第一詞語(yǔ)組的出現(xiàn)概率。

例如：獲取的第一詞組的出現(xiàn)概率對(duì)數(shù)為“今天天氣”對(duì)應(yīng)的出現(xiàn)概率對(duì)數(shù)，且“今天天氣”的出現(xiàn)概率對(duì)數(shù)為-0.1760913，其小數(shù)值為10^(-0.1760913)約為0.667，則“今天天氣的出現(xiàn)概率為0.667。

步驟207：將第一詞語(yǔ)組的出現(xiàn)概率，與第一詞向量以及第二詞向量夾角的余弦值相乘，計(jì)算第二詞語(yǔ)組的出現(xiàn)概率。

例如：“明天天氣”這個(gè)二元組的條件概率為0.78423*0.6667與等于0.5228。

對(duì)0.5228進(jìn)行對(duì)數(shù)計(jì)算，則“明天天氣”的出現(xiàn)概率對(duì)數(shù)為-0.28166。步驟209：依據(jù)第二詞語(yǔ)組的出現(xiàn)概率計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

步驟208：將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中。

在語(yǔ)言模型中添加“-0.28166明天天氣”，其中-0.28166為0.5228以十為底的對(duì)數(shù)。

這樣一來(lái)，即使訓(xùn)練語(yǔ)料中沒(méi)有出現(xiàn)過(guò)“明天”這個(gè)詞，對(duì)它在句子中可能出現(xiàn)的概率也有一個(gè)較好的估計(jì)。依照需要，對(duì)所有語(yǔ)料中未出現(xiàn)而關(guān)心的詞做這樣的概率補(bǔ)充。這樣修改后的語(yǔ)言模型在各類任務(wù)中都會(huì)具有更優(yōu)秀的使用價(jià)值。

實(shí)施例三

參照?qǐng)D3，示出了本發(fā)明實(shí)施例三的一種語(yǔ)言模型優(yōu)化裝置的結(jié)構(gòu)框圖。

本發(fā)明實(shí)施例提供的語(yǔ)言模型優(yōu)化裝置包括：第一獲取模塊301，用于從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量，其中，所述第一詞向量為第一詞語(yǔ)的向量，所述第二詞向量為第二詞語(yǔ)的向量，所述第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于所述第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率，且所述第一詞語(yǔ)與所述第二詞語(yǔ)語(yǔ)義相近；第一計(jì)算模塊302，用于計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值；第二獲取模塊303，用于獲取所述語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；其中，所述第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合；第一生成模塊304，用于將所述第二詞語(yǔ)與所述第三詞語(yǔ)進(jìn)行組合，生成第二詞語(yǔ)組；第二計(jì)算模塊305，用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值，計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；添加模塊306，用于將所述第二詞語(yǔ)組與所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至所述語(yǔ)言模型中。

本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化裝置，從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量，其中，第一詞向量為第一詞語(yǔ)的向量，第二詞向量為第二詞語(yǔ)的向量，第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率，且第一詞語(yǔ)與第二詞語(yǔ)語(yǔ)義相近；計(jì)算第一詞向量與第二詞向量夾角的余弦值；獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；其中，第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合；將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合，生成第二詞語(yǔ)組；依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值，計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中?？梢姡ㄟ^(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化裝置，用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息。利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整，達(dá)到優(yōu)化語(yǔ)言模型的效果，提升用戶的使用體驗(yàn)。

實(shí)施例四

參照?qǐng)D4，示出了本發(fā)明實(shí)施例四的一種語(yǔ)言模型優(yōu)化裝置的結(jié)構(gòu)框圖。

本發(fā)明實(shí)施例提供的語(yǔ)言模型優(yōu)化裝置包括：第一獲取模塊401，用于從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量，其中，所述第一詞向量為第一詞語(yǔ)的向量，所述第二詞向量為第二詞語(yǔ)的向量，所述第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于所述第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率，且所述第一詞語(yǔ)與所述第二詞語(yǔ)語(yǔ)義相近；第一計(jì)算模塊402，用于計(jì)算所述第一詞向量與所述第二詞向量夾角的余弦值；第二獲取模塊403，用于獲取所述語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；其中，所述第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合；第一生成模塊404，用于將所述第二詞語(yǔ)與所述第三詞語(yǔ)進(jìn)行組合，生成第二詞語(yǔ)組；第二計(jì)算模塊405，用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及所述夾角的余弦值，計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；添加模塊406，用于將所述第二詞語(yǔ)組與所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至所述語(yǔ)言模型中。

優(yōu)選地，所述第一計(jì)算模塊402具體用于：通過(guò)以下公式對(duì)第一詞向量以及第二詞向量夾角的余弦值進(jìn)行計(jì)算：cosa＝<b，c>/|b||c|，其中a為第一詞向量與所述第二詞向量的夾角，b為第一詞向量，c為第二詞向量。

優(yōu)選地，所述第二計(jì)算模塊405包括：第一計(jì)算子模塊4051，用于依據(jù)所述第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)計(jì)算出第一詞語(yǔ)組的出現(xiàn)概率；第二計(jì)算子模塊4052，用于將所述第一詞語(yǔ)組的出現(xiàn)概率，與第一詞向量以及第二詞向量夾角的余弦值相乘，計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率；第三計(jì)算子模塊4053，用于依據(jù)所述第二詞語(yǔ)組的出現(xiàn)概率計(jì)算所述第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)。

優(yōu)選地，所述裝置還包括：訓(xùn)練模塊407，用于在所述第一獲取模塊從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量之前，對(duì)語(yǔ)料進(jìn)行訓(xùn)練，生成詞向量以及語(yǔ)言模型，其中，所述語(yǔ)言模型中包含多個(gè)詞語(yǔ)、各詞語(yǔ)的出現(xiàn)概率對(duì)數(shù)、多個(gè)詞語(yǔ)組以及各詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)，所述詞向量為各所述詞語(yǔ)對(duì)應(yīng)的向量。

優(yōu)選地，所述余弦值的范圍值為(0-1)。

本發(fā)明實(shí)施例提供的一種語(yǔ)言模型優(yōu)化裝置，從訓(xùn)練的語(yǔ)料中獲取第一詞向量以及第二詞向量，其中，第一詞向量為第一詞語(yǔ)的向量，第二詞向量為第二詞語(yǔ)的向量，第二詞語(yǔ)在語(yǔ)料出現(xiàn)的概率低于第一詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率，且第一詞語(yǔ)與第二詞語(yǔ)的語(yǔ)義相近；計(jì)算第一詞向量與第二詞向量夾角的余弦值；獲取語(yǔ)言模型中第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；其中，第一詞語(yǔ)組為第一詞語(yǔ)與第三詞語(yǔ)組合；將第二詞語(yǔ)與第三詞語(yǔ)進(jìn)行組合，生成第二詞語(yǔ)組；依據(jù)第一詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)以及夾角的余弦值，計(jì)算第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)；將第二詞語(yǔ)組與第二詞語(yǔ)組的出現(xiàn)概率對(duì)數(shù)對(duì)應(yīng)添加至語(yǔ)言模型中?？梢?，通過(guò)本發(fā)明提供的語(yǔ)言模型優(yōu)化裝置，用一份分好詞的語(yǔ)料進(jìn)行訓(xùn)練可以同時(shí)得到語(yǔ)言模型和詞向量。詞向量可以提供兩個(gè)詞之間的相似度信息。利用這一信息對(duì)n-gram語(yǔ)言模型中的條件概率進(jìn)行調(diào)整，達(dá)到優(yōu)化語(yǔ)言模型的效果，提升用戶的使用體驗(yàn)。

本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述，每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處，各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于系統(tǒng)實(shí)施例而言，由于其與方法實(shí)施例基本相似，所以描述的比較簡(jiǎn)單，相關(guān)之處參見方法實(shí)施例的部分說(shuō)明即可。

以上對(duì)本發(fā)明所提供的一種語(yǔ)言模型優(yōu)化方法及裝置，進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述，以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想；同時(shí)，對(duì)于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處，綜上所述，本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李健;殷子墨;張連毅;武衛(wèi)東
技術(shù)所有人：北京捷通華聲科技股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)言模型平滑方法相關(guān)技術(shù)

模型優(yōu)化方法相關(guān)技術(shù)

數(shù)學(xué)建模優(yōu)化方法模型相關(guān)技術(shù)

三維模型優(yōu)化方法相關(guān)技術(shù)

3d化工裝置模型相關(guān)技術(shù)

自動(dòng)更換砂紙裝置模型相關(guān)技術(shù)

aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

一種語(yǔ)言模型優(yōu)化方法及裝置與流程