本技術(shù)涉及顯示,特別是涉及一種顯示設(shè)備及其喚醒方法和裝置。
背景技術(shù):
1、隨著顯示技術(shù)的發(fā)展,語音交互技術(shù)逐漸成為顯示設(shè)備控制的一項關(guān)鍵手段。其中,可以通過語音音頻實現(xiàn)顯示器喚醒,提高了人機交互效率和用戶體驗。
2、然而,傳統(tǒng)語音喚醒方式中,通?;陬A(yù)設(shè)的單一語音模板或簡單聲紋匹配方式,實現(xiàn)對顯示器的喚醒。在不同應(yīng)用場景下容易出現(xiàn)誤喚醒或漏喚醒問題,影響了喚醒識別的準確性。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種顯示設(shè)備及其喚醒方法和裝置,從而提高喚醒識別的準確性。
2、第一方面,一些實施例中提供了一種顯示設(shè)備,包括:
3、顯示器,被配置為顯示用戶界面或待機界面;
4、音頻輸入接口,被配置為采集語音交互數(shù)據(jù);
5、至少一個控制器,與音頻輸入接口和顯示器連接,被配置為:
6、獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型;
7、在滿足模型參數(shù)更新條件的情況下,在滿足模型參數(shù)更新條件的情況下,獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù);目標(biāo)語音交互數(shù)據(jù)為預(yù)設(shè)時段內(nèi)音頻輸入接口采集的語音交互數(shù)據(jù);語音屬性數(shù)據(jù)包括至少一個聲源對象和相應(yīng)聲源對象的語音特征;
8、獲取各聲源對象對應(yīng)的目標(biāo)喚醒頻次;聲源對象對應(yīng)的目標(biāo)喚醒頻次為聲源對象在預(yù)設(shè)時段內(nèi)喚醒顯示器的頻次;
9、根據(jù)各聲源對象的目標(biāo)喚醒頻次和相應(yīng)聲源對象的語音特征,對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整,以更新目標(biāo)喚醒識別模型;
10、獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù);
11、將當(dāng)前語音交互數(shù)據(jù)輸入至更新后的目標(biāo)喚醒識別模型中,得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果;喚醒識別結(jié)果包括未觸發(fā)喚醒結(jié)果和觸發(fā)喚醒結(jié)果;
12、在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下,控制顯示器由顯示待機界面切換為顯示用戶界面。
13、上述實施例中,通過獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型,從而為后續(xù)對目標(biāo)喚醒識別模型進行針對性的更新提供了基礎(chǔ)框架。通過在滿足模型參數(shù)更新條件的情況下,獲取預(yù)設(shè)時段內(nèi)目標(biāo)語音交互數(shù)據(jù)對應(yīng)的各聲源對象的語音特征,以及獲取聲源對象對應(yīng)的目標(biāo)喚醒頻次,為目標(biāo)喚醒識別模型的更新提供了適配于當(dāng)前應(yīng)用場景下的基礎(chǔ)數(shù)據(jù)。通過從聲源對象的目標(biāo)喚醒頻次和聲源對象的語音特征這兩個維度,對目標(biāo)喚醒識別模型的模型參數(shù)進行調(diào)整,一方面可以使得目標(biāo)喚醒識別模型更適配于當(dāng)前應(yīng)用場景,提高了該應(yīng)用場景下目標(biāo)喚醒識別模型的識別精度,另一方面可以基于目標(biāo)喚醒頻次,優(yōu)先關(guān)注高頻出現(xiàn)的語音特征,有利于提高活躍聲源對象的識別敏感性。通過獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù);將當(dāng)前語音交互數(shù)據(jù)輸入至目標(biāo)喚醒識別模型中,得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果;在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下,控制顯示器由顯示待機界面切換為顯示用戶界面,從而實現(xiàn)了對當(dāng)前語音交互數(shù)據(jù)的準確識別,有利于提高語音喚醒的準確性。
14、在一些實施例中,控制器在執(zhí)行根據(jù)各聲源對象的目標(biāo)喚醒頻次和相應(yīng)聲源對象的語音特征,對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整時,被配置為:針對每一聲源對象,根據(jù)聲源對象的目標(biāo)喚醒頻次在總目標(biāo)喚醒頻次中的目標(biāo)占比,確定聲源對象的每一語音特征的特征權(quán)重;總目標(biāo)喚醒頻次為各聲源對象的目標(biāo)喚醒頻次之和;針對各聲源對象的每一語音特征,獲取語音特征對應(yīng)的基準模型參數(shù);基準模型參數(shù)是通過樣本語音交互數(shù)據(jù)對待訓(xùn)練的目標(biāo)喚醒識別模型進行訓(xùn)練得到的;根據(jù)語音特征的特征權(quán)重,對語音特征的基準模型參數(shù)進行加權(quán),得到語音特征的目標(biāo)模型參數(shù);根據(jù)各聲源對象的不同語音特征的目標(biāo)模型參數(shù),對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整。
15、上述實施例中,通過根據(jù)聲源對象的目標(biāo)喚醒頻次在總目標(biāo)喚醒頻次中的目標(biāo)占比,確定聲源對象的每一語音特征的特征權(quán)重,從而實現(xiàn)了對每一語音特征所對應(yīng)喚醒頻次差異的量化,形成了特征重要性梯度,為差異化參數(shù)優(yōu)化提供了量化依據(jù)。通過針對各聲源對象的每一語音特征,獲取語音特征對應(yīng)的基準模型參數(shù),從而為后續(xù)加權(quán)計算提供了相應(yīng)的基準參考。由于基準模型參數(shù)是通過具有語音特征的樣本語音交互數(shù)據(jù),對待訓(xùn)練的目標(biāo)喚醒識別模型進行訓(xùn)練得到的,從而提高了語音特征與其相應(yīng)基準模型參數(shù)之間的匹配性。通過根據(jù)語音特征的特征權(quán)重,對語音特征的基準模型參數(shù)進行加權(quán),得到語音特征的目標(biāo)模型參數(shù),以及根據(jù)各聲源對象的不同語音特征的目標(biāo)模型參數(shù),對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整,從而使得越高頻次出現(xiàn)的語音特征在參數(shù)空間中產(chǎn)生越顯著的梯度更新方向,進而使得更新后目標(biāo)喚醒識別模型能夠適配當(dāng)前應(yīng)用場景,有利于提高語音喚醒的準確性。
16、在一些實施例中,基準模型參數(shù)為目標(biāo)喚醒識別模型中對應(yīng)固定模型參數(shù)的增量模型參數(shù);在對目標(biāo)喚醒識別模型訓(xùn)練過程中,保持目標(biāo)喚醒識別模型中的固定模型參數(shù)不變,并調(diào)整增量模型參數(shù);相應(yīng)的,控制器在執(zhí)行根據(jù)各聲源對象的不同語音特征的目標(biāo)模型參數(shù),對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整時,被配置為:針對每一固定模型參數(shù),將固定模型參數(shù)對應(yīng)的各目標(biāo)模型參數(shù)進行參數(shù)融合,得到融合模型參數(shù);將融合模型參數(shù)與固定模型參數(shù)進行參數(shù)融合,以對目標(biāo)喚醒識別模型中模型參數(shù)進行調(diào)整。
17、上述實施例中,通過引入增量模型參數(shù),并且在對目標(biāo)喚醒識別模型訓(xùn)練過程中,保持目標(biāo)喚醒識別模型中的增量模型參數(shù)不變,調(diào)整新增模型參數(shù),從而減少了計算資源占用,降低了時間成本。通過針對每一固定模型參數(shù),將固定模型參數(shù)對應(yīng)的各目標(biāo)模型參數(shù)進行參數(shù)融合,從而可以快速得到與固定模型參數(shù)對應(yīng)的融合模型參數(shù)。通過將融合模型參數(shù)與固定模型參數(shù)進行參數(shù)融合,從而實現(xiàn)了對目標(biāo)喚醒識別模型中模型參數(shù)的調(diào)整,無需再次進行模型訓(xùn)練,有利于提高目標(biāo)喚醒識別模型的模型更新效率。
18、在一些實施例中,模型參數(shù)更新條件包括以下至少一項:檢測到顯示設(shè)備為首次接入網(wǎng)絡(luò);觸發(fā)計時器的目標(biāo)定時任務(wù);目標(biāo)定時任務(wù)用于指示按照預(yù)設(shè)周期或預(yù)設(shè)頻率更新目標(biāo)喚醒識別模型;接收到模型參數(shù)更新操作。
19、上述實施例中,實現(xiàn)了在不同使用場景下對更新目標(biāo)喚醒識別模型的觸發(fā),有利于提高目標(biāo)喚醒識別模型更新的靈活性。在檢測到顯示設(shè)備為首次接入網(wǎng)絡(luò)的情況下,即針對首次使用場景,對目標(biāo)喚醒識別模型進行模型參數(shù)更新,從而可以使得目標(biāo)喚醒識別模型能夠適配于當(dāng)前應(yīng)用場景。通過設(shè)置計時器的目標(biāo)定時任務(wù),從而可以實現(xiàn)按照預(yù)設(shè)周期或預(yù)設(shè)頻率更新模型參數(shù),避免因長期使用固定模型參數(shù),而無法適應(yīng)于應(yīng)用場景的變化。通過響應(yīng)于模型參數(shù)更新操作,對目標(biāo)喚醒識別模型進行模型參數(shù)更新,從而可以根據(jù)實際需要靈活的進行模型參數(shù)更新。
20、在一些實施例中,控制器還被配置為:在不滿足模型參數(shù)更新條件的情況下,采用預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型識別語音交互數(shù)據(jù)的喚醒識別結(jié)果。
21、上述實施例中,在不滿足模型參數(shù)更新條件的情況下,采用預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型識別當(dāng)前語音交互數(shù)據(jù)的喚醒識別結(jié)果,從而實現(xiàn)了針對語音交互數(shù)據(jù)進行全周期的喚醒識別。
22、在一些實施例中,控制器在執(zhí)行獲取各聲源對象對應(yīng)的目標(biāo)喚醒頻次時,被配置為:針對每一聲源對象,從交互日志記錄中獲取聲源對象的喚醒時間處于預(yù)設(shè)時段內(nèi)的記錄項;獲取各記錄項的數(shù)量,得到聲源對象對應(yīng)的目標(biāo)喚醒頻次;其中,交互日志記錄中記錄有觸發(fā)喚醒結(jié)果對應(yīng)的聲源對象和相應(yīng)喚醒時間。
23、上述實施例中,通過引入交互日志記錄,并且交互日志記錄中記錄有觸發(fā)喚醒結(jié)果對應(yīng)的聲源對象和相應(yīng)喚醒時間,從而便于獲取不同聲源對象在預(yù)設(shè)時段內(nèi)的目標(biāo)喚醒頻次。
24、在一些實施例中,獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù),包括:調(diào)用聲紋識別模型,以提取目標(biāo)語音交互數(shù)據(jù)中的聲紋數(shù)據(jù),并識別聲紋數(shù)據(jù)對應(yīng)的聲源對象。
25、上述實施例中,通過提取目標(biāo)語音交互數(shù)據(jù)中的聲紋數(shù)據(jù),便于從聲紋數(shù)據(jù)中提取基頻和共振峰等聲紋參數(shù),從而有利于提高聲源對象的識別效率。
26、在一些實施例中,聲源對象的語音特征包括基礎(chǔ)屬性特征和語言地域特征;獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù),包括:調(diào)用聲紋識別模型,以提取目標(biāo)語音交互數(shù)據(jù)中的聲紋數(shù)據(jù),并識別聲紋數(shù)據(jù)中聲源對象以及聲源對象的基礎(chǔ)屬性特征;調(diào)用語言識別模型,以提取目標(biāo)語音交互數(shù)據(jù)中聲源對象的地域特征詞匯,識別地域特征詞匯對應(yīng)的語言地域特征。
27、上述實施例中,由于聲源對象的語音特征包括基礎(chǔ)屬性特征,從而使得更新后目標(biāo)喚醒識別模型能夠提高對不同年齡和性別等維度的識別響應(yīng)。由于聲源對象的語音特征包括語言地域特征,從而使得更新后目標(biāo)喚醒識別模型能夠減少因方言口音導(dǎo)致的漏喚醒問題。
28、第二方面,一些實施例中提供了一種顯示設(shè)備的喚醒方法,包括:
29、獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型;
30、在滿足模型參數(shù)更新條件的情況下,獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù);目標(biāo)語音交互數(shù)據(jù)為預(yù)設(shè)時段內(nèi)顯示設(shè)備的音頻輸入接口采集的語音交互數(shù)據(jù);語音屬性數(shù)據(jù)包括至少一個聲源對象和相應(yīng)聲源對象的語音特征;
31、獲取各聲源對象對應(yīng)的目標(biāo)喚醒頻次;聲源對象對應(yīng)的目標(biāo)喚醒頻次為聲源對象在預(yù)設(shè)時段內(nèi)喚醒顯示設(shè)備的顯示器的頻次;
32、根據(jù)各聲源對象的目標(biāo)喚醒頻次和相應(yīng)聲源對象的語音特征,對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整,以更新目標(biāo)喚醒識別模型;
33、獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù);
34、將當(dāng)前語音交互數(shù)據(jù)輸入至更新后的目標(biāo)喚醒識別模型中,得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果;喚醒識別結(jié)果包括未觸發(fā)喚醒結(jié)果和觸發(fā)喚醒結(jié)果;
35、在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下,控制顯示器由顯示待機界面切換為顯示用戶界面。
36、上述實施例中,通過獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型,從而為后續(xù)對目標(biāo)喚醒識別模型進行針對性的更新提供了基礎(chǔ)框架。通過在滿足模型參數(shù)更新條件的情況下,獲取預(yù)設(shè)時段內(nèi)目標(biāo)語音交互數(shù)據(jù)對應(yīng)的各聲源對象的語音特征,以及獲取聲源對象對應(yīng)的目標(biāo)喚醒頻次,為目標(biāo)喚醒識別模型的更新提供了適配于當(dāng)前應(yīng)用場景下的基礎(chǔ)數(shù)據(jù)。通過從聲源對象的目標(biāo)喚醒頻次和聲源對象的語音特征這兩個維度,對目標(biāo)喚醒識別模型的模型參數(shù)進行調(diào)整,一方面可以使得目標(biāo)喚醒識別模型更適配于當(dāng)前應(yīng)用場景,提高了該應(yīng)用場景下目標(biāo)喚醒識別模型的識別精度,另一方面可以基于目標(biāo)喚醒頻次,優(yōu)先關(guān)注高頻出現(xiàn)的語音特征,有利于提高活躍聲源對象的識別敏感性。通過獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù);將當(dāng)前語音交互數(shù)據(jù)輸入至目標(biāo)喚醒識別模型中,得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果;在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下,控制顯示器由顯示待機界面切換為顯示用戶界面,從而實現(xiàn)了對當(dāng)前語音交互數(shù)據(jù)的準確識別,有利于提高語音喚醒的準確性。
37、第三方面,一些實施例中提供了一種顯示設(shè)備的喚醒裝置,包括:
38、第一獲取模塊,用于獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型;
39、第二獲取模塊,在滿足模型參數(shù)更新條件的情況下,獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù);目標(biāo)語音交互數(shù)據(jù)為預(yù)設(shè)時段內(nèi)顯示設(shè)備的音頻輸入接口采集的語音交互數(shù)據(jù);語音屬性數(shù)據(jù)包括至少一個聲源對象和相應(yīng)聲源對象的語音特征;
40、第三獲取模塊,獲取各聲源對象對應(yīng)的目標(biāo)喚醒頻次;聲源對象對應(yīng)的目標(biāo)喚醒頻次為聲源對象在預(yù)設(shè)時段內(nèi)喚醒顯示設(shè)備的顯示器的頻次;
41、更新模塊,根據(jù)各聲源對象的目標(biāo)喚醒頻次和相應(yīng)聲源對象的語音特征,對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整,以更新目標(biāo)喚醒識別模型;
42、第四獲取模塊,獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù);
43、輸入模塊,將當(dāng)前語音交互數(shù)據(jù)輸入至更新后的目標(biāo)喚醒識別模型中,得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果;喚醒識別結(jié)果包括未觸發(fā)喚醒結(jié)果和觸發(fā)喚醒結(jié)果;
44、控制模塊,在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下,控制顯示器由顯示待機界面切換為顯示用戶界面。
45、上述實施例中,通過獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型,從而為后續(xù)對目標(biāo)喚醒識別模型進行針對性的更新提供了基礎(chǔ)框架。通過在滿足模型參數(shù)更新條件的情況下,獲取預(yù)設(shè)時段內(nèi)目標(biāo)語音交互數(shù)據(jù)對應(yīng)的各聲源對象的語音特征,以及獲取聲源對象對應(yīng)的目標(biāo)喚醒頻次,為目標(biāo)喚醒識別模型的更新提供了適配于當(dāng)前應(yīng)用場景下的基礎(chǔ)數(shù)據(jù)。通過從聲源對象的目標(biāo)喚醒頻次和聲源對象的語音特征這兩個維度,對目標(biāo)喚醒識別模型的模型參數(shù)進行調(diào)整,一方面可以使得目標(biāo)喚醒識別模型更適配于當(dāng)前應(yīng)用場景,提高了該應(yīng)用場景下目標(biāo)喚醒識別模型的識別精度,另一方面可以基于目標(biāo)喚醒頻次,優(yōu)先關(guān)注高頻出現(xiàn)的語音特征,有利于提高活躍聲源對象的識別敏感性。通過獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù);將當(dāng)前語音交互數(shù)據(jù)輸入至目標(biāo)喚醒識別模型中,得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果;在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下,控制顯示器由顯示待機界面切換為顯示用戶界面,從而實現(xiàn)了對當(dāng)前語音交互數(shù)據(jù)的準確識別,有利于提高語音喚醒的準確性。
46、第四方面,本技術(shù)還提供了一種計算機設(shè)備,包括存儲器和處理器,存儲器存儲有計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)上述第二方面在各種可能方式下的方法。
47、第五方面,本技術(shù)還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)上述第二方面在各種可能方式下的方法。
48、第六方面,本技術(shù)還提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述第二方面在各種可能方式下的方法。