aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

顯示設(shè)備及其喚醒方法和裝置與流程

文檔序號:42854672發(fā)布日期:2025-08-26 19:08閱讀:8來源:國知局

本技術(shù)涉及顯示,特別是涉及一種顯示設(shè)備及其喚醒方法和裝置。


背景技術(shù):

1、隨著顯示技術(shù)的發(fā)展,語音交互技術(shù)逐漸成為顯示設(shè)備控制的一項關(guān)鍵手段。其中,可以通過語音音頻實現(xiàn)顯示器喚醒,提高了人機交互效率和用戶體驗。

2、然而,傳統(tǒng)語音喚醒方式中,通?;陬A(yù)設(shè)的單一語音模板或簡單聲紋匹配方式,實現(xiàn)對顯示器的喚醒。在不同應(yīng)用場景下容易出現(xiàn)誤喚醒或漏喚醒問題,影響了喚醒識別的準確性。


技術(shù)實現(xiàn)思路

1、基于此,有必要針對上述技術(shù)問題,提供一種顯示設(shè)備及其喚醒方法和裝置,從而提高喚醒識別的準確性。

2、第一方面,一些實施例中提供了一種顯示設(shè)備,包括:

3、顯示器,被配置為顯示用戶界面或待機界面;

4、音頻輸入接口,被配置為采集語音交互數(shù)據(jù);

5、至少一個控制器,與音頻輸入接口和顯示器連接,被配置為:

6、獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型;

7、在滿足模型參數(shù)更新條件的情況下,在滿足模型參數(shù)更新條件的情況下,獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù);目標(biāo)語音交互數(shù)據(jù)為預(yù)設(shè)時段內(nèi)音頻輸入接口采集的語音交互數(shù)據(jù);語音屬性數(shù)據(jù)包括至少一個聲源對象和相應(yīng)聲源對象的語音特征;

8、獲取各聲源對象對應(yīng)的目標(biāo)喚醒頻次;聲源對象對應(yīng)的目標(biāo)喚醒頻次為聲源對象在預(yù)設(shè)時段內(nèi)喚醒顯示器的頻次;

9、根據(jù)各聲源對象的目標(biāo)喚醒頻次和相應(yīng)聲源對象的語音特征,對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整,以更新目標(biāo)喚醒識別模型;

10、獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù);

11、將當(dāng)前語音交互數(shù)據(jù)輸入至更新后的目標(biāo)喚醒識別模型中,得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果;喚醒識別結(jié)果包括未觸發(fā)喚醒結(jié)果和觸發(fā)喚醒結(jié)果;

12、在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下,控制顯示器由顯示待機界面切換為顯示用戶界面。

13、上述實施例中,通過獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型,從而為后續(xù)對目標(biāo)喚醒識別模型進行針對性的更新提供了基礎(chǔ)框架。通過在滿足模型參數(shù)更新條件的情況下,獲取預(yù)設(shè)時段內(nèi)目標(biāo)語音交互數(shù)據(jù)對應(yīng)的各聲源對象的語音特征,以及獲取聲源對象對應(yīng)的目標(biāo)喚醒頻次,為目標(biāo)喚醒識別模型的更新提供了適配于當(dāng)前應(yīng)用場景下的基礎(chǔ)數(shù)據(jù)。通過從聲源對象的目標(biāo)喚醒頻次和聲源對象的語音特征這兩個維度,對目標(biāo)喚醒識別模型的模型參數(shù)進行調(diào)整,一方面可以使得目標(biāo)喚醒識別模型更適配于當(dāng)前應(yīng)用場景,提高了該應(yīng)用場景下目標(biāo)喚醒識別模型的識別精度,另一方面可以基于目標(biāo)喚醒頻次,優(yōu)先關(guān)注高頻出現(xiàn)的語音特征,有利于提高活躍聲源對象的識別敏感性。通過獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù);將當(dāng)前語音交互數(shù)據(jù)輸入至目標(biāo)喚醒識別模型中,得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果;在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下,控制顯示器由顯示待機界面切換為顯示用戶界面,從而實現(xiàn)了對當(dāng)前語音交互數(shù)據(jù)的準確識別,有利于提高語音喚醒的準確性。

14、在一些實施例中,控制器在執(zhí)行根據(jù)各聲源對象的目標(biāo)喚醒頻次和相應(yīng)聲源對象的語音特征,對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整時,被配置為:針對每一聲源對象,根據(jù)聲源對象的目標(biāo)喚醒頻次在總目標(biāo)喚醒頻次中的目標(biāo)占比,確定聲源對象的每一語音特征的特征權(quán)重;總目標(biāo)喚醒頻次為各聲源對象的目標(biāo)喚醒頻次之和;針對各聲源對象的每一語音特征,獲取語音特征對應(yīng)的基準模型參數(shù);基準模型參數(shù)是通過樣本語音交互數(shù)據(jù)對待訓(xùn)練的目標(biāo)喚醒識別模型進行訓(xùn)練得到的;根據(jù)語音特征的特征權(quán)重,對語音特征的基準模型參數(shù)進行加權(quán),得到語音特征的目標(biāo)模型參數(shù);根據(jù)各聲源對象的不同語音特征的目標(biāo)模型參數(shù),對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整。

15、上述實施例中,通過根據(jù)聲源對象的目標(biāo)喚醒頻次在總目標(biāo)喚醒頻次中的目標(biāo)占比,確定聲源對象的每一語音特征的特征權(quán)重,從而實現(xiàn)了對每一語音特征所對應(yīng)喚醒頻次差異的量化,形成了特征重要性梯度,為差異化參數(shù)優(yōu)化提供了量化依據(jù)。通過針對各聲源對象的每一語音特征,獲取語音特征對應(yīng)的基準模型參數(shù),從而為后續(xù)加權(quán)計算提供了相應(yīng)的基準參考。由于基準模型參數(shù)是通過具有語音特征的樣本語音交互數(shù)據(jù),對待訓(xùn)練的目標(biāo)喚醒識別模型進行訓(xùn)練得到的,從而提高了語音特征與其相應(yīng)基準模型參數(shù)之間的匹配性。通過根據(jù)語音特征的特征權(quán)重,對語音特征的基準模型參數(shù)進行加權(quán),得到語音特征的目標(biāo)模型參數(shù),以及根據(jù)各聲源對象的不同語音特征的目標(biāo)模型參數(shù),對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整,從而使得越高頻次出現(xiàn)的語音特征在參數(shù)空間中產(chǎn)生越顯著的梯度更新方向,進而使得更新后目標(biāo)喚醒識別模型能夠適配當(dāng)前應(yīng)用場景,有利于提高語音喚醒的準確性。

16、在一些實施例中,基準模型參數(shù)為目標(biāo)喚醒識別模型中對應(yīng)固定模型參數(shù)的增量模型參數(shù);在對目標(biāo)喚醒識別模型訓(xùn)練過程中,保持目標(biāo)喚醒識別模型中的固定模型參數(shù)不變,并調(diào)整增量模型參數(shù);相應(yīng)的,控制器在執(zhí)行根據(jù)各聲源對象的不同語音特征的目標(biāo)模型參數(shù),對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整時,被配置為:針對每一固定模型參數(shù),將固定模型參數(shù)對應(yīng)的各目標(biāo)模型參數(shù)進行參數(shù)融合,得到融合模型參數(shù);將融合模型參數(shù)與固定模型參數(shù)進行參數(shù)融合,以對目標(biāo)喚醒識別模型中模型參數(shù)進行調(diào)整。

17、上述實施例中,通過引入增量模型參數(shù),并且在對目標(biāo)喚醒識別模型訓(xùn)練過程中,保持目標(biāo)喚醒識別模型中的增量模型參數(shù)不變,調(diào)整新增模型參數(shù),從而減少了計算資源占用,降低了時間成本。通過針對每一固定模型參數(shù),將固定模型參數(shù)對應(yīng)的各目標(biāo)模型參數(shù)進行參數(shù)融合,從而可以快速得到與固定模型參數(shù)對應(yīng)的融合模型參數(shù)。通過將融合模型參數(shù)與固定模型參數(shù)進行參數(shù)融合,從而實現(xiàn)了對目標(biāo)喚醒識別模型中模型參數(shù)的調(diào)整,無需再次進行模型訓(xùn)練,有利于提高目標(biāo)喚醒識別模型的模型更新效率。

18、在一些實施例中,模型參數(shù)更新條件包括以下至少一項:檢測到顯示設(shè)備為首次接入網(wǎng)絡(luò);觸發(fā)計時器的目標(biāo)定時任務(wù);目標(biāo)定時任務(wù)用于指示按照預(yù)設(shè)周期或預(yù)設(shè)頻率更新目標(biāo)喚醒識別模型;接收到模型參數(shù)更新操作。

19、上述實施例中,實現(xiàn)了在不同使用場景下對更新目標(biāo)喚醒識別模型的觸發(fā),有利于提高目標(biāo)喚醒識別模型更新的靈活性。在檢測到顯示設(shè)備為首次接入網(wǎng)絡(luò)的情況下,即針對首次使用場景,對目標(biāo)喚醒識別模型進行模型參數(shù)更新,從而可以使得目標(biāo)喚醒識別模型能夠適配于當(dāng)前應(yīng)用場景。通過設(shè)置計時器的目標(biāo)定時任務(wù),從而可以實現(xiàn)按照預(yù)設(shè)周期或預(yù)設(shè)頻率更新模型參數(shù),避免因長期使用固定模型參數(shù),而無法適應(yīng)于應(yīng)用場景的變化。通過響應(yīng)于模型參數(shù)更新操作,對目標(biāo)喚醒識別模型進行模型參數(shù)更新,從而可以根據(jù)實際需要靈活的進行模型參數(shù)更新。

20、在一些實施例中,控制器還被配置為:在不滿足模型參數(shù)更新條件的情況下,采用預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型識別語音交互數(shù)據(jù)的喚醒識別結(jié)果。

21、上述實施例中,在不滿足模型參數(shù)更新條件的情況下,采用預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型識別當(dāng)前語音交互數(shù)據(jù)的喚醒識別結(jié)果,從而實現(xiàn)了針對語音交互數(shù)據(jù)進行全周期的喚醒識別。

22、在一些實施例中,控制器在執(zhí)行獲取各聲源對象對應(yīng)的目標(biāo)喚醒頻次時,被配置為:針對每一聲源對象,從交互日志記錄中獲取聲源對象的喚醒時間處于預(yù)設(shè)時段內(nèi)的記錄項;獲取各記錄項的數(shù)量,得到聲源對象對應(yīng)的目標(biāo)喚醒頻次;其中,交互日志記錄中記錄有觸發(fā)喚醒結(jié)果對應(yīng)的聲源對象和相應(yīng)喚醒時間。

23、上述實施例中,通過引入交互日志記錄,并且交互日志記錄中記錄有觸發(fā)喚醒結(jié)果對應(yīng)的聲源對象和相應(yīng)喚醒時間,從而便于獲取不同聲源對象在預(yù)設(shè)時段內(nèi)的目標(biāo)喚醒頻次。

24、在一些實施例中,獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù),包括:調(diào)用聲紋識別模型,以提取目標(biāo)語音交互數(shù)據(jù)中的聲紋數(shù)據(jù),并識別聲紋數(shù)據(jù)對應(yīng)的聲源對象。

25、上述實施例中,通過提取目標(biāo)語音交互數(shù)據(jù)中的聲紋數(shù)據(jù),便于從聲紋數(shù)據(jù)中提取基頻和共振峰等聲紋參數(shù),從而有利于提高聲源對象的識別效率。

26、在一些實施例中,聲源對象的語音特征包括基礎(chǔ)屬性特征和語言地域特征;獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù),包括:調(diào)用聲紋識別模型,以提取目標(biāo)語音交互數(shù)據(jù)中的聲紋數(shù)據(jù),并識別聲紋數(shù)據(jù)中聲源對象以及聲源對象的基礎(chǔ)屬性特征;調(diào)用語言識別模型,以提取目標(biāo)語音交互數(shù)據(jù)中聲源對象的地域特征詞匯,識別地域特征詞匯對應(yīng)的語言地域特征。

27、上述實施例中,由于聲源對象的語音特征包括基礎(chǔ)屬性特征,從而使得更新后目標(biāo)喚醒識別模型能夠提高對不同年齡和性別等維度的識別響應(yīng)。由于聲源對象的語音特征包括語言地域特征,從而使得更新后目標(biāo)喚醒識別模型能夠減少因方言口音導(dǎo)致的漏喚醒問題。

28、第二方面,一些實施例中提供了一種顯示設(shè)備的喚醒方法,包括:

29、獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型;

30、在滿足模型參數(shù)更新條件的情況下,獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù);目標(biāo)語音交互數(shù)據(jù)為預(yù)設(shè)時段內(nèi)顯示設(shè)備的音頻輸入接口采集的語音交互數(shù)據(jù);語音屬性數(shù)據(jù)包括至少一個聲源對象和相應(yīng)聲源對象的語音特征;

31、獲取各聲源對象對應(yīng)的目標(biāo)喚醒頻次;聲源對象對應(yīng)的目標(biāo)喚醒頻次為聲源對象在預(yù)設(shè)時段內(nèi)喚醒顯示設(shè)備的顯示器的頻次;

32、根據(jù)各聲源對象的目標(biāo)喚醒頻次和相應(yīng)聲源對象的語音特征,對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整,以更新目標(biāo)喚醒識別模型;

33、獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù);

34、將當(dāng)前語音交互數(shù)據(jù)輸入至更新后的目標(biāo)喚醒識別模型中,得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果;喚醒識別結(jié)果包括未觸發(fā)喚醒結(jié)果和觸發(fā)喚醒結(jié)果;

35、在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下,控制顯示器由顯示待機界面切換為顯示用戶界面。

36、上述實施例中,通過獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型,從而為后續(xù)對目標(biāo)喚醒識別模型進行針對性的更新提供了基礎(chǔ)框架。通過在滿足模型參數(shù)更新條件的情況下,獲取預(yù)設(shè)時段內(nèi)目標(biāo)語音交互數(shù)據(jù)對應(yīng)的各聲源對象的語音特征,以及獲取聲源對象對應(yīng)的目標(biāo)喚醒頻次,為目標(biāo)喚醒識別模型的更新提供了適配于當(dāng)前應(yīng)用場景下的基礎(chǔ)數(shù)據(jù)。通過從聲源對象的目標(biāo)喚醒頻次和聲源對象的語音特征這兩個維度,對目標(biāo)喚醒識別模型的模型參數(shù)進行調(diào)整,一方面可以使得目標(biāo)喚醒識別模型更適配于當(dāng)前應(yīng)用場景,提高了該應(yīng)用場景下目標(biāo)喚醒識別模型的識別精度,另一方面可以基于目標(biāo)喚醒頻次,優(yōu)先關(guān)注高頻出現(xiàn)的語音特征,有利于提高活躍聲源對象的識別敏感性。通過獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù);將當(dāng)前語音交互數(shù)據(jù)輸入至目標(biāo)喚醒識別模型中,得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果;在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下,控制顯示器由顯示待機界面切換為顯示用戶界面,從而實現(xiàn)了對當(dāng)前語音交互數(shù)據(jù)的準確識別,有利于提高語音喚醒的準確性。

37、第三方面,一些實施例中提供了一種顯示設(shè)備的喚醒裝置,包括:

38、第一獲取模塊,用于獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型;

39、第二獲取模塊,在滿足模型參數(shù)更新條件的情況下,獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù);目標(biāo)語音交互數(shù)據(jù)為預(yù)設(shè)時段內(nèi)顯示設(shè)備的音頻輸入接口采集的語音交互數(shù)據(jù);語音屬性數(shù)據(jù)包括至少一個聲源對象和相應(yīng)聲源對象的語音特征;

40、第三獲取模塊,獲取各聲源對象對應(yīng)的目標(biāo)喚醒頻次;聲源對象對應(yīng)的目標(biāo)喚醒頻次為聲源對象在預(yù)設(shè)時段內(nèi)喚醒顯示設(shè)備的顯示器的頻次;

41、更新模塊,根據(jù)各聲源對象的目標(biāo)喚醒頻次和相應(yīng)聲源對象的語音特征,對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整,以更新目標(biāo)喚醒識別模型;

42、第四獲取模塊,獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù);

43、輸入模塊,將當(dāng)前語音交互數(shù)據(jù)輸入至更新后的目標(biāo)喚醒識別模型中,得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果;喚醒識別結(jié)果包括未觸發(fā)喚醒結(jié)果和觸發(fā)喚醒結(jié)果;

44、控制模塊,在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下,控制顯示器由顯示待機界面切換為顯示用戶界面。

45、上述實施例中,通過獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型,從而為后續(xù)對目標(biāo)喚醒識別模型進行針對性的更新提供了基礎(chǔ)框架。通過在滿足模型參數(shù)更新條件的情況下,獲取預(yù)設(shè)時段內(nèi)目標(biāo)語音交互數(shù)據(jù)對應(yīng)的各聲源對象的語音特征,以及獲取聲源對象對應(yīng)的目標(biāo)喚醒頻次,為目標(biāo)喚醒識別模型的更新提供了適配于當(dāng)前應(yīng)用場景下的基礎(chǔ)數(shù)據(jù)。通過從聲源對象的目標(biāo)喚醒頻次和聲源對象的語音特征這兩個維度,對目標(biāo)喚醒識別模型的模型參數(shù)進行調(diào)整,一方面可以使得目標(biāo)喚醒識別模型更適配于當(dāng)前應(yīng)用場景,提高了該應(yīng)用場景下目標(biāo)喚醒識別模型的識別精度,另一方面可以基于目標(biāo)喚醒頻次,優(yōu)先關(guān)注高頻出現(xiàn)的語音特征,有利于提高活躍聲源對象的識別敏感性。通過獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù);將當(dāng)前語音交互數(shù)據(jù)輸入至目標(biāo)喚醒識別模型中,得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果;在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下,控制顯示器由顯示待機界面切換為顯示用戶界面,從而實現(xiàn)了對當(dāng)前語音交互數(shù)據(jù)的準確識別,有利于提高語音喚醒的準確性。

46、第四方面,本技術(shù)還提供了一種計算機設(shè)備,包括存儲器和處理器,存儲器存儲有計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)上述第二方面在各種可能方式下的方法。

47、第五方面,本技術(shù)還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)上述第二方面在各種可能方式下的方法。

48、第六方面,本技術(shù)還提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述第二方面在各種可能方式下的方法。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1