顯示設(shè)備及其喚醒方法和裝置與流程

文檔序號：42854672發(fā)布日期：2025-08-26 19:08閱讀：8來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本技術(shù)涉及顯示，特別是涉及一種顯示設(shè)備及其喚醒方法和裝置。

背景技術(shù)：

1、隨著顯示技術(shù)的發(fā)展，語音交互技術(shù)逐漸成為顯示設(shè)備控制的一項關(guān)鍵手段。其中，可以通過語音音頻實現(xiàn)顯示器喚醒，提高了人機交互效率和用戶體驗。

2、然而，傳統(tǒng)語音喚醒方式中，通?；陬A(yù)設(shè)的單一語音模板或簡單聲紋匹配方式，實現(xiàn)對顯示器的喚醒。在不同應(yīng)用場景下容易出現(xiàn)誤喚醒或漏喚醒問題，影響了喚醒識別的準確性。

技術(shù)實現(xiàn)思路

1、基于此，有必要針對上述技術(shù)問題，提供一種顯示設(shè)備及其喚醒方法和裝置，從而提高喚醒識別的準確性。

2、第一方面，一些實施例中提供了一種顯示設(shè)備，包括：

3、顯示器，被配置為顯示用戶界面或待機界面；

4、音頻輸入接口，被配置為采集語音交互數(shù)據(jù)；

5、至少一個控制器，與音頻輸入接口和顯示器連接，被配置為：

6、獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型；

7、在滿足模型參數(shù)更新條件的情況下，在滿足模型參數(shù)更新條件的情況下，獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù)；目標(biāo)語音交互數(shù)據(jù)為預(yù)設(shè)時段內(nèi)音頻輸入接口采集的語音交互數(shù)據(jù)；語音屬性數(shù)據(jù)包括至少一個聲源對象和相應(yīng)聲源對象的語音特征；

8、獲取各聲源對象對應(yīng)的目標(biāo)喚醒頻次；聲源對象對應(yīng)的目標(biāo)喚醒頻次為聲源對象在預(yù)設(shè)時段內(nèi)喚醒顯示器的頻次；

9、根據(jù)各聲源對象的目標(biāo)喚醒頻次和相應(yīng)聲源對象的語音特征，對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整，以更新目標(biāo)喚醒識別模型；

10、獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù)；

11、將當(dāng)前語音交互數(shù)據(jù)輸入至更新后的目標(biāo)喚醒識別模型中，得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果；喚醒識別結(jié)果包括未觸發(fā)喚醒結(jié)果和觸發(fā)喚醒結(jié)果；

12、在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下，控制顯示器由顯示待機界面切換為顯示用戶界面。

13、上述實施例中，通過獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型，從而為后續(xù)對目標(biāo)喚醒識別模型進行針對性的更新提供了基礎(chǔ)框架。通過在滿足模型參數(shù)更新條件的情況下，獲取預(yù)設(shè)時段內(nèi)目標(biāo)語音交互數(shù)據(jù)對應(yīng)的各聲源對象的語音特征，以及獲取聲源對象對應(yīng)的目標(biāo)喚醒頻次，為目標(biāo)喚醒識別模型的更新提供了適配于當(dāng)前應(yīng)用場景下的基礎(chǔ)數(shù)據(jù)。通過從聲源對象的目標(biāo)喚醒頻次和聲源對象的語音特征這兩個維度，對目標(biāo)喚醒識別模型的模型參數(shù)進行調(diào)整，一方面可以使得目標(biāo)喚醒識別模型更適配于當(dāng)前應(yīng)用場景，提高了該應(yīng)用場景下目標(biāo)喚醒識別模型的識別精度，另一方面可以基于目標(biāo)喚醒頻次，優(yōu)先關(guān)注高頻出現(xiàn)的語音特征，有利于提高活躍聲源對象的識別敏感性。通過獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù)；將當(dāng)前語音交互數(shù)據(jù)輸入至目標(biāo)喚醒識別模型中，得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果；在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下，控制顯示器由顯示待機界面切換為顯示用戶界面，從而實現(xiàn)了對當(dāng)前語音交互數(shù)據(jù)的準確識別，有利于提高語音喚醒的準確性。

14、在一些實施例中，控制器在執(zhí)行根據(jù)各聲源對象的目標(biāo)喚醒頻次和相應(yīng)聲源對象的語音特征，對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整時，被配置為：針對每一聲源對象，根據(jù)聲源對象的目標(biāo)喚醒頻次在總目標(biāo)喚醒頻次中的目標(biāo)占比，確定聲源對象的每一語音特征的特征權(quán)重；總目標(biāo)喚醒頻次為各聲源對象的目標(biāo)喚醒頻次之和；針對各聲源對象的每一語音特征，獲取語音特征對應(yīng)的基準模型參數(shù)；基準模型參數(shù)是通過樣本語音交互數(shù)據(jù)對待訓(xùn)練的目標(biāo)喚醒識別模型進行訓(xùn)練得到的；根據(jù)語音特征的特征權(quán)重，對語音特征的基準模型參數(shù)進行加權(quán)，得到語音特征的目標(biāo)模型參數(shù)；根據(jù)各聲源對象的不同語音特征的目標(biāo)模型參數(shù)，對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整。

15、上述實施例中，通過根據(jù)聲源對象的目標(biāo)喚醒頻次在總目標(biāo)喚醒頻次中的目標(biāo)占比，確定聲源對象的每一語音特征的特征權(quán)重，從而實現(xiàn)了對每一語音特征所對應(yīng)喚醒頻次差異的量化，形成了特征重要性梯度，為差異化參數(shù)優(yōu)化提供了量化依據(jù)。通過針對各聲源對象的每一語音特征，獲取語音特征對應(yīng)的基準模型參數(shù)，從而為后續(xù)加權(quán)計算提供了相應(yīng)的基準參考。由于基準模型參數(shù)是通過具有語音特征的樣本語音交互數(shù)據(jù)，對待訓(xùn)練的目標(biāo)喚醒識別模型進行訓(xùn)練得到的，從而提高了語音特征與其相應(yīng)基準模型參數(shù)之間的匹配性。通過根據(jù)語音特征的特征權(quán)重，對語音特征的基準模型參數(shù)進行加權(quán)，得到語音特征的目標(biāo)模型參數(shù)，以及根據(jù)各聲源對象的不同語音特征的目標(biāo)模型參數(shù)，對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整，從而使得越高頻次出現(xiàn)的語音特征在參數(shù)空間中產(chǎn)生越顯著的梯度更新方向，進而使得更新后目標(biāo)喚醒識別模型能夠適配當(dāng)前應(yīng)用場景，有利于提高語音喚醒的準確性。

16、在一些實施例中，基準模型參數(shù)為目標(biāo)喚醒識別模型中對應(yīng)固定模型參數(shù)的增量模型參數(shù)；在對目標(biāo)喚醒識別模型訓(xùn)練過程中，保持目標(biāo)喚醒識別模型中的固定模型參數(shù)不變，并調(diào)整增量模型參數(shù)；相應(yīng)的，控制器在執(zhí)行根據(jù)各聲源對象的不同語音特征的目標(biāo)模型參數(shù)，對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整時，被配置為：針對每一固定模型參數(shù)，將固定模型參數(shù)對應(yīng)的各目標(biāo)模型參數(shù)進行參數(shù)融合，得到融合模型參數(shù)；將融合模型參數(shù)與固定模型參數(shù)進行參數(shù)融合，以對目標(biāo)喚醒識別模型中模型參數(shù)進行調(diào)整。

17、上述實施例中，通過引入增量模型參數(shù)，并且在對目標(biāo)喚醒識別模型訓(xùn)練過程中，保持目標(biāo)喚醒識別模型中的增量模型參數(shù)不變，調(diào)整新增模型參數(shù)，從而減少了計算資源占用，降低了時間成本。通過針對每一固定模型參數(shù)，將固定模型參數(shù)對應(yīng)的各目標(biāo)模型參數(shù)進行參數(shù)融合，從而可以快速得到與固定模型參數(shù)對應(yīng)的融合模型參數(shù)。通過將融合模型參數(shù)與固定模型參數(shù)進行參數(shù)融合，從而實現(xiàn)了對目標(biāo)喚醒識別模型中模型參數(shù)的調(diào)整，無需再次進行模型訓(xùn)練，有利于提高目標(biāo)喚醒識別模型的模型更新效率。

18、在一些實施例中，模型參數(shù)更新條件包括以下至少一項：檢測到顯示設(shè)備為首次接入網(wǎng)絡(luò)；觸發(fā)計時器的目標(biāo)定時任務(wù)；目標(biāo)定時任務(wù)用于指示按照預(yù)設(shè)周期或預(yù)設(shè)頻率更新目標(biāo)喚醒識別模型；接收到模型參數(shù)更新操作。

19、上述實施例中，實現(xiàn)了在不同使用場景下對更新目標(biāo)喚醒識別模型的觸發(fā)，有利于提高目標(biāo)喚醒識別模型更新的靈活性。在檢測到顯示設(shè)備為首次接入網(wǎng)絡(luò)的情況下，即針對首次使用場景，對目標(biāo)喚醒識別模型進行模型參數(shù)更新，從而可以使得目標(biāo)喚醒識別模型能夠適配于當(dāng)前應(yīng)用場景。通過設(shè)置計時器的目標(biāo)定時任務(wù)，從而可以實現(xiàn)按照預(yù)設(shè)周期或預(yù)設(shè)頻率更新模型參數(shù)，避免因長期使用固定模型參數(shù)，而無法適應(yīng)于應(yīng)用場景的變化。通過響應(yīng)于模型參數(shù)更新操作，對目標(biāo)喚醒識別模型進行模型參數(shù)更新，從而可以根據(jù)實際需要靈活的進行模型參數(shù)更新。

20、在一些實施例中，控制器還被配置為：在不滿足模型參數(shù)更新條件的情況下，采用預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型識別語音交互數(shù)據(jù)的喚醒識別結(jié)果。

21、上述實施例中，在不滿足模型參數(shù)更新條件的情況下，采用預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型識別當(dāng)前語音交互數(shù)據(jù)的喚醒識別結(jié)果，從而實現(xiàn)了針對語音交互數(shù)據(jù)進行全周期的喚醒識別。

22、在一些實施例中，控制器在執(zhí)行獲取各聲源對象對應(yīng)的目標(biāo)喚醒頻次時，被配置為：針對每一聲源對象，從交互日志記錄中獲取聲源對象的喚醒時間處于預(yù)設(shè)時段內(nèi)的記錄項；獲取各記錄項的數(shù)量，得到聲源對象對應(yīng)的目標(biāo)喚醒頻次；其中，交互日志記錄中記錄有觸發(fā)喚醒結(jié)果對應(yīng)的聲源對象和相應(yīng)喚醒時間。

23、上述實施例中，通過引入交互日志記錄，并且交互日志記錄中記錄有觸發(fā)喚醒結(jié)果對應(yīng)的聲源對象和相應(yīng)喚醒時間，從而便于獲取不同聲源對象在預(yù)設(shè)時段內(nèi)的目標(biāo)喚醒頻次。

24、在一些實施例中，獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù)，包括：調(diào)用聲紋識別模型，以提取目標(biāo)語音交互數(shù)據(jù)中的聲紋數(shù)據(jù)，并識別聲紋數(shù)據(jù)對應(yīng)的聲源對象。

25、上述實施例中，通過提取目標(biāo)語音交互數(shù)據(jù)中的聲紋數(shù)據(jù)，便于從聲紋數(shù)據(jù)中提取基頻和共振峰等聲紋參數(shù)，從而有利于提高聲源對象的識別效率。

26、在一些實施例中，聲源對象的語音特征包括基礎(chǔ)屬性特征和語言地域特征；獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù)，包括：調(diào)用聲紋識別模型，以提取目標(biāo)語音交互數(shù)據(jù)中的聲紋數(shù)據(jù)，并識別聲紋數(shù)據(jù)中聲源對象以及聲源對象的基礎(chǔ)屬性特征；調(diào)用語言識別模型，以提取目標(biāo)語音交互數(shù)據(jù)中聲源對象的地域特征詞匯，識別地域特征詞匯對應(yīng)的語言地域特征。

27、上述實施例中，由于聲源對象的語音特征包括基礎(chǔ)屬性特征，從而使得更新后目標(biāo)喚醒識別模型能夠提高對不同年齡和性別等維度的識別響應(yīng)。由于聲源對象的語音特征包括語言地域特征，從而使得更新后目標(biāo)喚醒識別模型能夠減少因方言口音導(dǎo)致的漏喚醒問題。

28、第二方面，一些實施例中提供了一種顯示設(shè)備的喚醒方法，包括：

29、獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型；

30、在滿足模型參數(shù)更新條件的情況下，獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù)；目標(biāo)語音交互數(shù)據(jù)為預(yù)設(shè)時段內(nèi)顯示設(shè)備的音頻輸入接口采集的語音交互數(shù)據(jù)；語音屬性數(shù)據(jù)包括至少一個聲源對象和相應(yīng)聲源對象的語音特征；

31、獲取各聲源對象對應(yīng)的目標(biāo)喚醒頻次；聲源對象對應(yīng)的目標(biāo)喚醒頻次為聲源對象在預(yù)設(shè)時段內(nèi)喚醒顯示設(shè)備的顯示器的頻次；

32、根據(jù)各聲源對象的目標(biāo)喚醒頻次和相應(yīng)聲源對象的語音特征，對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整，以更新目標(biāo)喚醒識別模型；

33、獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù)；

34、將當(dāng)前語音交互數(shù)據(jù)輸入至更新后的目標(biāo)喚醒識別模型中，得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果；喚醒識別結(jié)果包括未觸發(fā)喚醒結(jié)果和觸發(fā)喚醒結(jié)果；

35、在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下，控制顯示器由顯示待機界面切換為顯示用戶界面。

36、上述實施例中，通過獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型，從而為后續(xù)對目標(biāo)喚醒識別模型進行針對性的更新提供了基礎(chǔ)框架。通過在滿足模型參數(shù)更新條件的情況下，獲取預(yù)設(shè)時段內(nèi)目標(biāo)語音交互數(shù)據(jù)對應(yīng)的各聲源對象的語音特征，以及獲取聲源對象對應(yīng)的目標(biāo)喚醒頻次，為目標(biāo)喚醒識別模型的更新提供了適配于當(dāng)前應(yīng)用場景下的基礎(chǔ)數(shù)據(jù)。通過從聲源對象的目標(biāo)喚醒頻次和聲源對象的語音特征這兩個維度，對目標(biāo)喚醒識別模型的模型參數(shù)進行調(diào)整，一方面可以使得目標(biāo)喚醒識別模型更適配于當(dāng)前應(yīng)用場景，提高了該應(yīng)用場景下目標(biāo)喚醒識別模型的識別精度，另一方面可以基于目標(biāo)喚醒頻次，優(yōu)先關(guān)注高頻出現(xiàn)的語音特征，有利于提高活躍聲源對象的識別敏感性。通過獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù)；將當(dāng)前語音交互數(shù)據(jù)輸入至目標(biāo)喚醒識別模型中，得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果；在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下，控制顯示器由顯示待機界面切換為顯示用戶界面，從而實現(xiàn)了對當(dāng)前語音交互數(shù)據(jù)的準確識別，有利于提高語音喚醒的準確性。

37、第三方面，一些實施例中提供了一種顯示設(shè)備的喚醒裝置，包括：

38、第一獲取模塊，用于獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型；

39、第二獲取模塊，在滿足模型參數(shù)更新條件的情況下，獲取目標(biāo)語音交互數(shù)據(jù)對應(yīng)的語音屬性數(shù)據(jù)；目標(biāo)語音交互數(shù)據(jù)為預(yù)設(shè)時段內(nèi)顯示設(shè)備的音頻輸入接口采集的語音交互數(shù)據(jù)；語音屬性數(shù)據(jù)包括至少一個聲源對象和相應(yīng)聲源對象的語音特征；

40、第三獲取模塊，獲取各聲源對象對應(yīng)的目標(biāo)喚醒頻次；聲源對象對應(yīng)的目標(biāo)喚醒頻次為聲源對象在預(yù)設(shè)時段內(nèi)喚醒顯示設(shè)備的顯示器的頻次；

41、更新模塊，根據(jù)各聲源對象的目標(biāo)喚醒頻次和相應(yīng)聲源對象的語音特征，對目標(biāo)喚醒識別模型中的模型參數(shù)進行調(diào)整，以更新目標(biāo)喚醒識別模型；

42、第四獲取模塊，獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù)；

43、輸入模塊，將當(dāng)前語音交互數(shù)據(jù)輸入至更新后的目標(biāo)喚醒識別模型中，得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果；喚醒識別結(jié)果包括未觸發(fā)喚醒結(jié)果和觸發(fā)喚醒結(jié)果；

44、控制模塊，在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下，控制顯示器由顯示待機界面切換為顯示用戶界面。

45、上述實施例中，通過獲取預(yù)先訓(xùn)練好的目標(biāo)喚醒識別模型，從而為后續(xù)對目標(biāo)喚醒識別模型進行針對性的更新提供了基礎(chǔ)框架。通過在滿足模型參數(shù)更新條件的情況下，獲取預(yù)設(shè)時段內(nèi)目標(biāo)語音交互數(shù)據(jù)對應(yīng)的各聲源對象的語音特征，以及獲取聲源對象對應(yīng)的目標(biāo)喚醒頻次，為目標(biāo)喚醒識別模型的更新提供了適配于當(dāng)前應(yīng)用場景下的基礎(chǔ)數(shù)據(jù)。通過從聲源對象的目標(biāo)喚醒頻次和聲源對象的語音特征這兩個維度，對目標(biāo)喚醒識別模型的模型參數(shù)進行調(diào)整，一方面可以使得目標(biāo)喚醒識別模型更適配于當(dāng)前應(yīng)用場景，提高了該應(yīng)用場景下目標(biāo)喚醒識別模型的識別精度，另一方面可以基于目標(biāo)喚醒頻次，優(yōu)先關(guān)注高頻出現(xiàn)的語音特征，有利于提高活躍聲源對象的識別敏感性。通過獲取音頻輸入接口在當(dāng)前時刻下采集的當(dāng)前語音交互數(shù)據(jù)；將當(dāng)前語音交互數(shù)據(jù)輸入至目標(biāo)喚醒識別模型中，得到當(dāng)前語音交互數(shù)據(jù)對應(yīng)的喚醒識別結(jié)果；在喚醒識別結(jié)果為觸發(fā)喚醒結(jié)果的情況下，控制顯示器由顯示待機界面切換為顯示用戶界面，從而實現(xiàn)了對當(dāng)前語音交互數(shù)據(jù)的準確識別，有利于提高語音喚醒的準確性。

46、第四方面，本技術(shù)還提供了一種計算機設(shè)備，包括存儲器和處理器，存儲器存儲有計算機程序，處理器執(zhí)行計算機程序時實現(xiàn)上述第二方面在各種可能方式下的方法。

47、第五方面，本技術(shù)還提供了一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，計算機程序被處理器執(zhí)行時實現(xiàn)上述第二方面在各種可能方式下的方法。

48、第六方面，本技術(shù)還提供了一種計算機程序產(chǎn)品，包括計算機程序，該計算機程序被處理器執(zhí)行時實現(xiàn)上述第二方面在各種可能方式下的方法。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：潘程,馬明
技術(shù)所有人：海信視像科技股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

顯示設(shè)備及其喚醒方法和裝置與流程