一種基于喉震信號分析的語音生成方法及系統(tǒng)與流程

文檔序號：42854891發(fā)布日期：2025-08-26 19:09閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本技術(shù)涉及語言合成，尤其涉及一種基于喉震信號分析的語音生成方法及系統(tǒng)。

背景技術(shù)：

1、當(dāng)前語音生成技術(shù)已從基于規(guī)則的系統(tǒng)（如早期的規(guī)則驅(qū)動格式合成器）逐步演進至深度學(xué)習(xí)驅(qū)動的端到端模型。傳統(tǒng)語音合成依賴于預(yù)定義的語音庫和聲學(xué)模型，難以實現(xiàn)個性化聲音克隆和情感適配。

2、近年來，基于深度學(xué)習(xí)的端到端建模技術(shù)（如tacotron?2和wavenet架構(gòu)）通過直接學(xué)習(xí)文本到語音的映射關(guān)系，顯著提升了語音的自然度和流暢性。然而，現(xiàn)有技術(shù)仍面臨個性化語音克隆精度不足、情感表達(dá)單一等問題。

技術(shù)實現(xiàn)思路

1、基于此，有必要針對上述技術(shù)問題，提供一種能夠解決語音克隆精度不足、情感表達(dá)單一問題的基于喉震信號分析的語音生成方法及系統(tǒng)。

2、第一方面，本技術(shù)提供一種基于喉震信號分析的語音生成方法，所述方法包括：

3、通過喉振發(fā)聲器采集喉震信號，所述喉震信號中攜帶有振動、壓力以及聲音多維度數(shù)據(jù)；

4、將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對，并根據(jù)比對結(jié)果，對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn)，得到校準(zhǔn)后的喉震信號；

5、從所述喉震信號提取音頻信號，通過iceemdan算法，提取音頻信號特征，并根據(jù)所述音頻信號特征，通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài)；

6、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號，并將所述數(shù)字信號轉(zhuǎn)換為文本信息；

7、根據(jù)轉(zhuǎn)換后的文本信息，通過文本轉(zhuǎn)語音技術(shù)，結(jié)合所述情感狀態(tài)及選擇的音色，合成并輸出語音。

8、在其中一個實施例中，所述將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對之前，還包括：

9、對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行濾波處理；

10、通過降噪算法，對濾波處理后的所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行去噪。

11、在其中一個實施例中，所述根據(jù)比對結(jié)果，對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn)，得到校準(zhǔn)后的喉震信號之后，還包括：

12、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為電信號，并將所述電信號進行壓縮及加密處理；

13、根據(jù)處理后的電信號，建立私有數(shù)據(jù)庫，存儲用戶個性化喉震數(shù)據(jù)。

14、在其中一個實施例中，所述從所述喉震信號提取音頻信號，通過iceemdan算法，提取音頻信號特征，并根據(jù)所述音頻信號特征，通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài)包括：

15、從所述喉震信號提取音頻信號，通過iceemdan算法，將所述音頻信號分解成多個內(nèi)稟模式；

16、提取每個內(nèi)稟模式的多個特征，所述內(nèi)稟模式的多個特征包括統(tǒng)計參數(shù)、中心頻率、能量、峰值幅度以及排列熵；

17、根據(jù)所述每個內(nèi)稟模式的多個特征，通過支持向量機進行分類，識別用戶當(dāng)前發(fā)聲的情感狀態(tài)。

18、在其中一個實施例中，所述根據(jù)轉(zhuǎn)換后的文本信息，通過文本轉(zhuǎn)語音技術(shù)，結(jié)合所述情感狀態(tài)及選擇的音色，合成并輸出語音包括：

19、通過文本轉(zhuǎn)語音技術(shù)，將所述音頻信號映射到低維的潛在空間，得到參考語音的潛在表示；

20、將所述轉(zhuǎn)換后的文本信息映射到與所述參考語音一致的潛在表示，得到文本的潛在表示；

21、根據(jù)所述參考語音的潛在表示及所述文本的潛在表示，通過訓(xùn)練的持續(xù)時間預(yù)測器，估計語音的持續(xù)時間；

22、結(jié)合所述情感狀態(tài)及選擇的音色，將所述文本的潛在表示及所述語音的持續(xù)時間輸入到訓(xùn)練的語音自動編碼器，合成并輸出語音。

23、在其中一個實施例中，所述將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號，并將所述數(shù)字信號轉(zhuǎn)換為文本信息包括：

24、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號；

25、將所述數(shù)字信號解碼為原始語音特征，并通過聲學(xué)模型，將所述原始語音特征映射為音素，得到音素序列；

26、根據(jù)所述音素序列，通過統(tǒng)計語言模型，預(yù)測詞匯序列，并根據(jù)所述詞匯序列，生成文本信息。

27、在其中一個實施例中，所述將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號包括：

28、所述校準(zhǔn)后的喉震信號通過采樣器以預(yù)設(shè)頻率采集離散時間點的幅度值；

29、通過量化方法，將采樣后的連續(xù)幅度值近似為有限數(shù)量的離散值；

30、將量化后的離散值轉(zhuǎn)換為二進制碼流，形成數(shù)字信號。

31、第二方面，本技術(shù)還提供了一種基于喉震信號分析的語音生成裝置。所述裝置包括：

32、喉震信號采集模塊，用于通過喉振發(fā)聲器采集喉震信號，所述喉震信號中攜帶有振動、壓力以及聲音多維度數(shù)據(jù)；

33、數(shù)據(jù)校準(zhǔn)模塊，用于將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對，并根據(jù)比對結(jié)果，對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn)，得到校準(zhǔn)后的喉震信號；

34、情感狀態(tài)識別模塊，用于從所述喉震信號提取音頻信號，通過iceemdan算法，提取音頻信號特征，并根據(jù)所述音頻信號特征，通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài)；

35、喉震信號轉(zhuǎn)換模塊，用于將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號，并將所述數(shù)字信號轉(zhuǎn)換為文本信息；

36、語音合成模塊，用于根據(jù)轉(zhuǎn)換后的文本信息，通過文本轉(zhuǎn)語音技術(shù)，結(jié)合所述情感狀態(tài)及選擇的音色，合成并輸出語音。

37、第三方面，本技術(shù)還提供了一種計算機設(shè)備。所述計算機設(shè)備包括存儲器和處理器，所述存儲器存儲有計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)以下步驟：

38、通過喉振發(fā)聲器采集喉震信號，所述喉震信號中攜帶有振動、壓力以及聲音多維度數(shù)據(jù)；

39、將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對，并根據(jù)比對結(jié)果，對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn)，得到校準(zhǔn)后的喉震信號；

40、從所述喉震信號提取音頻信號，通過iceemdan算法，提取音頻信號特征，并根據(jù)所述音頻信號特征，通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài)；

41、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號，并將所述數(shù)字信號轉(zhuǎn)換為文本信息；

42、根據(jù)轉(zhuǎn)換后的文本信息，通過文本轉(zhuǎn)語音技術(shù)，結(jié)合所述情感狀態(tài)及選擇的音色，合成并輸出語音。

43、第四方面，本技術(shù)還提供了一種計算機可讀存儲介質(zhì)。所述計算機可讀存儲介質(zhì)，其上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟：

44、通過喉振發(fā)聲器采集喉震信號，所述喉震信號中攜帶有振動、壓力以及聲音多維度數(shù)據(jù)；

45、將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對，并根據(jù)比對結(jié)果，對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn)，得到校準(zhǔn)后的喉震信號；

46、從所述喉震信號提取音頻信號，通過iceemdan算法，提取音頻信號特征，并根據(jù)所述音頻信號特征，通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài)；

47、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號，并將所述數(shù)字信號轉(zhuǎn)換為文本信息；

48、根據(jù)轉(zhuǎn)換后的文本信息，通過文本轉(zhuǎn)語音技術(shù)，結(jié)合所述情感狀態(tài)及選擇的音色，合成并輸出語音。

49、綜上所述，本技術(shù)包括以下有益技術(shù)效果：

50、通過采集喉震信號中的振動、壓力及聲音多維度數(shù)據(jù)，并結(jié)合標(biāo)準(zhǔn)數(shù)據(jù)庫進行多維校準(zhǔn)，顯著提升了語音克隆的準(zhǔn)確性，使合成語音在音色、語調(diào)、發(fā)音習(xí)慣等方面與用戶真實聲音極為相似；通過iceemdan算法，提取喉震信號特征，并通過分類模型實時識別用戶當(dāng)前發(fā)聲的情感狀態(tài)，實現(xiàn)了快速響應(yīng)的語音合成及高準(zhǔn)確率的情感識別；結(jié)合情感狀態(tài)及選擇的音色，合成并輸出語音，增強了語音合成的表現(xiàn)力和感染力，實現(xiàn)了情感豐富的語音表達(dá)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉期武,黎翔,劉軍,余溱
技術(shù)所有人：深圳市富聯(lián)芯微科技有限公司
我是此專利的發(fā)明人

上一篇：一種緊湊輕量型關(guān)節(jié)模組以及機器人的制作方法
下一篇：一種制動器安裝方法及系統(tǒng)與流程

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

一種基于喉震信號分析的語音生成方法及系統(tǒng)與流程