aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

一種基于喉震信號分析的語音生成方法及系統(tǒng)與流程

文檔序號:42854891發(fā)布日期:2025-08-26 19:09閱讀:12來源:國知局

本技術(shù)涉及語言合成,尤其涉及一種基于喉震信號分析的語音生成方法及系統(tǒng)。


背景技術(shù):

1、當(dāng)前語音生成技術(shù)已從基于規(guī)則的系統(tǒng)(如早期的規(guī)則驅(qū)動格式合成器)逐步演進至深度學(xué)習(xí)驅(qū)動的端到端模型。傳統(tǒng)語音合成依賴于預(yù)定義的語音庫和聲學(xué)模型,難以實現(xiàn)個性化聲音克隆和情感適配。

2、近年來,基于深度學(xué)習(xí)的端到端建模技術(shù)(如tacotron?2和wavenet架構(gòu))通過直接學(xué)習(xí)文本到語音的映射關(guān)系,顯著提升了語音的自然度和流暢性。然而,現(xiàn)有技術(shù)仍面臨個性化語音克隆精度不足、情感表達(dá)單一等問題。


技術(shù)實現(xiàn)思路

1、基于此,有必要針對上述技術(shù)問題,提供一種能夠解決語音克隆精度不足、情感表達(dá)單一問題的基于喉震信號分析的語音生成方法及系統(tǒng)。

2、第一方面,本技術(shù)提供一種基于喉震信號分析的語音生成方法,所述方法包括:

3、通過喉振發(fā)聲器采集喉震信號,所述喉震信號中攜帶有振動、壓力以及聲音多維度數(shù)據(jù);

4、將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對,并根據(jù)比對結(jié)果,對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn),得到校準(zhǔn)后的喉震信號;

5、從所述喉震信號提取音頻信號,通過iceemdan算法,提取音頻信號特征,并根據(jù)所述音頻信號特征,通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài);

6、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號,并將所述數(shù)字信號轉(zhuǎn)換為文本信息;

7、根據(jù)轉(zhuǎn)換后的文本信息,通過文本轉(zhuǎn)語音技術(shù),結(jié)合所述情感狀態(tài)及選擇的音色,合成并輸出語音。

8、在其中一個實施例中,所述將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對之前,還包括:

9、對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行濾波處理;

10、通過降噪算法,對濾波處理后的所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行去噪。

11、在其中一個實施例中,所述根據(jù)比對結(jié)果,對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn),得到校準(zhǔn)后的喉震信號之后,還包括:

12、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為電信號,并將所述電信號進行壓縮及加密處理;

13、根據(jù)處理后的電信號,建立私有數(shù)據(jù)庫,存儲用戶個性化喉震數(shù)據(jù)。

14、在其中一個實施例中,所述從所述喉震信號提取音頻信號,通過iceemdan算法,提取音頻信號特征,并根據(jù)所述音頻信號特征,通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài)包括:

15、從所述喉震信號提取音頻信號,通過iceemdan算法,將所述音頻信號分解成多個內(nèi)稟模式;

16、提取每個內(nèi)稟模式的多個特征,所述內(nèi)稟模式的多個特征包括統(tǒng)計參數(shù)、中心頻率、能量、峰值幅度以及排列熵;

17、根據(jù)所述每個內(nèi)稟模式的多個特征,通過支持向量機進行分類,識別用戶當(dāng)前發(fā)聲的情感狀態(tài)。

18、在其中一個實施例中,所述根據(jù)轉(zhuǎn)換后的文本信息,通過文本轉(zhuǎn)語音技術(shù),結(jié)合所述情感狀態(tài)及選擇的音色,合成并輸出語音包括:

19、通過文本轉(zhuǎn)語音技術(shù),將所述音頻信號映射到低維的潛在空間,得到參考語音的潛在表示;

20、將所述轉(zhuǎn)換后的文本信息映射到與所述參考語音一致的潛在表示,得到文本的潛在表示;

21、根據(jù)所述參考語音的潛在表示及所述文本的潛在表示,通過訓(xùn)練的持續(xù)時間預(yù)測器,估計語音的持續(xù)時間;

22、結(jié)合所述情感狀態(tài)及選擇的音色,將所述文本的潛在表示及所述語音的持續(xù)時間輸入到訓(xùn)練的語音自動編碼器,合成并輸出語音。

23、在其中一個實施例中,所述將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號,并將所述數(shù)字信號轉(zhuǎn)換為文本信息包括:

24、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號;

25、將所述數(shù)字信號解碼為原始語音特征,并通過聲學(xué)模型,將所述原始語音特征映射為音素,得到音素序列;

26、根據(jù)所述音素序列,通過統(tǒng)計語言模型,預(yù)測詞匯序列,并根據(jù)所述詞匯序列,生成文本信息。

27、在其中一個實施例中,所述將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號包括:

28、所述校準(zhǔn)后的喉震信號通過采樣器以預(yù)設(shè)頻率采集離散時間點的幅度值;

29、通過量化方法,將采樣后的連續(xù)幅度值近似為有限數(shù)量的離散值;

30、將量化后的離散值轉(zhuǎn)換為二進制碼流,形成數(shù)字信號。

31、第二方面,本技術(shù)還提供了一種基于喉震信號分析的語音生成裝置。所述裝置包括:

32、喉震信號采集模塊,用于通過喉振發(fā)聲器采集喉震信號,所述喉震信號中攜帶有振動、壓力以及聲音多維度數(shù)據(jù);

33、數(shù)據(jù)校準(zhǔn)模塊,用于將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對,并根據(jù)比對結(jié)果,對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn),得到校準(zhǔn)后的喉震信號;

34、情感狀態(tài)識別模塊,用于從所述喉震信號提取音頻信號,通過iceemdan算法,提取音頻信號特征,并根據(jù)所述音頻信號特征,通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài);

35、喉震信號轉(zhuǎn)換模塊,用于將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號,并將所述數(shù)字信號轉(zhuǎn)換為文本信息;

36、語音合成模塊,用于根據(jù)轉(zhuǎn)換后的文本信息,通過文本轉(zhuǎn)語音技術(shù),結(jié)合所述情感狀態(tài)及選擇的音色,合成并輸出語音。

37、第三方面,本技術(shù)還提供了一種計算機設(shè)備。所述計算機設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)以下步驟:

38、通過喉振發(fā)聲器采集喉震信號,所述喉震信號中攜帶有振動、壓力以及聲音多維度數(shù)據(jù);

39、將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對,并根據(jù)比對結(jié)果,對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn),得到校準(zhǔn)后的喉震信號;

40、從所述喉震信號提取音頻信號,通過iceemdan算法,提取音頻信號特征,并根據(jù)所述音頻信號特征,通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài);

41、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號,并將所述數(shù)字信號轉(zhuǎn)換為文本信息;

42、根據(jù)轉(zhuǎn)換后的文本信息,通過文本轉(zhuǎn)語音技術(shù),結(jié)合所述情感狀態(tài)及選擇的音色,合成并輸出語音。

43、第四方面,本技術(shù)還提供了一種計算機可讀存儲介質(zhì)。所述計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:

44、通過喉振發(fā)聲器采集喉震信號,所述喉震信號中攜帶有振動、壓力以及聲音多維度數(shù)據(jù);

45、將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對,并根據(jù)比對結(jié)果,對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn),得到校準(zhǔn)后的喉震信號;

46、從所述喉震信號提取音頻信號,通過iceemdan算法,提取音頻信號特征,并根據(jù)所述音頻信號特征,通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài);

47、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號,并將所述數(shù)字信號轉(zhuǎn)換為文本信息;

48、根據(jù)轉(zhuǎn)換后的文本信息,通過文本轉(zhuǎn)語音技術(shù),結(jié)合所述情感狀態(tài)及選擇的音色,合成并輸出語音。

49、綜上所述,本技術(shù)包括以下有益技術(shù)效果:

50、通過采集喉震信號中的振動、壓力及聲音多維度數(shù)據(jù),并結(jié)合標(biāo)準(zhǔn)數(shù)據(jù)庫進行多維校準(zhǔn),顯著提升了語音克隆的準(zhǔn)確性,使合成語音在音色、語調(diào)、發(fā)音習(xí)慣等方面與用戶真實聲音極為相似;通過iceemdan算法,提取喉震信號特征,并通過分類模型實時識別用戶當(dāng)前發(fā)聲的情感狀態(tài),實現(xiàn)了快速響應(yīng)的語音合成及高準(zhǔn)確率的情感識別;結(jié)合情感狀態(tài)及選擇的音色,合成并輸出語音,增強了語音合成的表現(xiàn)力和感染力,實現(xiàn)了情感豐富的語音表達(dá)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1