本技術(shù)涉及語言合成,尤其涉及一種基于喉震信號分析的語音生成方法及系統(tǒng)。
背景技術(shù):
1、當(dāng)前語音生成技術(shù)已從基于規(guī)則的系統(tǒng)(如早期的規(guī)則驅(qū)動格式合成器)逐步演進至深度學(xué)習(xí)驅(qū)動的端到端模型。傳統(tǒng)語音合成依賴于預(yù)定義的語音庫和聲學(xué)模型,難以實現(xiàn)個性化聲音克隆和情感適配。
2、近年來,基于深度學(xué)習(xí)的端到端建模技術(shù)(如tacotron?2和wavenet架構(gòu))通過直接學(xué)習(xí)文本到語音的映射關(guān)系,顯著提升了語音的自然度和流暢性。然而,現(xiàn)有技術(shù)仍面臨個性化語音克隆精度不足、情感表達(dá)單一等問題。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種能夠解決語音克隆精度不足、情感表達(dá)單一問題的基于喉震信號分析的語音生成方法及系統(tǒng)。
2、第一方面,本技術(shù)提供一種基于喉震信號分析的語音生成方法,所述方法包括:
3、通過喉振發(fā)聲器采集喉震信號,所述喉震信號中攜帶有振動、壓力以及聲音多維度數(shù)據(jù);
4、將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對,并根據(jù)比對結(jié)果,對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn),得到校準(zhǔn)后的喉震信號;
5、從所述喉震信號提取音頻信號,通過iceemdan算法,提取音頻信號特征,并根據(jù)所述音頻信號特征,通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài);
6、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號,并將所述數(shù)字信號轉(zhuǎn)換為文本信息;
7、根據(jù)轉(zhuǎn)換后的文本信息,通過文本轉(zhuǎn)語音技術(shù),結(jié)合所述情感狀態(tài)及選擇的音色,合成并輸出語音。
8、在其中一個實施例中,所述將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對之前,還包括:
9、對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行濾波處理;
10、通過降噪算法,對濾波處理后的所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行去噪。
11、在其中一個實施例中,所述根據(jù)比對結(jié)果,對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn),得到校準(zhǔn)后的喉震信號之后,還包括:
12、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為電信號,并將所述電信號進行壓縮及加密處理;
13、根據(jù)處理后的電信號,建立私有數(shù)據(jù)庫,存儲用戶個性化喉震數(shù)據(jù)。
14、在其中一個實施例中,所述從所述喉震信號提取音頻信號,通過iceemdan算法,提取音頻信號特征,并根據(jù)所述音頻信號特征,通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài)包括:
15、從所述喉震信號提取音頻信號,通過iceemdan算法,將所述音頻信號分解成多個內(nèi)稟模式;
16、提取每個內(nèi)稟模式的多個特征,所述內(nèi)稟模式的多個特征包括統(tǒng)計參數(shù)、中心頻率、能量、峰值幅度以及排列熵;
17、根據(jù)所述每個內(nèi)稟模式的多個特征,通過支持向量機進行分類,識別用戶當(dāng)前發(fā)聲的情感狀態(tài)。
18、在其中一個實施例中,所述根據(jù)轉(zhuǎn)換后的文本信息,通過文本轉(zhuǎn)語音技術(shù),結(jié)合所述情感狀態(tài)及選擇的音色,合成并輸出語音包括:
19、通過文本轉(zhuǎn)語音技術(shù),將所述音頻信號映射到低維的潛在空間,得到參考語音的潛在表示;
20、將所述轉(zhuǎn)換后的文本信息映射到與所述參考語音一致的潛在表示,得到文本的潛在表示;
21、根據(jù)所述參考語音的潛在表示及所述文本的潛在表示,通過訓(xùn)練的持續(xù)時間預(yù)測器,估計語音的持續(xù)時間;
22、結(jié)合所述情感狀態(tài)及選擇的音色,將所述文本的潛在表示及所述語音的持續(xù)時間輸入到訓(xùn)練的語音自動編碼器,合成并輸出語音。
23、在其中一個實施例中,所述將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號,并將所述數(shù)字信號轉(zhuǎn)換為文本信息包括:
24、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號;
25、將所述數(shù)字信號解碼為原始語音特征,并通過聲學(xué)模型,將所述原始語音特征映射為音素,得到音素序列;
26、根據(jù)所述音素序列,通過統(tǒng)計語言模型,預(yù)測詞匯序列,并根據(jù)所述詞匯序列,生成文本信息。
27、在其中一個實施例中,所述將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號包括:
28、所述校準(zhǔn)后的喉震信號通過采樣器以預(yù)設(shè)頻率采集離散時間點的幅度值;
29、通過量化方法,將采樣后的連續(xù)幅度值近似為有限數(shù)量的離散值;
30、將量化后的離散值轉(zhuǎn)換為二進制碼流,形成數(shù)字信號。
31、第二方面,本技術(shù)還提供了一種基于喉震信號分析的語音生成裝置。所述裝置包括:
32、喉震信號采集模塊,用于通過喉振發(fā)聲器采集喉震信號,所述喉震信號中攜帶有振動、壓力以及聲音多維度數(shù)據(jù);
33、數(shù)據(jù)校準(zhǔn)模塊,用于將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對,并根據(jù)比對結(jié)果,對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn),得到校準(zhǔn)后的喉震信號;
34、情感狀態(tài)識別模塊,用于從所述喉震信號提取音頻信號,通過iceemdan算法,提取音頻信號特征,并根據(jù)所述音頻信號特征,通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài);
35、喉震信號轉(zhuǎn)換模塊,用于將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號,并將所述數(shù)字信號轉(zhuǎn)換為文本信息;
36、語音合成模塊,用于根據(jù)轉(zhuǎn)換后的文本信息,通過文本轉(zhuǎn)語音技術(shù),結(jié)合所述情感狀態(tài)及選擇的音色,合成并輸出語音。
37、第三方面,本技術(shù)還提供了一種計算機設(shè)備。所述計算機設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)以下步驟:
38、通過喉振發(fā)聲器采集喉震信號,所述喉震信號中攜帶有振動、壓力以及聲音多維度數(shù)據(jù);
39、將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對,并根據(jù)比對結(jié)果,對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn),得到校準(zhǔn)后的喉震信號;
40、從所述喉震信號提取音頻信號,通過iceemdan算法,提取音頻信號特征,并根據(jù)所述音頻信號特征,通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài);
41、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號,并將所述數(shù)字信號轉(zhuǎn)換為文本信息;
42、根據(jù)轉(zhuǎn)換后的文本信息,通過文本轉(zhuǎn)語音技術(shù),結(jié)合所述情感狀態(tài)及選擇的音色,合成并輸出語音。
43、第四方面,本技術(shù)還提供了一種計算機可讀存儲介質(zhì)。所述計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:
44、通過喉振發(fā)聲器采集喉震信號,所述喉震信號中攜帶有振動、壓力以及聲音多維度數(shù)據(jù);
45、將所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的喉震數(shù)據(jù)進行比對,并根據(jù)比對結(jié)果,對所述振動、所述壓力以及所述聲音多維度數(shù)據(jù)進行校準(zhǔn),得到校準(zhǔn)后的喉震信號;
46、從所述喉震信號提取音頻信號,通過iceemdan算法,提取音頻信號特征,并根據(jù)所述音頻信號特征,通過分類模型識別用戶當(dāng)前發(fā)聲的情感狀態(tài);
47、將所述校準(zhǔn)后的喉震信號轉(zhuǎn)換為數(shù)字信號,并將所述數(shù)字信號轉(zhuǎn)換為文本信息;
48、根據(jù)轉(zhuǎn)換后的文本信息,通過文本轉(zhuǎn)語音技術(shù),結(jié)合所述情感狀態(tài)及選擇的音色,合成并輸出語音。
49、綜上所述,本技術(shù)包括以下有益技術(shù)效果:
50、通過采集喉震信號中的振動、壓力及聲音多維度數(shù)據(jù),并結(jié)合標(biāo)準(zhǔn)數(shù)據(jù)庫進行多維校準(zhǔn),顯著提升了語音克隆的準(zhǔn)確性,使合成語音在音色、語調(diào)、發(fā)音習(xí)慣等方面與用戶真實聲音極為相似;通過iceemdan算法,提取喉震信號特征,并通過分類模型實時識別用戶當(dāng)前發(fā)聲的情感狀態(tài),實現(xiàn)了快速響應(yīng)的語音合成及高準(zhǔn)確率的情感識別;結(jié)合情感狀態(tài)及選擇的音色,合成并輸出語音,增強了語音合成的表現(xiàn)力和感染力,實現(xiàn)了情感豐富的語音表達(dá)。