aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

一種數(shù)字人視頻生成方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

文檔序號:42854881發(fā)布日期:2025-08-26 19:09閱讀:9來源:國知局

本發(fā)明涉及數(shù)字人,具體而言,涉及一種數(shù)字人視頻生成方法、裝置、電子設(shè)備及存儲介質(zhì)。


背景技術(shù):

1、近年來,隨著人工智能、計算機圖形學(xué)和深度學(xué)習(xí)技術(shù)的飛速發(fā)展,數(shù)字人技術(shù)已成為元宇宙、智能交互等領(lǐng)域的核心驅(qū)動力。數(shù)字人憑借其可24小時不間斷服務(wù)、多語言交互、形象定制化等優(yōu)勢,在虛擬主播、智能客服、教育培訓(xùn)、影視制作等場景中展現(xiàn)出巨大的應(yīng)用價值。

2、盡管現(xiàn)階段數(shù)字人技術(shù)應(yīng)用前景廣闊,但目前在例如數(shù)字人動作生成技術(shù)上仍面臨諸多技術(shù)挑戰(zhàn),生成的數(shù)字人視頻的真實性難以得到保障。


技術(shù)實現(xiàn)思路

1、本發(fā)明解決的問題是如何提高數(shù)字人視頻的真實性。

2、為解決上述問題,本發(fā)明提供一種數(shù)字人視頻生成方法,包括:

3、根據(jù)獲取的文本信息從預(yù)設(shè)動作模板集中篩選出預(yù)設(shè)動作模板,得到目標動作模板;

4、獲取所述目標動作模板中的每幀動作模板圖像,并基于識別的每幀所述動作模板圖像中各骨骼特征點對應(yīng)的特征點位置,得到各所述骨骼特征點對應(yīng)的位移向量序列;

5、識別獲取的目標數(shù)字人圖像中的各目標骨骼特征點,并基于所述骨骼特征點與所述目標骨骼特征點之間的預(yù)設(shè)映射關(guān)系以及各所述位移向量序列,確定各所述目標骨骼特征點對應(yīng)的目標位移向量序列;

6、將各所述目標位移向量序列以及所述目標數(shù)字人圖像輸入到預(yù)先訓(xùn)練的圖像生成模型中,生成所述目標動作模板對應(yīng)的目標動作圖像,并基于所述目標運動圖像生成數(shù)字人視頻。

7、可選地,在所述識別獲取的目標數(shù)字人圖像中的各目標骨骼特征點之前,還包括:

8、獲取每個歷史對象對應(yīng)的多張歷史圖像;其中,一張所述歷史圖像對應(yīng)一種預(yù)設(shè)的風(fēng)格特征;

9、基于所述歷史圖像提取所述歷史對象的面部特征,將所述歷史對象的面部特征與對應(yīng)的多張所述歷史圖像進行關(guān)聯(lián)得到第一訓(xùn)練數(shù)據(jù)集,并利用所述第一訓(xùn)練數(shù)據(jù)集訓(xùn)練預(yù)設(shè)初始圖像生成模型,得到風(fēng)格遷移模型;

10、基于獲取的目標對象的目標圖像提取所述目標對象的面部特征,將所述目標圖像以及所述目標對象的面部特征輸入到所述風(fēng)格遷移模型中,得到多張數(shù)字人圖像;其中,每張所述數(shù)字人圖像對應(yīng)的面部特征均相同,且風(fēng)格特征均不同;

11、選取至少一張所述數(shù)字人圖像,作為所述目標數(shù)字人圖像。

12、可選地,一個所述預(yù)設(shè)動作模板預(yù)先關(guān)聯(lián)至少一個實體標簽;所述根據(jù)獲取的文本信息從預(yù)設(shè)動作模板集中篩選出預(yù)設(shè)動作模板,得到目標動作模板,包括:

13、對所述文本信息進行分詞處理,得到所述文本信息對應(yīng)的詞語序列;

14、識別所述詞語序列中與所述實體標簽匹配的詞語,得到各觸發(fā)詞語;

15、針對每個所述觸發(fā)詞語,將所述觸發(fā)詞語對應(yīng)的所述實體標簽預(yù)先關(guān)聯(lián)的所述預(yù)設(shè)動作模板,作為該所述各觸發(fā)詞語對應(yīng)的所述目標動作模板。

16、可選地,所述基于識別的每幀所述動作模板圖像中各骨骼特征點對應(yīng)的特征點位置,得到各所述骨骼特征點對應(yīng)的位移向量序列,包括:

17、按照所述目標動作模板中每幀所述動作模板圖像的排序,將每兩個相鄰幀的所述動作模板圖像劃分為一組,得到多個動作模板圖像組構(gòu)成的圖像組序列;

18、針對每個所述骨骼特征點,分別根據(jù)每個所述動作模板圖像組中所述骨骼特征點對應(yīng)的所述特征點位置,得到該所述骨骼特征點在每個所述動作模板圖像組中的位移向量;

19、基于所述圖像組序列中各所述動作模板圖像組的順序,排列對應(yīng)的各所述位移向量,得到該所述骨骼特征點對應(yīng)的所述位移向量序列。

20、可選地,在所述將各所述目標位移向量序列以及所述目標數(shù)字人圖像輸入到預(yù)先訓(xùn)練的圖像生成模型中之前,還包括:

21、獲取多個所述目標動作模板及其對應(yīng)的所述目標位移向量序列;

22、將所述目標動作模板中任一幀所述動作模板圖像以及所述目標動作模板對應(yīng)的所述目標位移向量序列作為輸入,所述目標動作模板作為輸出,構(gòu)建第二訓(xùn)練數(shù)據(jù)集;

23、基于所述第二訓(xùn)練數(shù)據(jù)集訓(xùn)練預(yù)設(shè)初始圖像生成模型,得到所述圖像生成模型。

24、可選地,所述基于所述目標運動圖像生成數(shù)字人視頻,包括:

25、基于預(yù)設(shè)匹配策略分別為所述詞語序列中的每個所述詞語匹配對應(yīng)的目標圖像;其中,所述目標圖像包括所述目標數(shù)字人圖像或所述目標動作圖像;

26、針對每個所述詞語,識別所述詞語對應(yīng)的所述目標圖像中的嘴部區(qū)域,利用目標嘴部圖像覆蓋所述嘴部區(qū)域,得到該所述詞語對應(yīng)的融合圖像;其中,所述目標嘴部圖像包括該所述詞語對應(yīng)的音素預(yù)先關(guān)聯(lián)的嘴部圖像;

27、根據(jù)所述文本信息生成音頻信息,并基于各所述詞語對所述音頻信息和各所述融合圖像進行匹配,得到所述數(shù)字人視頻。

28、可選地,所述基于預(yù)設(shè)匹配策略分別為所述詞語序列中的每個所述詞語匹配對應(yīng)的目標圖像,包括:

29、將基于所述觸發(fā)詞語對應(yīng)的所述目標動作模板生成的所述目標動作圖像作為所述觸發(fā)詞語對應(yīng)的所述目標圖像;

30、將所述目標數(shù)字人圖像作為除所述觸發(fā)詞語以外的所述詞語對應(yīng)的所述目標圖像。

31、在本發(fā)明中,預(yù)設(shè)動作模板集中包含多種預(yù)設(shè)動作模板,根據(jù)獲取的文本信息對其進行針對性篩選,有利于提高目標動作模板選擇的合理性,確保后續(xù)生成的數(shù)字人動作能夠與給定的文本內(nèi)容相匹配,提升了數(shù)字人視頻與文本內(nèi)容的相關(guān)性。在篩選出目標動作模板后,本發(fā)明通過獲取目標動作模板中的每幀動作模板圖像,識別每幀動作模板圖像中各骨骼特征點對應(yīng)的特征點位置,捕捉目標動作模板中模板對象在每幀圖像中的姿態(tài)情況。在此基礎(chǔ)上,基于每幀動作模板圖像中各骨骼特征點對應(yīng)的特征點位置,確定各骨骼特征點對應(yīng)的位移向量序列,掌握目標動作模板中模板對象的姿態(tài)在不同幀之間的變化情況,為后續(xù)目標動作圖像的生成提供了可靠的參考依據(jù)。本發(fā)明通過提前構(gòu)建骨骼特征點與目標骨骼特征點之間的預(yù)設(shè)映射關(guān)系,確保動作模板中的各骨骼特征點與目標數(shù)字人相應(yīng)部位(即各目標骨骼特征點)的準確對應(yīng)。通過識別獲取的目標數(shù)字人圖像中的各目標骨骼特征點,掌握目標數(shù)字人圖像中數(shù)字人的目標骨骼特征點的實際分布情況,并基于預(yù)設(shè)映射關(guān)系以及各位移向量序列,確定各目標骨骼特征點對應(yīng)的目標位移向量序列。有利于確保后續(xù)生成的數(shù)字人視頻中,數(shù)字人能夠做出與動作模板一致的動作,從而有利于確保數(shù)字人動作的真實感和連貫性。在此基礎(chǔ)上,本發(fā)明將目標位移向量序列和目標數(shù)字人圖像輸入到預(yù)先訓(xùn)練的圖像生成模型,生成目標動作模板對應(yīng)的目標動作圖像,實現(xiàn)從目標動作模板到目標動作圖像的動作遷移。如此,本發(fā)明基于目標運動圖像生成數(shù)字人視頻,即可實現(xiàn)文本信息驅(qū)動數(shù)字人視頻的生成。在提高數(shù)字人視頻生成效率的同時,還有利于確保數(shù)字人動作與文本信息的匹配性,提高數(shù)字人動作的合理性以及真實性。

32、本發(fā)明還提供一種數(shù)字人視頻生成裝置,包括:

33、篩選模塊,其用于根據(jù)獲取的文本信息從預(yù)設(shè)動作模板集中篩選出預(yù)設(shè)動作模板,得到目標動作模板;

34、識別模塊,其用于獲取所述目標動作模板中的每幀動作模板圖像,并基于識別的每幀所述動作模板圖像中各骨骼特征點對應(yīng)的特征點位置,得到各所述骨骼特征點對應(yīng)的位移向量序列;

35、映射模塊,其用于識別獲取的目標數(shù)字人圖像中的各目標骨骼特征點,并基于所述骨骼特征點與所述目標骨骼特征點之間的預(yù)設(shè)映射關(guān)系以及各所述位移向量序列,確定各所述目標骨骼特征點對應(yīng)的目標位移向量序列;

36、生成模塊,其用于將各所述目標位移向量序列以及所述目標數(shù)字人圖像輸入到預(yù)先訓(xùn)練的圖像生成模型中,生成所述目標動作模板對應(yīng)的目標動作圖像,并基于所述目標運動圖像生成數(shù)字人視頻。

37、本發(fā)明提供的數(shù)字人視頻生成裝置與所述數(shù)字人視頻生成方法相較于現(xiàn)有技術(shù)的優(yōu)勢基本相同,在此不再贅述。

38、本發(fā)明還提供一種電子設(shè)備,包括存儲器和處理器;

39、所述存儲器用于存儲計算機程序;

40、所述處理器用于當(dāng)執(zhí)行所述計算機程序時,實現(xiàn)如上所述的數(shù)字人視頻生成方法。

41、本發(fā)明提供的電子設(shè)備與所述數(shù)字人視頻生成方法相較于現(xiàn)有技術(shù)的優(yōu)勢基本相同,在此不再贅述。

42、本發(fā)明還提供一種計算機可讀存儲介質(zhì),所述存儲介質(zhì)上存儲有計算機程序,當(dāng)所述計算機程序被處理器執(zhí)行時,實現(xiàn)如上所述的數(shù)字人視頻生成方法。

43、本發(fā)明提供的計算機可讀存儲介質(zhì)與所述數(shù)字人視頻生成方法相較于現(xiàn)有技術(shù)的優(yōu)勢基本相同,在此不再贅述。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1