aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

一種基于人工智能的視頻通訊數(shù)據(jù)高效壓縮方法和系統(tǒng)與流程

文檔序號(hào):42854452發(fā)布日期:2025-08-26 19:08閱讀:6來源:國知局

本發(fā)明涉及視頻壓縮,尤其涉及一種基于人工智能的視頻通訊數(shù)據(jù)高效壓縮方法和系統(tǒng)。


背景技術(shù):

1、隨著遠(yuǎn)程辦公、在線教育、視頻社交等場景的普及,視頻通訊在各類終端設(shè)備中的使用頻率持續(xù)增長,尤其在移動(dòng)端與嵌入式設(shè)備上對(duì)高效壓縮與低帶寬傳輸提出了更高要求。現(xiàn)有視頻壓縮技術(shù)(如h.264/avc、h.265/hevc)主要依賴統(tǒng)一的宏塊劃分和固定或半自適應(yīng)的量化參數(shù)(qp)控制策略,在面對(duì)具有大幅頭部運(yùn)動(dòng)、快速表情變化等情況時(shí),容易出現(xiàn)如下問題:

2、運(yùn)動(dòng)區(qū)域失真嚴(yán)重:傳統(tǒng)方法未能精確識(shí)別由于頭部姿態(tài)變化引起的面部紋理拉伸與壓縮區(qū)域,導(dǎo)致在恒定壓縮參數(shù)下,關(guān)鍵人臉區(qū)域出現(xiàn)模糊、馬賽克等失真現(xiàn)象,嚴(yán)重影響視頻質(zhì)量與人物可識(shí)別度。

3、比特分配不合理:現(xiàn)有壓縮框架大多采用幀內(nèi)或幀間整體復(fù)雜度評(píng)估方式進(jìn)行碼率控制,無法針對(duì)局部重要區(qū)域(如人臉、眼睛、嘴部)進(jìn)行動(dòng)態(tài)比特資源傾斜,造成關(guān)鍵區(qū)域壓縮過度而背景區(qū)域資源浪費(fèi)。

4、缺乏對(duì)單目視頻中三維信息的建模能力:盡管部分壓縮優(yōu)化方法引入基于深度學(xué)習(xí)的感知注意機(jī)制,但多數(shù)方法無法在無深度攝像頭條件下恢復(fù)人臉的真實(shí)三維結(jié)構(gòu),導(dǎo)致面部區(qū)域形變判斷不準(zhǔn)確,影響壓縮優(yōu)化策略的有效性。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供了一種基于人工智能的視頻通訊數(shù)據(jù)高效壓縮方法和系統(tǒng),結(jié)合人工智能的人臉姿態(tài)估計(jì)、曲率感知與內(nèi)容自適應(yīng)壓縮策略的高效壓縮方法,既能在低成本前提下識(shí)別頭部運(yùn)動(dòng)引發(fā)的紋理形變,又能實(shí)現(xiàn)差異化編碼控制,從而提升視頻通訊中人臉區(qū)域的視覺質(zhì)量與壓縮效率。

2、一種基于人工智能的視頻通訊數(shù)據(jù)高效壓縮方法,包括以下步驟:

3、s1、頭部姿態(tài)深度圖生成:通過單目深度估計(jì)網(wǎng)絡(luò)提取視頻幀的頭部姿態(tài)深度圖,所述頭部姿態(tài)深度圖包括面部關(guān)鍵點(diǎn)的三維空間坐標(biāo);

4、s2、形變敏感區(qū)域識(shí)別:根據(jù)所述頭部姿態(tài)深度圖計(jì)算面部曲率變化梯度,輸出形變敏感區(qū)域掩膜,所述形變敏感區(qū)域掩膜標(biāo)記因頭部旋轉(zhuǎn)導(dǎo)致紋理拉伸/壓縮的像素區(qū)域;

5、s3、形變熵值驅(qū)動(dòng)壓縮:基于所述形變敏感區(qū)域掩膜生成局部形變熵值,根據(jù)所述局部形變熵值動(dòng)態(tài)分配編碼比特?cái)?shù),生成壓縮視頻流;其中形變熵值越高的區(qū)域分配比特?cái)?shù)越多。

6、可選的,所述s1具體包括:

7、s11,空間特征編碼:采用輕量級(jí)mobilenetv3作為編碼器,對(duì)輸入rgb視頻幀進(jìn)行下采樣,輸出多通道的特征張量;

8、s12,三維坐標(biāo)回歸:將所述編碼器輸出的特征張量輸入反卷積解碼器,通過反卷積解碼器中的反卷積層與跳躍連接,生成包括多個(gè)面部關(guān)鍵點(diǎn)的熱力圖,每個(gè)關(guān)鍵點(diǎn)關(guān)聯(lián)三維空間坐標(biāo)(xi,yi,zi);其中,(xi,yi)表示第i個(gè)關(guān)鍵點(diǎn)在圖像平面中的像素坐標(biāo),zi表示第i個(gè)關(guān)鍵點(diǎn)相對(duì)于攝像機(jī)的深度距離;

9、s13,姿態(tài)參數(shù)融合:將所述三維空間坐標(biāo)輸入全連接層,輸出多自由度頭部姿態(tài)參數(shù),包括三個(gè)歐拉角和一個(gè)三維平移向量;

10、s14,深度圖合成:根據(jù)所述頭部姿態(tài)參數(shù)構(gòu)建頭部姿態(tài)旋轉(zhuǎn)矩陣,通過透視投影變換將三維關(guān)鍵點(diǎn)映射至二維圖像平面,利用雙線性插值填充生成頭部姿態(tài)深度圖,所述姿態(tài)深度圖的每個(gè)像素值表示該點(diǎn)在頭部局部坐標(biāo)系中的歸一化深度。

11、可選的,所述面部關(guān)鍵點(diǎn)包括眉毛區(qū)域關(guān)鍵點(diǎn)、眼睛區(qū)域關(guān)鍵點(diǎn)、鼻子區(qū)域關(guān)鍵點(diǎn)、嘴巴區(qū)域關(guān)鍵點(diǎn)、臉輪廓區(qū)域關(guān)鍵點(diǎn)以及眼睛間關(guān)鍵點(diǎn)。

12、可選的,所述深度圖合成中:將三維空間坐標(biāo)(xi,yi,zi)經(jīng)由姿態(tài)變換后的坐標(biāo)r·pi+t投影至二維圖像平面,利用透視投影關(guān)系,表示為:

13、

14、其中,(x′i,y′i,z′i)=r·pi+t;(ui,vi)表示關(guān)鍵點(diǎn)在合成圖像平面上的像素坐標(biāo),fx,fy為相機(jī)內(nèi)參的焦距,cx,cy表示相機(jī)主點(diǎn)位置,pi表示第i個(gè)三維關(guān)鍵點(diǎn)坐標(biāo)向量,t表示頭部中心點(diǎn)的三維平移向量。

15、可選的,所述s2具體包括:

16、s21,曲率場構(gòu)建:對(duì)所述頭部姿態(tài)深度圖進(jìn)行高斯曲率計(jì)算,生成面部曲率分布圖;

17、s22,梯度敏感度分析:在所述面部曲率分布圖上執(zhí)行sobel梯度檢測,計(jì)算曲率變化梯度幅值;

18、s23,形變區(qū)域標(biāo)記:將梯度幅值大于形變判斷閾值的連通區(qū)域標(biāo)記為形變敏感區(qū)域,生成二值掩膜;所述形變判斷閾值根據(jù)頭部偏轉(zhuǎn)角度θ自適應(yīng)調(diào)整。

19、可選的,所述s22中的曲率變化梯度幅值計(jì)算包括在曲率分布圖上執(zhí)行二維sobel算子,分別計(jì)算x軸和y軸方向的曲率梯度分量gx,gy,并合成整體曲率變化梯度幅值,表示為:

20、其中,通過在x方向的sobel卷積核計(jì)算,通過在y方向的sobel卷積核計(jì)算,g表示面部某區(qū)域的曲率變化強(qiáng)度,用于度量局部形變劇烈程度。

21、可選的,所述s23中的形變判斷閾值計(jì)算為:τd=τ0·(1+γ|θ|);其中,τ0為靜態(tài)參考閾值,γ為角度敏感因子,用于控制角度偏轉(zhuǎn)對(duì)閾值的放大倍數(shù),θ為頭部偏航角,τd為自適應(yīng)的形變判斷閾值,偏航角越大,值越高,提升敏感區(qū)域檢測覆蓋率。

22、可選的,所述s3具體包括:

23、s31,掩膜導(dǎo)向分塊:將視頻幀劃分為矩形宏塊,僅對(duì)所述形變敏感區(qū)域掩膜標(biāo)記為1的宏塊執(zhí)行后續(xù)熵值計(jì)算;

24、s32,局部形變熵值計(jì)算:對(duì)每個(gè)掩膜覆蓋的宏塊,提取yuv色彩空間的亮度分量y,計(jì)算局部形變熵值;

25、s33,比特動(dòng)態(tài)分配:根據(jù)每個(gè)宏塊的局部形變熵值,為該宏塊分配實(shí)際編碼比特?cái)?shù);

26、s34,采用h.264編碼器執(zhí)行壓縮流程,生成壓縮視頻流。

27、可選的,所述s34具體包括:

28、對(duì)掩膜區(qū)域內(nèi)的宏塊,依據(jù)所分配的比特?cái)?shù)調(diào)整量化參數(shù),實(shí)現(xiàn)變碼率編碼;

29、對(duì)非掩膜區(qū)域,使用固定量化參數(shù)進(jìn)行恒定壓縮;

30、所有宏塊編碼完成后,輸出最終壓縮視頻流。

31、一種基于人工智能的視頻通訊數(shù)據(jù)高效壓縮系統(tǒng),用于實(shí)現(xiàn)上述的視頻通訊數(shù)據(jù)高效壓縮方法,包括以下:

32、視頻幀采集模塊:用于獲取輸入視頻流,并提取連續(xù)rgb幀序列,作為后續(xù)編碼處理的基礎(chǔ)數(shù)據(jù)源;

33、姿態(tài)深度估計(jì)模塊:用于對(duì)所述視頻幀進(jìn)行頭部三維姿態(tài)識(shí)別和深度圖生成,具體包括:

34、空間特征編碼單元:采用輕量級(jí)mobilenetv3網(wǎng)絡(luò)結(jié)構(gòu)對(duì)輸入rgb幀進(jìn)行特征提取和空間下采樣,輸出多通道中間特征張量;

35、關(guān)鍵點(diǎn)回歸單元:基于反卷積解碼結(jié)構(gòu)與跳躍連接機(jī)制,輸出人臉關(guān)鍵點(diǎn)的二維熱力圖及對(duì)應(yīng)的三維空間坐標(biāo);

36、姿態(tài)參數(shù)提取單元:構(gòu)建全連接神經(jīng)網(wǎng)絡(luò)回歸頭部六自由度姿態(tài)參數(shù),包括偏航角、俯仰角、翻滾角及三維平移向量;

37、深度圖生成單元:根據(jù)姿態(tài)參數(shù)構(gòu)造旋轉(zhuǎn)矩陣,通過透視投影和雙線性插值將三維關(guān)鍵點(diǎn)映射至圖像平面,生成頭部姿態(tài)深度圖。

38、形變識(shí)別模塊:用于識(shí)別由頭部運(yùn)動(dòng)引起的面部紋理拉伸或壓縮區(qū)域,生成形變敏感掩膜圖;

39、熵值計(jì)算與比特分配模塊:用于按塊分析形變區(qū)域復(fù)雜度并動(dòng)態(tài)調(diào)整編碼資源分配,依據(jù)局部熵值與平均熵值的偏差,為每個(gè)宏塊分配不同的編碼比特?cái)?shù);

40、壓縮編碼模塊:用于執(zhí)行實(shí)際的視頻壓縮編碼過程,輸出最終的壓縮視頻流。

41、本發(fā)明的有益效果:

42、本發(fā)明,通過構(gòu)建輕量級(jí)mobilenetv3特征編碼器與反卷積解碼結(jié)構(gòu),并引入頭部六自由度姿態(tài)參數(shù)的融合機(jī)制,實(shí)現(xiàn)了無需深度攝像頭即可從普通rgb視頻幀中生成高質(zhì)量的頭部姿態(tài)深度圖,該深度圖具備真實(shí)的空間結(jié)構(gòu)信息,為后續(xù)形變識(shí)別與區(qū)域感知壓縮提供了數(shù)據(jù)基礎(chǔ),解決了現(xiàn)有技術(shù)中單目視頻壓縮方案對(duì)人臉運(yùn)動(dòng)區(qū)域表征不足的問題。

43、本發(fā)明,提出基于高斯曲率和梯度幅值構(gòu)建的“形變敏感區(qū)域掩膜”,結(jié)合頭部偏航角自適應(yīng)調(diào)節(jié)閾值識(shí)別頭部運(yùn)動(dòng)導(dǎo)致的面部形變區(qū)域,在此基礎(chǔ)上,通過亮度熵值量化局部紋理復(fù)雜度,驅(qū)動(dòng)比特資源按需動(dòng)態(tài)分配,有效提升關(guān)鍵區(qū)域的視覺質(zhì)量與抗偽影能力,避免傳統(tǒng)恒定qp壓縮對(duì)人臉區(qū)域的失真風(fēng)險(xiǎn)。

44、本發(fā)明,通過掩膜導(dǎo)向僅對(duì)顯著形變區(qū)域執(zhí)行熵值分析與動(dòng)態(tài)比特分配,并對(duì)非關(guān)鍵區(qū)域采用固定量化壓縮策略,構(gòu)成了顯著區(qū)域增強(qiáng)+背景簡化的分層壓縮模型,在相同碼率控制下,本發(fā)明將頭部關(guān)鍵區(qū)域psnr得到提升,顯著提升了視頻通訊在遠(yuǎn)程會(huì)議、在線教學(xué)、遠(yuǎn)程醫(yī)療等場景下的人臉可辨識(shí)度與表達(dá)準(zhǔn)確性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1