aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

基于多模態(tài)特征的視頻內(nèi)容分類與風險預(yù)警方法及系統(tǒng)與流程

文檔序號:42037735發(fā)布日期:2025-05-30 17:32閱讀:30來源:國知局

本發(fā)明涉及視頻處理技術(shù),尤其涉及一種基于多模態(tài)特征的視頻內(nèi)容分類與風險預(yù)警方法及系統(tǒng)。


背景技術(shù):

1、當前,隨著視頻監(jiān)控、智能安防和互聯(lián)網(wǎng)視頻內(nèi)容的快速增長,視頻數(shù)據(jù)中潛藏的大量異常行為、風險事件亟待自動化識別與響應(yīng)。傳統(tǒng)的視頻內(nèi)容分析方法多基于圖像視覺特征,往往無法有效識別遮擋、模糊或語義不明確場景中的高風險行為,準確率和響應(yīng)速度均難以滿足實戰(zhàn)需求。

2、近年來,多模態(tài)學(xué)習技術(shù)逐漸應(yīng)用于視頻分析任務(wù),通過融合視頻圖像、音頻、文本等多源信息,有助于全面刻畫復(fù)雜事件特征,提升模型對沖突行為、危險語言等高風險因素的識別能力。但現(xiàn)有方法多數(shù)僅對單一模態(tài)數(shù)據(jù)處理,缺乏對時空一致性、行為與語音邏輯關(guān)聯(lián)等交叉特征的深度挖掘,導(dǎo)致風險識別誤報率高,系統(tǒng)智能化水平不足。

3、尤其在公共安全監(jiān)控、校園安防與內(nèi)容審核等場景中,存在大量短時沖突、激烈爭執(zhí)等動態(tài)事件,傳統(tǒng)規(guī)則難以覆蓋所有潛在風險。如何實現(xiàn)多模態(tài)數(shù)據(jù)的深度融合、沖突行為與聲源信息的高效關(guān)聯(lián)分析,并通過語義信息輔助判斷風險等級,是提升視頻預(yù)警系統(tǒng)智能化水平的關(guān)鍵。因此亟需一種基于多模態(tài)特征的視頻內(nèi)容分類與風險預(yù)警方法,以實現(xiàn)高風險事件的精準識別與及時響應(yīng)。


技術(shù)實現(xiàn)思路

1、本發(fā)明實施例提供一種基于多模態(tài)特征的視頻內(nèi)容分類與風險預(yù)警方法及系統(tǒng),能夠解決現(xiàn)有技術(shù)中的問題。

2、本發(fā)明實施例的第一方面,

3、提供一種基于多模態(tài)特征的視頻內(nèi)容分類與風險預(yù)警方法,包括:

4、獲取待分類視頻數(shù)據(jù)并進行解碼得到視頻幀數(shù)據(jù)、音頻數(shù)據(jù)和文本數(shù)據(jù);

5、提取視頻幀數(shù)據(jù)中運動目標的位置數(shù)據(jù)和速度數(shù)據(jù),基于位置數(shù)據(jù)生成運動軌跡圖,基于速度數(shù)據(jù)計算運動加速度數(shù)據(jù),結(jié)合運動軌跡圖和運動加速度數(shù)據(jù)識別沖突行為片段,生成沖突行為片段的時空坐標數(shù)據(jù);

6、提取音頻數(shù)據(jù)中的方位角數(shù)據(jù)和俯仰角數(shù)據(jù),構(gòu)建聲源空間分布圖,從聲源空間分布圖中提取目標音頻片段,生成目標音頻片段的聲源位置數(shù)據(jù),同時對文本數(shù)據(jù)進行語義分析,生成文本特征分數(shù);

7、基于時空坐標數(shù)據(jù)和聲源位置數(shù)據(jù)計算沖突行為片段與目標音頻片段的時空重合度分數(shù),生成行為-聲源一致性分數(shù);

8、基于行為-聲源一致性分數(shù)和文本特征分數(shù)生成風險判定分數(shù)和視頻分類結(jié)果,當風險判定分數(shù)超過預(yù)設(shè)風險閾值時生成預(yù)警數(shù)據(jù)并發(fā)送至預(yù)設(shè)的遠程監(jiān)控終端,實現(xiàn)風險事件的及時預(yù)警響應(yīng)。

9、在一種可選的實施例中,

10、獲取待分類視頻數(shù)據(jù)并進行解碼得到視頻幀數(shù)據(jù)、音頻數(shù)據(jù)和文本數(shù)據(jù)包括:

11、獲取待分類視頻數(shù)據(jù),提取所述待分類視頻數(shù)據(jù)中的視頻容器信息,從所述視頻容器信息中解析全局時間戳信息,建立所述全局時間戳信息與待分類視頻數(shù)據(jù)的索引關(guān)系;

12、基于所述索引關(guān)系對待分類視頻數(shù)據(jù)進行時間窗口分段,生成時間窗口序列,對所述時間窗口序列中相鄰時間窗口的邊界數(shù)據(jù)進行重疊處理,生成重疊時間窗口序列;

13、構(gòu)建并行解碼管道,所述并行解碼管道包括視頻解碼器、音頻解碼器和文本解碼器,將所述重疊時間窗口序列輸入所述并行解碼管道,經(jīng)視頻解碼器解碼得到視頻幀數(shù)據(jù),經(jīng)音頻解碼器解碼得到音頻數(shù)據(jù),經(jīng)文本解碼器解碼得到文本數(shù)據(jù)。

14、在一種可選的實施例中,

15、提取視頻幀數(shù)據(jù)中運動目標的位置數(shù)據(jù)和速度數(shù)據(jù),基于位置數(shù)據(jù)生成運動軌跡圖,基于速度數(shù)據(jù)計算運動加速度數(shù)據(jù),結(jié)合運動軌跡圖和運動加速度數(shù)據(jù)識別沖突行為片段,生成沖突行為片段的時空坐標數(shù)據(jù)包括:

16、對視頻幀數(shù)據(jù)進行目標檢測得到邊界框坐標,計算所述邊界框的中心點坐標得到運動目標的位置數(shù)據(jù),對所述位置數(shù)據(jù)進行濾波處理得到平滑后的位置數(shù)據(jù);

17、基于平滑后的位置數(shù)據(jù)計算相鄰幀間的位移向量,對所述位移向量進行模值運算得到運動目標的速度數(shù)據(jù);

18、利用平滑后的位置數(shù)據(jù)生成運動軌跡圖,計算運動軌跡圖的曲率特征,提取軌跡轉(zhuǎn)折點坐標,同時對所述速度數(shù)據(jù)進行時間維度的微分運算得到運動加速度數(shù)據(jù),基于加速度閾值對所述運動加速度數(shù)據(jù)進行篩選,確定加速度突變時間段;

19、將所述軌跡轉(zhuǎn)折點坐標與加速度突變時間段進行匹配,生成候選沖突行為片段,計算片段內(nèi)的軌跡連續(xù)性系數(shù)和加速度變化系數(shù),對候選沖突行為片段進行評分,根據(jù)評分結(jié)果篩選得到最終的沖突行為片段;

20、提取最終的沖突行為片段對應(yīng)的時間戳和空間坐標信息,生成沖突行為的時空坐標數(shù)據(jù)。

21、在一種可選的實施例中,

22、提取音頻數(shù)據(jù)中的方位角數(shù)據(jù)和俯仰角數(shù)據(jù),構(gòu)建聲源空間分布圖,從聲源空間分布圖中提取目標音頻片段,生成目標音頻片段的聲源位置數(shù)據(jù)包括:

23、對音頻數(shù)據(jù)進行小波變換得到多尺度頻帶系數(shù),基于所述多尺度頻帶系數(shù)構(gòu)建頻帶能量矩陣,根據(jù)所述頻帶能量矩陣計算通道間相位差,將所述通道間相位差進行加權(quán)合并得到相位差譜,基于所述相位差譜提取方位角數(shù)據(jù)和俯仰角數(shù)據(jù);

24、對所述音頻數(shù)據(jù)進行短時傅里葉變換得到時頻譜,計算所述時頻譜的空間相干矩陣并進行特征值分解得到聲源方向矢量,基于所述聲源方向矢量構(gòu)建時頻掩蔽器,對所述時頻譜進行增強得到增強后的時頻譜;

25、將所述方位角數(shù)據(jù)和俯仰角數(shù)據(jù)映射為三維空間坐標,采用核密度估計方法構(gòu)建聲源空間分布圖,根據(jù)增強后的時頻譜的能量分布對所述聲源空間分布圖進行加權(quán),得到加權(quán)后的聲源空間分布圖;

26、對加權(quán)后的聲源空間分布圖進行聚類分析得到能量聚集區(qū)域,根據(jù)所述能量聚集區(qū)域在增強后的時頻譜中標記目標聲源區(qū)間,提取所述目標聲源區(qū)間對應(yīng)的目標音頻片段,生成目標音頻片段的聲源位置數(shù)據(jù)。

27、在一種可選的實施例中,

28、對文本數(shù)據(jù)進行語義分析,生成文本特征分數(shù)包括:

29、對文本數(shù)據(jù)進行預(yù)處理得到規(guī)范化文本,從所述規(guī)范化文本中統(tǒng)計詞頻特征和共現(xiàn)特征,構(gòu)建動態(tài)語義詞典,基于動態(tài)語義詞典對規(guī)范化文本進行分詞得到詞序列,計算所述詞序列中每個詞與預(yù)設(shè)事件類型的語義關(guān)聯(lián)度生成詞權(quán)重,根據(jù)所述詞權(quán)重對詞序列進行加權(quán)得到詞級特征;

30、從所述規(guī)范化文本中提取場景標識信息,基于所述場景標識信息計算所述詞級特征的場景依賴度,根據(jù)所述場景依賴度對詞級特征進行加權(quán)調(diào)整,生成句子級特征;

31、構(gòu)建句子間的語義關(guān)聯(lián)圖,其中節(jié)點為句子級特征,邊權(quán)重為句子間的語義相似度,在所述語義關(guān)聯(lián)圖上進行特征傳播得到全局語義特征;

32、將所述全局語義特征與所述場景依賴度進行融合,生成包含場景信息的文檔表示向量,計算所述文檔表示向量與預(yù)設(shè)事件向量的相似度,生成文本特征分數(shù)。

33、在一種可選的實施例中,

34、基于時空坐標數(shù)據(jù)和聲源位置數(shù)據(jù)計算沖突行為片段與目標音頻片段的時空重合度分數(shù),生成行為-聲源一致性分數(shù)包括:

35、獲取歷史數(shù)據(jù)中行為位置與聲源位置的對應(yīng)關(guān)系,計算所述行為位置與所述聲源位置之間的傳播延遲時間,根據(jù)所述傳播延遲時間對時空坐標數(shù)據(jù)和聲源位置數(shù)據(jù)進行時序校正;

36、統(tǒng)計所述歷史數(shù)據(jù)中的行為-聲源距離分布和角度分布,構(gòu)建空間權(quán)重矩陣,利用所述空間權(quán)重矩陣對時序校正后的時空坐標數(shù)據(jù)和聲源位置數(shù)據(jù)進行空間校正;

37、在空間校正后的時空坐標數(shù)據(jù)和聲源位置數(shù)據(jù)中提取沖突行為片段的行為軌跡和目標音頻片段的聲源軌跡,計算所述行為軌跡和聲源軌跡的空間重合度,生成軌跡重合度得分;

38、對所述沖突行為片段和目標音頻片段進行時間分段,在每個時間分段內(nèi)計算行為位置和聲源位置的空間距離,并獲取對應(yīng)的場景遮擋信息,基于所述空間距離和場景遮擋信息計算時間分段的時空匹配度,生成分段匹配度得分;

39、將所述軌跡重合度得分與分段匹配度得分進行加權(quán)融合,生成行為-聲源一致性分數(shù)。

40、在一種可選的實施例中,

41、基于行為-聲源一致性分數(shù)和文本特征分數(shù)生成風險判定分數(shù)和視頻分類結(jié)果包括:

42、對行為-聲源一致性分數(shù)和文本特征分數(shù)進行時序采樣得到特征時間序列,對所述特征時間序列執(zhí)行差分運算得到變化率序列,基于所述變化率序列檢測突變時刻和穩(wěn)定時刻,根據(jù)所述突變時刻的峰值幅度和穩(wěn)定時刻的持續(xù)時長對所述特征時間序列進行分段,得到多個特征片段;

43、提取特征片段的時域參數(shù)和頻域參數(shù),將所述特征片段分配到不同尺度層級,生成特征金字塔;利用所述特征金字塔相鄰層級間的互相關(guān)系數(shù)構(gòu)建層級傳遞矩陣,生成多尺度特征序列;

44、獲取場景視頻幀中目標區(qū)域的面積變化率和位移變化率,按照所述層級傳遞矩陣映射到多尺度特征序列的對應(yīng)層級,生成場景自適應(yīng)特征;

45、對所述場景自適應(yīng)特征進行時序統(tǒng)計和空間統(tǒng)計,提取時序統(tǒng)計的波動系數(shù)和空間統(tǒng)計的聚集系數(shù);對波動系數(shù)計算波動幅值和波動頻率,根據(jù)波動幅值的變化趨勢和波動頻率的密集程度生成風險判定分數(shù);

46、對所述聚集系數(shù)進行空間網(wǎng)格劃分,在每個網(wǎng)格內(nèi)計算特征分布密度和空間變化方向,根據(jù)所述特征分布密度確定行為發(fā)生區(qū)域,根據(jù)所述空間變化方向確定行為發(fā)展趨勢,基于所述行為發(fā)生區(qū)域和行為發(fā)展趨勢生成視頻分類結(jié)果。

47、本發(fā)明實施例的第二方面,

48、提供一種基于多模態(tài)特征的視頻內(nèi)容分類與風險預(yù)警系統(tǒng),包括:

49、第一單元,用于獲取待分類視頻數(shù)據(jù)并進行解碼得到視頻幀數(shù)據(jù)、音頻數(shù)據(jù)和文本數(shù)據(jù);

50、第二單元,用于提取視頻幀數(shù)據(jù)中運動目標的位置數(shù)據(jù)和速度數(shù)據(jù),基于位置數(shù)據(jù)生成運動軌跡圖,基于速度數(shù)據(jù)計算運動加速度數(shù)據(jù),結(jié)合運動軌跡圖和運動加速度數(shù)據(jù)識別沖突行為片段,生成沖突行為片段的時空坐標數(shù)據(jù);

51、第三單元,用于提取音頻數(shù)據(jù)中的方位角數(shù)據(jù)和俯仰角數(shù)據(jù),構(gòu)建聲源空間分布圖,從聲源空間分布圖中提取目標音頻片段,生成目標音頻片段的聲源位置數(shù)據(jù),同時對文本數(shù)據(jù)進行語義分析,生成文本特征分數(shù);

52、第四單元,用于基于時空坐標數(shù)據(jù)和聲源位置數(shù)據(jù)計算沖突行為片段與目標音頻片段的時空重合度分數(shù),生成行為-聲源一致性分數(shù);

53、第五單元,用于基于行為-聲源一致性分數(shù)和文本特征分數(shù)生成風險判定分數(shù)和視頻分類結(jié)果,當風險判定分數(shù)超過預(yù)設(shè)風險閾值時生成預(yù)警數(shù)據(jù)并發(fā)送至預(yù)設(shè)的遠程監(jiān)控終端,實現(xiàn)風險事件的及時預(yù)警響應(yīng)。

54、本發(fā)明實施例的第三方面,

55、提供一種電子設(shè)備,包括:

56、處理器;

57、用于存儲處理器可執(zhí)行指令的存儲器;

58、其中,所述處理器被配置為調(diào)用所述存儲器存儲的指令,以執(zhí)行前述所述的方法。

59、本發(fā)明實施例的第四方面,

60、提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,所述計算機程序指令被處理器執(zhí)行時實現(xiàn)前述所述的方法。

61、在本實施例中,能夠?qū)崿F(xiàn)對視頻內(nèi)容中潛在風險行為的多模態(tài)融合識別與智能預(yù)警,顯著提升視頻分析的準確性和實時性。該方法結(jié)合視頻圖像中的運動軌跡與速度變化,能夠有效識別沖突、打斗等高風險行為;同時引入音頻方位和俯仰角信息,構(gòu)建聲源空間分布圖,使得聲源定位與行為識別之間形成空間關(guān)聯(lián),有效增強沖突行為判斷的可信度。文本數(shù)據(jù)的語義分析進一步補充事件上下文信息,提升模型對語言威脅、爭執(zhí)等非視覺因素的理解能力。通過計算行為與聲源之間的時空重合度,生成行為-聲源一致性分數(shù),有助于減少誤報和漏報情況,提升風險判定的準確性。最終基于融合特征輸出風險判定分數(shù)和視頻分類結(jié)果,能夠在風險等級超出預(yù)設(shè)閾值時自動觸發(fā)預(yù)警信息,并發(fā)送至遠程監(jiān)控終端,提升系統(tǒng)在公共安全、安防監(jiān)控等場景下的主動響應(yīng)能力和智能化水平。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1