本發(fā)明涉及視頻質量評價領域,具體地,涉及一種基于混合專家模型的視頻質量檢測及評價方法和系統(tǒng)。
背景技術:
1、隨著視頻應用的普及,如何有效地對視頻進行質量評價成為一個關鍵問題?,F有視頻質量評價方法主要集中在以下幾個方面:1)基于人工標注的質量評估:依賴人工對視頻中是否模糊、是否存在噪聲、是否過曝、抖動等指標進行主觀檢測。這種方法雖然能獲得較為直觀的結果,但在大規(guī)模應用場景下效率低且主觀性較強。2)基于單一模型的自動評估:依賴單個深度學習模型進行視頻質量自動打分。該方法雖可提高效率并降低人工成本,但由于視頻質量維度多樣,不同模型對不同質量問題的敏感度不同,往往不能兼顧多種質量因素。
2、目前,多模態(tài)大型模型擁有對圖像和視頻進行理解和分析的潛在能力。然而,如果僅使用單一模型進行視頻質量檢測或打分,往往無法滿足多樣化、動態(tài)化的需求。
技術實現思路
1、針對現有技術中的缺陷,本發(fā)明的目的是提供一種基于混合專家模型的視頻質量檢測及評價方法,能夠根據任務需求動態(tài)調用相應的專家模型,實現視頻質量檢測和視頻質量分數量化任務的統(tǒng)一處理。
2、根據本發(fā)明的一個方面,提供一種基于混合專家模型的視頻質量檢測及評價方法,包括:
3、獲取視頻數據、用戶文本,所述用戶文本包括檢測任務文本和評分任務文本;
4、通過第一門控網絡,在多個專家模型中選擇所述檢測任務文本對應模型,對所述視頻數據完成至少一種質量檢測,得到質量檢測結果;
5、通過第二門控網絡,在多個專家模型中選擇所述評分任務文本對應模型,對所述視頻質量進行評分,得到視頻質量分數;
6、輸出所述質量檢測結果和所述視頻質量分數。
7、優(yōu)選的,所述獲取視頻數據和用戶文本,包括:
8、從實時監(jiān)控視頻、網絡流媒體視頻或者存儲的本地視頻文件中,獲取視頻數據;
9、通過與用戶交互,獲得用戶文本;
10、將所述視頻數據的幀統(tǒng)一到相同的分辨率或特征維度范圍,得到標準化的視頻特征。
11、優(yōu)選的,對標準化的所述視頻特征進行分段或者抽幀操作,分段或抽幀操作后的視頻特征作為所述第一門控網絡或所述第二門控網絡的輸入。
12、優(yōu)選的,所述質量檢測包括模糊檢測、噪聲檢測、過曝檢測、抖動檢測和卡頓檢測中的一種或多種。
13、優(yōu)選的,所述通過第一門控網絡,在多個專家模型中選擇所述檢測任務文本對應模型,對所述視頻數據完成至少一種質量檢測,得到質量檢測結果,包括:
14、將標準化的所述視頻特征和所述檢測任務文本拼接,得到第一拼接特征;
15、將所述第一拼接特征輸入到所述第一門控網絡,輸出第一選擇概率;
16、基于所述第一選擇概率選擇專家模型;
17、利用各個選定所述專家模型,分別計算所述第一拼接特征的判斷結果;
18、將選定的所有所述專家模型的所述判斷結果按照所述第一選擇概率進行加權求和,得到綜合質量檢測結果,作為與所述檢測任務文本對應的質量檢測結果。
19、優(yōu)選的,所述通過第二門控網絡,在多個專家模型中選擇所述評分任務文本對應模型,對所述視頻質量進行評分,得到視頻質量分數,包括:
20、將標準化的視頻特征和所述評分任務文本拼接,得到第二拼接特征;
21、將所述第二拼接特征輸入到第二門控網絡,輸出與評分任務對應的第二選擇概率基于所述第二選擇概率選擇專家模型;
22、利用選擇的所述專家模型,計算所述第二拼接特征的評分結果;
23、將選擇的所有所述專家模型的所述評分結果按照所述第二選擇概率進行加權求和,得到綜合評分,作為對所述視頻數據的質量分數。
24、優(yōu)選的,基于檢測任務和評分任務需求不同,所述第一門控網絡和所述第二門控網絡是兩個獨立的神經網絡,它們的神經元數據以及模型參數權重是不同的。
25、根據本發(fā)明的第二個方面,提供一種基于混合專家模型的視頻質量檢測及評價系統(tǒng),包括:
26、輸入模塊:獲取視頻數據、用戶文本,所述用戶文本包括檢測任務文本和評分任務文本;
27、檢測模塊:通過第一門控網絡,在多個專家模型中選擇所述檢測任務文本對應模型,對所述視頻數據完成至少一種質量檢測,得到質量檢測結果;
28、評分模塊:通過第二門控網絡,在多個專家模型中選擇所述評分任務文本對應模型,對所述視頻質量進行評分,得到視頻質量分數;
29、輸出模塊:輸出所述質量檢測結果和所述視頻質量分數。
30、根據本發(fā)明的第三個方面,提供一種終端,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時可用于執(zhí)行所述的方法,或,運行所述的系統(tǒng)。
31、根據本發(fā)明的第四個方面,提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時可用于執(zhí)行所述的方法,或,運行所述的系統(tǒng)。
32、與現有技術相比,本發(fā)明實施例至少具有如下的一種有益效果:
33、本發(fā)明實施例中的基于混合專家模型的視頻質量檢測及評價方法和系統(tǒng),通過結合混合專家模型與門控網絡,將視頻質量檢測和分數量化統(tǒng)一在同一架構下,實現了高效、靈活、準確的視頻質量評估,克服了現有技術在任務單一、可擴展性差和準確度不足等方面的不足。
34、本發(fā)明實施例中的基于混合專家模型的視頻質量檢測及評價方法和系統(tǒng),具有:
35、靈活性:采用混合專家模型,通過門控網絡動態(tài)選擇不同的專家模型,可針對視頻質量檢測和視頻質量分數量化不同任務進行最優(yōu)適配,解決了單一模型無法同時兼顧多種任務的問題。
36、準確性:通過對視頻特征的多維度分析并結合不同專家模型的輸出結果,提高了對復雜視頻質量問題(空間模糊、噪聲、過曝、時域抖動等)的識別精度和綜合評分的準確度。
37、擴展性:當需要支持新的視頻質量維度時,只需在框架內部添加新的專家模型,同時在門控網絡進行相應擴展即可,無需大幅度修改原有流程。
1.一種基于混合專家模型的視頻質量檢測及評價方法,其特征在于,包括:
2.根據權利要求1所述的一種基于混合專家模型的視頻質量檢測及評價方法,其特征在于,所述獲取視頻數據、用戶文本,包括:
3.根據權利要求2所述的一種基于混合專家模型的視頻質量檢測及評價方法,其特征在于,對標準化的所述視頻特征進行分段或者抽幀操作,分段或抽幀操作后的視頻特征作為所述第一門控網絡或所述第二門控網絡的輸入。
4.根據權利要求1所述的一種基于混合專家模型的視頻質量檢測及評價方法,其特征在于,所述質量檢測包括模糊檢測、噪聲檢測、過曝檢測、抖動檢測和卡頓檢測中的一種或多種。
5.根據權利要求2所述的一種基于混合專家模型的視頻質量檢測及評價方法,其特征在于,所述通過第一門控網絡,在多個專家模型中選擇所述檢測任務文本對應模型,對所述視頻數據完成至少一種質量檢測,得到質量檢測結果,包括:
6.根據權利要求2所述的一種基于混合專家模型的視頻質量檢測及評價方法,其特征在于,所述通過第二門控網絡,在多個專家模型中選擇所述評分任務文本對應模型,對所述視頻質量進行評分,得到視頻質量分數,包括:
7.根據權利要求1所述的一種基于混合專家模型的視頻質量檢測及評價方法,其特征在于,基于檢測任務和評分任務需求不同,所述第一門控網絡和所述第二門控網絡是兩個獨立的神經網絡,它們的神經元數據以及模型參數權重是不同的。
8.一種基于混合專家模型的視頻質量檢測及評價系統(tǒng),其特征在于,包括:
9.一種終端,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時可用于執(zhí)行權利要求1-7中任一項所述的方法,或,運行權利要求8所述的系統(tǒng)。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時可用于執(zhí)行權利要求1-7中任一項所述的方法,或,運行權利要求8所述的系統(tǒng)。