aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

基于因果引導(dǎo)擴(kuò)散模型的具身對(duì)話定位方法及相關(guān)裝置

文檔序號(hào):42169254發(fā)布日期:2025-06-13 16:25閱讀:6來源:國(guó)知局

本發(fā)明屬于計(jì)算機(jī)視覺技術(shù)與具身智能,特別涉及一種基于因果引導(dǎo)擴(kuò)散模型的具身對(duì)話定位方法及相關(guān)裝置。


背景技術(shù):

1、具身對(duì)話定位(embodied?dialogue?localization,edl)是指通過視覺和自然語言對(duì)話的結(jié)合,幫助智能體在環(huán)境中進(jìn)行精確位置定位的任務(wù),這類任務(wù)在機(jī)器人導(dǎo)航、緊急救援、人機(jī)交互等領(lǐng)域具有廣泛的應(yīng)用前景。例如,在緊急救援場(chǎng)景中,智能體需要通過與人類的對(duì)話快速定位目標(biāo)位置;在家庭服務(wù)機(jī)器人中,機(jī)器人需要根據(jù)用戶的語音指令準(zhǔn)確找到目標(biāo)物體或位置。

2、目前,現(xiàn)有的具身對(duì)話定位方法仍面臨以下挑戰(zhàn):

3、(1)分辨率依賴性強(qiáng):現(xiàn)有方法通常將定位問題建模為圖像到圖像的轉(zhuǎn)換問題,利用編碼器-解碼器架構(gòu)生成熱圖來預(yù)測(cè)坐標(biāo)。盡管這些方法在粗粒度范圍內(nèi)表現(xiàn)良好,但在精確定位方面存在明顯不足;熱圖方法高度依賴于圖像分辨率,而分辨率的提升會(huì)帶來計(jì)算復(fù)雜度的指數(shù)級(jí)增長(zhǎng),限制了其在實(shí)際應(yīng)用中的可行性。

4、(2)泛化能力不足:現(xiàn)有方法在未見環(huán)境中的表現(xiàn)較差,尤其是在數(shù)據(jù)分布與訓(xùn)練集差異較大的情況下,模型的定位精度顯著下降。盡管通過數(shù)據(jù)增強(qiáng)或利用大語言模型生成額外對(duì)話數(shù)據(jù)可以在一定程度上提升泛化能力,但這些方法仍然受限于數(shù)據(jù)集的固有偏差,無法從根本上解決問題。

5、(3)混雜因素干擾:在視覺和語言輸入中,存在大量可觀察和不可觀察的混雜因素(如房間類型、裝飾風(fēng)格、光照條件、句子結(jié)構(gòu)等因素),這些因素會(huì)導(dǎo)致模型學(xué)習(xí)到虛假的相關(guān)性,進(jìn)而影響定位的準(zhǔn)確性。現(xiàn)有方法缺乏對(duì)這些混雜因素的有效處理機(jī)制,導(dǎo)致模型在復(fù)雜環(huán)境中的表現(xiàn)不穩(wěn)定。

6、綜上所述,現(xiàn)有的具身對(duì)話定位方法在精確性、泛化能力和抗干擾性方面存在明顯不足。因此,設(shè)計(jì)一種能夠減少分辨率依賴、提升泛化能力并有效處理混雜因素的定位方法,對(duì)于推動(dòng)具身智能的發(fā)展具有重要意義。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于因果引導(dǎo)擴(kuò)散模型的具身對(duì)話定位方法及相關(guān)裝置,以解決現(xiàn)有具身對(duì)話定位方法中存在的分辨率依賴性強(qiáng)、泛化能力不足以及混雜因素干擾等技術(shù)問題中的一個(gè)或多個(gè)。

2、為達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案:

3、本發(fā)明第一方面,提供一種基于因果引導(dǎo)擴(kuò)散模型的具身對(duì)話定位方法,包括以下步驟:

4、獲取對(duì)話文本以及待定位場(chǎng)景的俯視圖地圖;

5、基于獲取的對(duì)話文本和俯視圖地圖,利用訓(xùn)練好的因果引導(dǎo)擴(kuò)散模型進(jìn)行定位預(yù)測(cè),獲得坐標(biāo)定位結(jié)果;

6、其中,所述因果引導(dǎo)擴(kuò)散模型包括:

7、特征提取模塊,用于提取對(duì)話文本的文本特征以及俯視圖地圖的視覺特征;

8、因果推理模塊,用于以所述特征提取模塊提取的文本特征和視覺特征作為原始特征,進(jìn)行可觀察和不可觀察的混雜因素消除處理,獲得去混雜特征;

9、去混雜特征引導(dǎo)模塊,用于動(dòng)態(tài)調(diào)整原始特征和去混雜特征的權(quán)重,獲得篩選后特征;

10、擴(kuò)散網(wǎng)絡(luò),用于以所述篩選后特征為控制條件,通過逐步去噪過程回歸處理,獲得坐標(biāo)定位結(jié)果。

11、本發(fā)明的進(jìn)一步改進(jìn)在于,

12、所述因果推理模塊中,執(zhí)行以所述特征提取模塊提取的文本特征和視覺特征作為原始特征,進(jìn)行可觀察和不可觀察的混雜因素消除處理,獲得去混雜特征的步驟包括:先進(jìn)行后門調(diào)整,再進(jìn)行前門調(diào)整;其中,后門調(diào)整通過切斷可觀察混雜因素與輸入之間的后門路徑來消除偏差,獲得初步的去混雜特征;前門調(diào)整基于初步的去混雜特征,通過引入中介變量來傳遞知識(shí)以減少不可觀察混雜因素的影響,獲得最終的去混雜特征。

13、本發(fā)明的進(jìn)一步改進(jìn)在于,

14、所述后門調(diào)整的步驟中,初步的去混雜特征中的去混雜視覺特征去混雜文本特征分別表示為:

15、

16、式中,ln代表層歸一化;φv和φi均代表可學(xué)習(xí)的全連接層,fv和fi代表提取的原始視覺特征和文本特征;表示混雜z的數(shù)學(xué)期望;

17、其中,將原始視覺特征和文本特征統(tǒng)一表示為x,則有:

18、

19、式中,|zi|表示屬于混雜因素詞典中第i個(gè)類別的混雜實(shí)例的數(shù)量,∑j|zj|代表混雜字典中存取的混雜總數(shù);f(x,z)表示設(shè)置有參數(shù)x、z的神經(jīng)網(wǎng)絡(luò)。

20、本發(fā)明的進(jìn)一步改進(jìn)在于,

21、所述混雜字典的構(gòu)建步驟包括:分別處理文本特征和視覺特征,以創(chuàng)建混雜詞典;其中,對(duì)于文本特征,從對(duì)話中提取空間方向和關(guān)鍵地標(biāo)詞,然后根據(jù)每個(gè)詞出現(xiàn)的概率計(jì)算平均特征;對(duì)于視覺特征,使用預(yù)先訓(xùn)練的vqa模型詢問“這是什么房間?”來獲取每種房間類型,然后計(jì)算每種房間類型的平均特征。

22、本發(fā)明的進(jìn)一步改進(jìn)在于,

23、所述前門調(diào)整的步驟中,中介變量設(shè)計(jì)為基于vq-vae模型的特征選擇器,最終的去混雜特征中的去混雜視覺特征fv′、去混雜文本特征fi′分別表示為:

24、

25、式中,和為vq-vae模型中的量化特征;

26、

27、式中,表示從vq-vae碼本中隨機(jī)采樣的交叉采樣特征;表示vq-vae作用于當(dāng)前輸入得到的內(nèi)采樣特征;兩個(gè)查詢集

28、本發(fā)明的進(jìn)一步改進(jìn)在于,

29、所述因果引導(dǎo)擴(kuò)散模型的訓(xùn)練過程中,聯(lián)合訓(xùn)練擴(kuò)散網(wǎng)絡(luò)和因果推理模塊,通過最小化擴(kuò)散網(wǎng)絡(luò)的擴(kuò)散損失和因果推理模塊中的vq-vae損失來更新參數(shù),整體損失函數(shù)表示為:

30、

31、式中,為整體損失函數(shù);為擴(kuò)散損失;為vq-vae損失;γ1和γ2分別是的權(quán)重系數(shù)。

32、本發(fā)明的進(jìn)一步改進(jìn)在于,

33、所述擴(kuò)散網(wǎng)絡(luò)的推理階段,基于輸入的篩選后特征,通過從單位高斯分布中采樣初始噪聲坐標(biāo)yt,并通過反向去噪過程逐步去除噪聲,得到最終的坐標(biāo)預(yù)測(cè)y0;

34、其中,

35、

36、式中,yt-1表示t-1時(shí)間步的噪聲坐標(biāo);αt表示固定的均值系數(shù)序列;表示σt表示噪聲的標(biāo)準(zhǔn)差;do(c)表示將因果推理模塊得到的去混雜特征作為控制條件;表示在時(shí)間步t、控制條件c下由模型預(yù)測(cè)出的噪聲,且噪聲通過去混雜特征引導(dǎo)模塊進(jìn)行修正;

37、

38、式中,εθ表示未經(jīng)修正的預(yù)測(cè)噪聲。

39、本發(fā)明第二方面,提供一種基于因果引導(dǎo)擴(kuò)散模型的具身對(duì)話定位系統(tǒng),包括:

40、數(shù)據(jù)獲取模塊,用于獲取對(duì)話文本以及待定位場(chǎng)景的俯視圖地圖;

41、定位預(yù)測(cè)模塊,用于基于獲取的對(duì)話文本和俯視圖地圖,利用訓(xùn)練好的因果引導(dǎo)擴(kuò)散模型進(jìn)行定位預(yù)測(cè),獲得坐標(biāo)定位結(jié)果;

42、其中,所述因果引導(dǎo)擴(kuò)散模型包括:

43、特征提取模塊,用于提取對(duì)話文本的文本特征以及俯視圖地圖的視覺特征;

44、因果推理模塊,用于以所述特征提取模塊提取的文本特征和視覺特征作為原始特征,進(jìn)行可觀察和不可觀察的混雜因素消除處理,獲得去混雜特征;

45、去混雜特征引導(dǎo)模塊,用于動(dòng)態(tài)調(diào)整原始特征和去混雜特征的權(quán)重,獲得篩選后特征;

46、擴(kuò)散網(wǎng)絡(luò),用于以所述篩選后特征為控制條件,通過逐步去噪過程回歸處理,獲得坐標(biāo)定位結(jié)果。

47、本發(fā)明第三方面,提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如本發(fā)明第一方面中任一項(xiàng)所述的基于因果引導(dǎo)擴(kuò)散模型的具身對(duì)話定位方法。

48、本發(fā)明第四方面,提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明第一方面中任一項(xiàng)所述的基于因果引導(dǎo)擴(kuò)散模型的具身對(duì)話定位方法。

49、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:

50、本發(fā)明公開的技術(shù)方案,通過引入因果引導(dǎo)擴(kuò)散模型,能夠有效減少對(duì)高分辨率的依賴,提升了定位精度;其中,通過因果推理模塊消除了數(shù)據(jù)集中的混雜因素,增強(qiáng)了模型在未見環(huán)境中的魯棒性和泛化能力。具體解釋性地,針對(duì)現(xiàn)有方法通常依賴于高分辨率的熱圖生成,導(dǎo)致計(jì)算復(fù)雜度高且精確定位能力不足的問題,本發(fā)明通過引入擴(kuò)散網(wǎng)絡(luò),直接建模連續(xù)坐標(biāo)分布,避免了熱圖生成過程中的分辨率限制,擴(kuò)散網(wǎng)絡(luò)通過逐步去噪過程,能夠精確回歸坐標(biāo),減少了對(duì)高分辨率輸入的依賴;本發(fā)明在低分辨率條件下仍能實(shí)現(xiàn)高精度的定位,顯著降低了計(jì)算復(fù)雜度,同時(shí)提升了定位精度,尤其在細(xì)粒度范圍內(nèi)的表現(xiàn)優(yōu)于現(xiàn)有方法。

51、針對(duì)現(xiàn)有方法在未見環(huán)境中的表現(xiàn)較差,尤其是在數(shù)據(jù)分布與訓(xùn)練集差異較大的情況下,模型的定位精度顯著下降的問題,本發(fā)明的優(yōu)選方案中,通過引入因果推理模塊(包括后門調(diào)整和前門調(diào)整),有效消除了數(shù)據(jù)集中的混雜因素(如房間類型、裝飾風(fēng)格、光照條件等),減少了模型對(duì)訓(xùn)練數(shù)據(jù)的過擬合。本發(fā)明在未見環(huán)境中的定位精度顯著提升,表現(xiàn)出更強(qiáng)的泛化能力,能夠適應(yīng)多樣化的應(yīng)用場(chǎng)景。針對(duì)現(xiàn)有方法容易受到視覺和語言輸入中的混雜因素(如房間類型、裝飾風(fēng)格、光照條件、句子結(jié)構(gòu)等)干擾,導(dǎo)致模型學(xué)習(xí)到虛假的相關(guān)性,影響定位的準(zhǔn)確性的問題,本發(fā)明通過后門調(diào)整(bda)處理可觀察的混雜因素,通過前門調(diào)整(fda)處理不可觀察的混雜因素,確保模型學(xué)習(xí)到真實(shí)的因果關(guān)系。本發(fā)明能夠有效消除混雜因素的干擾,提升模型在復(fù)雜環(huán)境中的魯棒性,確保定位結(jié)果的準(zhǔn)確性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1