一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控方法、裝置及設(shè)備與流程

文檔序號(hào)：42854823發(fā)布日期：2025-08-26 19:09閱讀：7來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本技術(shù)涉及智能穿戴，尤其涉及一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控方法、裝置及設(shè)備。

背景技術(shù)：

1、智能眼鏡作為融合光學(xué)、電子和人工智能技術(shù)的新型可穿戴設(shè)備，在對(duì)話和講座聽譯等場(chǎng)景應(yīng)用廣泛，用戶借助智能眼鏡可以實(shí)現(xiàn)語(yǔ)音交互以及跨國(guó)交流。

2、目前，智能眼鏡的語(yǔ)音處理技術(shù)多采用通用的語(yǔ)音識(shí)別和增強(qiáng)算法。通過(guò)收音設(shè)備陣列采集環(huán)境音頻，利用波束成形技術(shù)定向捕捉聲源，再結(jié)合聲學(xué)模型實(shí)現(xiàn)語(yǔ)音識(shí)別與降噪。

3、然而，不同的用戶對(duì)聲音的偏好與敏感度存在差異，比如音樂愛好者可能希望增強(qiáng)低頻音效，聽力障礙用戶更需要突出人聲頻段，有些用戶偏好溫暖醇厚的音色，有些用戶則喜歡清亮通透的音質(zhì)。但現(xiàn)有技術(shù)通常聚焦于語(yǔ)音信號(hào)的標(biāo)準(zhǔn)化處理，難以針對(duì)不同用戶的聽覺習(xí)慣和場(chǎng)景需求進(jìn)行差異化的聲音優(yōu)化調(diào)節(jié)，導(dǎo)致用戶難以獲得契合自身需求的聽覺體驗(yàn)，極大限制了智能眼鏡在語(yǔ)音交互場(chǎng)景中的個(gè)性化能力。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供了一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控方法、裝置及設(shè)備，用于解決如下技術(shù)問(wèn)題：現(xiàn)有技術(shù)通常聚焦于語(yǔ)音信號(hào)的標(biāo)準(zhǔn)化處理，難以針對(duì)不同用戶的聽覺習(xí)慣和場(chǎng)景需求進(jìn)行差異化的聲音優(yōu)化調(diào)節(jié)，導(dǎo)致用戶難以獲得契合自身需求的聽覺體驗(yàn)，極大限制了智能眼鏡在語(yǔ)音交互場(chǎng)景中的個(gè)性化能力。

2、本技術(shù)實(shí)施例采用下述技術(shù)方案：

3、本技術(shù)實(shí)施例提供一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控方法。包括，獲取當(dāng)前場(chǎng)景中說(shuō)話人的音頻信息，并根據(jù)音頻特征將音頻信息劃分為多個(gè)音頻片段；獲取當(dāng)前場(chǎng)景中的人像信息，將人像信息與相應(yīng)的音頻片段進(jìn)行關(guān)聯(lián)，以確定出目標(biāo)說(shuō)話人；在當(dāng)前場(chǎng)景的噪音水平達(dá)到預(yù)設(shè)噪音水平時(shí)，基于噪音水平與智能眼鏡使用偏好數(shù)據(jù)之間的映射關(guān)系，確定出用戶在當(dāng)前場(chǎng)景下對(duì)應(yīng)的聲音偏好信息；對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行分析，基于分析后得到的聲音特征響應(yīng)動(dòng)態(tài)聲音調(diào)整策略，以對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行優(yōu)化；基于聲音偏好信息，通過(guò)設(shè)置于智能眼鏡上的功放對(duì)優(yōu)化后的聲音進(jìn)行頻段調(diào)節(jié)，實(shí)現(xiàn)目標(biāo)語(yǔ)音調(diào)控。

4、在本技術(shù)的一種實(shí)現(xiàn)方式中，獲取當(dāng)前場(chǎng)景中的人像信息，將人像信息與相應(yīng)的音頻片段進(jìn)行關(guān)聯(lián)，以確定出目標(biāo)說(shuō)話人，具體包括：在確定為雙人場(chǎng)景的情況下，啟動(dòng)定向收音，根據(jù)人像信息對(duì)應(yīng)的方位與音頻片段對(duì)應(yīng)的音源距離，確定出收音方位，并將音頻片段與人像信息進(jìn)行關(guān)聯(lián)，以確定出目標(biāo)說(shuō)話人；在確定為多人場(chǎng)景的情況下，啟動(dòng)全向收音，根據(jù)發(fā)生口型變化的人像信息、聲音出現(xiàn)時(shí)間、各人像信息對(duì)應(yīng)的方位以及各音頻片段分別對(duì)應(yīng)的音源距離，將各人像信息與各音頻片段進(jìn)行關(guān)聯(lián)，并將發(fā)生口型變化的人作為目標(biāo)說(shuō)話人。

5、在本技術(shù)的一種實(shí)現(xiàn)方式中，在確定為多人場(chǎng)景的情況下，方法還包括：響應(yīng)預(yù)設(shè)方案啟動(dòng)請(qǐng)求，將當(dāng)前多人場(chǎng)景內(nèi)采集的音頻片段與數(shù)據(jù)庫(kù)中的預(yù)置數(shù)據(jù)進(jìn)行匹配；若數(shù)據(jù)庫(kù)中存在與音頻片段匹配的預(yù)置數(shù)據(jù)，則在數(shù)據(jù)庫(kù)中確定出與音頻片段存在關(guān)聯(lián)的人像信息，以基于人像信息確定出目標(biāo)說(shuō)話人；若數(shù)據(jù)庫(kù)中不存在與音頻片段匹配的預(yù)置數(shù)據(jù)，則對(duì)當(dāng)前場(chǎng)景中的人像信息以及各人像信息分別對(duì)應(yīng)的音頻信息進(jìn)行采集，并建立人像信息與音頻信息之間的對(duì)應(yīng)關(guān)系，基于對(duì)應(yīng)關(guān)系將人像信息與音頻信息存儲(chǔ)至數(shù)據(jù)庫(kù)。

6、在本技術(shù)的一種實(shí)現(xiàn)方式中，基于噪音水平與智能眼鏡使用偏好數(shù)據(jù)之間的映射關(guān)系，確定出用戶在當(dāng)前場(chǎng)景下對(duì)應(yīng)的聲音偏好信息之前，方法還包括：基于不同聲音場(chǎng)景，對(duì)智能眼鏡對(duì)應(yīng)的歷史使用數(shù)據(jù)進(jìn)行分類；其中，歷史使用數(shù)據(jù)至少包括歷史噪音水平數(shù)據(jù)、歷史音量調(diào)整數(shù)據(jù)與歷史音質(zhì)均衡參數(shù)調(diào)整數(shù)據(jù)；對(duì)分類后的歷史使用數(shù)據(jù)進(jìn)行噪音水平標(biāo)簽標(biāo)注；基于不同聲音場(chǎng)景，對(duì)不同噪音水平標(biāo)簽分別對(duì)應(yīng)的歷史使用數(shù)據(jù)，進(jìn)行聲音調(diào)整特征提?。换诼曇粽{(diào)整特征與協(xié)同過(guò)濾算法，得到用戶聲音偏好數(shù)據(jù)；將不同聲音場(chǎng)景、不同噪音水平以及聲音偏好數(shù)據(jù)進(jìn)行映射，構(gòu)建智能眼鏡使用偏好數(shù)據(jù)表。

7、在本技術(shù)的一種實(shí)現(xiàn)方式中，對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行分析，具體包括：基于目標(biāo)說(shuō)話人對(duì)應(yīng)的音頻片段，確定出聲波頻率分布特征與波形特征，以基于聲波頻率分布特征與波形特征，得到音色特征；獲取目標(biāo)說(shuō)話人在預(yù)置時(shí)段內(nèi)對(duì)應(yīng)的輸出詞匯量與音節(jié)變化量，將輸出詞匯量與音節(jié)變化量分別與預(yù)置變量閾值進(jìn)行比對(duì)，基于比對(duì)結(jié)果得到語(yǔ)速特征；基于目標(biāo)說(shuō)話人對(duì)應(yīng)的音頻片段，確定出基頻曲線相鄰幀之間的斜率，以及確定出基頻曲線對(duì)應(yīng)的波峰波谷數(shù)據(jù)，基于斜率與波峰波谷數(shù)據(jù)，得到語(yǔ)調(diào)特征。

8、在本技術(shù)的一種實(shí)現(xiàn)方式中，基于分析后得到的聲音特征響應(yīng)動(dòng)態(tài)聲音調(diào)整策略，以對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行優(yōu)化，具體包括：在音色特征與目標(biāo)音色特征之間存在偏差的情況下，根據(jù)偏差對(duì)音頻片段的不同頻段進(jìn)行增益調(diào)節(jié)；在語(yǔ)速特征與目標(biāo)語(yǔ)速特征之間存在偏差的情況下，通過(guò)預(yù)置聲音信號(hào)處理算法，對(duì)音頻片段進(jìn)行去噪，并對(duì)去噪后的音頻片段進(jìn)行音節(jié)延長(zhǎng)；在語(yǔ)調(diào)特征與目標(biāo)語(yǔ)調(diào)特征之間存在偏差的情況下，基于音頻片段提取基頻變化軌跡，通過(guò)動(dòng)態(tài)時(shí)間規(guī)整將基頻變化軌跡與目標(biāo)語(yǔ)調(diào)模板進(jìn)行比對(duì)，并將比對(duì)誤差不符合預(yù)設(shè)條件的區(qū)段進(jìn)行調(diào)節(jié)。

9、在本技術(shù)的一種實(shí)現(xiàn)方式中，通過(guò)預(yù)置聲音信號(hào)處理算法，對(duì)音頻片段進(jìn)行去噪，并對(duì)去噪后的音頻片段進(jìn)行音節(jié)延長(zhǎng)，具體包括：通過(guò)小波變換對(duì)音頻片段進(jìn)行去噪重構(gòu)處理，以及通過(guò)語(yǔ)音增強(qiáng)中的譜減算法對(duì)音頻片段進(jìn)行信噪比增強(qiáng)處理；對(duì)處理后的音頻片段對(duì)應(yīng)的語(yǔ)音識(shí)別文本，進(jìn)行語(yǔ)義分析與情感分析，基于分析結(jié)果在語(yǔ)音識(shí)別文本中確定出關(guān)鍵語(yǔ)義；根據(jù)偏差與預(yù)置比例關(guān)系，確定出音節(jié)延長(zhǎng)系數(shù)，基于延長(zhǎng)系數(shù)對(duì)關(guān)鍵語(yǔ)義進(jìn)行音節(jié)延長(zhǎng)。

10、在本技術(shù)的一種實(shí)現(xiàn)方式中，基于聲音偏好信息，通過(guò)設(shè)置于智能眼鏡上的功放對(duì)優(yōu)化后的聲音進(jìn)行頻段調(diào)節(jié)，實(shí)現(xiàn)目標(biāo)語(yǔ)音調(diào)控，具體包括：以智能眼鏡為圓心，將水平方向空間劃分為多個(gè)扇形區(qū)域；其中，每個(gè)扇形區(qū)域分別對(duì)應(yīng)一組功放參數(shù)；將目標(biāo)說(shuō)話人對(duì)應(yīng)的音源位置，與多個(gè)扇形區(qū)域進(jìn)行匹配，確定出待調(diào)節(jié)扇形區(qū)域，以及確定出待調(diào)節(jié)扇形區(qū)域?qū)?yīng)的初始功放配置；基于聲音偏好信息，對(duì)初始功放配置進(jìn)行調(diào)節(jié)，以對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行頻段增強(qiáng)，以及，對(duì)非目標(biāo)說(shuō)話人的聲音進(jìn)行頻段衰減。

11、本技術(shù)實(shí)施例提供一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控裝置，包括：劃分單元，獲取當(dāng)前場(chǎng)景中說(shuō)話人的音頻信息，并根據(jù)音頻特征將音頻信息劃分為多個(gè)音頻片段；關(guān)聯(lián)單元，獲取當(dāng)前場(chǎng)景中的人像信息，將人像信息與相應(yīng)的音頻片段進(jìn)行關(guān)聯(lián)，以確定出目標(biāo)說(shuō)話人；解析單元，在當(dāng)前場(chǎng)景的噪音水平達(dá)到預(yù)設(shè)噪音水平時(shí)，基于噪音水平與智能眼鏡使用偏好數(shù)據(jù)之間的映射關(guān)系，確定出用戶在當(dāng)前場(chǎng)景下對(duì)應(yīng)的聲音偏好信息；優(yōu)化單元，對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行分析，基于分析后得到的聲音特征響應(yīng)動(dòng)態(tài)聲音調(diào)整策略，以對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行優(yōu)化；調(diào)節(jié)單元，基于聲音偏好信息，通過(guò)設(shè)置于智能眼鏡上的功放對(duì)優(yōu)化后的聲音進(jìn)行頻段調(diào)節(jié)，實(shí)現(xiàn)目標(biāo)語(yǔ)音調(diào)控。

12、本技術(shù)實(shí)施例提供一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控設(shè)備，包括：至少一個(gè)處理器；以及，與至少一個(gè)處理器通信連接的存儲(chǔ)器；其中，存儲(chǔ)器存儲(chǔ)有可被至少一個(gè)處理器執(zhí)行的指令，指令被至少一個(gè)處理器執(zhí)行，以使至少一個(gè)處理器能夠：獲取當(dāng)前場(chǎng)景中說(shuō)話人的音頻信息，并根據(jù)音頻特征將音頻信息劃分為多個(gè)音頻片段；獲取當(dāng)前場(chǎng)景中的人像信息，將人像信息與相應(yīng)的音頻片段進(jìn)行關(guān)聯(lián)，以確定出目標(biāo)說(shuō)話人；在當(dāng)前場(chǎng)景的噪音水平達(dá)到預(yù)設(shè)噪音水平時(shí)，基于噪音水平與智能眼鏡使用偏好數(shù)據(jù)之間的映射關(guān)系，確定出用戶在當(dāng)前場(chǎng)景下對(duì)應(yīng)的聲音偏好信息；對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行分析，基于分析后得到的聲音特征響應(yīng)動(dòng)態(tài)聲音調(diào)整策略，以對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行優(yōu)化；基于聲音偏好信息，通過(guò)設(shè)置于智能眼鏡上的功放對(duì)優(yōu)化后的聲音進(jìn)行頻段調(diào)節(jié)，實(shí)現(xiàn)目標(biāo)語(yǔ)音調(diào)控。

13、本技術(shù)實(shí)施例采用的上述至少一個(gè)技術(shù)方案能夠達(dá)到以下有益效果：通過(guò)將音頻片段與人像信息關(guān)聯(lián)確定目標(biāo)說(shuō)話人，能精準(zhǔn)捕捉目標(biāo)發(fā)言人聲音，避免其他聲音干擾，提升語(yǔ)音識(shí)別準(zhǔn)確性與交互效率。其次，對(duì)目標(biāo)說(shuō)話人聲音進(jìn)行分析并響應(yīng)動(dòng)態(tài)調(diào)整策略，對(duì)不同的目標(biāo)說(shuō)話人進(jìn)行個(gè)性化的聲音質(zhì)量?jī)?yōu)化，在不同環(huán)境或語(yǔ)音內(nèi)容變化時(shí)確保聲音清晰、自然。本技術(shù)實(shí)施例還根據(jù)用戶歷史使用數(shù)據(jù)確定不同場(chǎng)景、不同噪音下的聲音偏好信息，基于聲音偏好信息進(jìn)行頻段調(diào)節(jié)實(shí)現(xiàn)目標(biāo)語(yǔ)音調(diào)控，使智能眼鏡提供更智能、人性化的服務(wù)。用戶無(wú)需手動(dòng)頻繁調(diào)整設(shè)置，就能在各種場(chǎng)景下獲得理想的語(yǔ)音聽覺體驗(yàn)，增強(qiáng)產(chǎn)品使用性能。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曹衛(wèi),邵俊艷,張婉婷,史春苓,陳科科
技術(shù)所有人：杭州秋果計(jì)劃科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控方法、裝置及設(shè)備與流程

一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控方法、裝置及設(shè)備與流程