本技術(shù)涉及智能穿戴,尤其涉及一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控方法、裝置及設(shè)備。
背景技術(shù):
1、智能眼鏡作為融合光學(xué)、電子和人工智能技術(shù)的新型可穿戴設(shè)備,在對(duì)話和講座聽譯等場(chǎng)景應(yīng)用廣泛,用戶借助智能眼鏡可以實(shí)現(xiàn)語(yǔ)音交互以及跨國(guó)交流。
2、目前,智能眼鏡的語(yǔ)音處理技術(shù)多采用通用的語(yǔ)音識(shí)別和增強(qiáng)算法。通過(guò)收音設(shè)備陣列采集環(huán)境音頻,利用波束成形技術(shù)定向捕捉聲源,再結(jié)合聲學(xué)模型實(shí)現(xiàn)語(yǔ)音識(shí)別與降噪。
3、然而,不同的用戶對(duì)聲音的偏好與敏感度存在差異,比如音樂愛好者可能希望增強(qiáng)低頻音效,聽力障礙用戶更需要突出人聲頻段,有些用戶偏好溫暖醇厚的音色,有些用戶則喜歡清亮通透的音質(zhì)。但現(xiàn)有技術(shù)通常聚焦于語(yǔ)音信號(hào)的標(biāo)準(zhǔn)化處理,難以針對(duì)不同用戶的聽覺習(xí)慣和場(chǎng)景需求進(jìn)行差異化的聲音優(yōu)化調(diào)節(jié),導(dǎo)致用戶難以獲得契合自身需求的聽覺體驗(yàn),極大限制了智能眼鏡在語(yǔ)音交互場(chǎng)景中的個(gè)性化能力。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供了一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控方法、裝置及設(shè)備,用于解決如下技術(shù)問(wèn)題:現(xiàn)有技術(shù)通常聚焦于語(yǔ)音信號(hào)的標(biāo)準(zhǔn)化處理,難以針對(duì)不同用戶的聽覺習(xí)慣和場(chǎng)景需求進(jìn)行差異化的聲音優(yōu)化調(diào)節(jié),導(dǎo)致用戶難以獲得契合自身需求的聽覺體驗(yàn),極大限制了智能眼鏡在語(yǔ)音交互場(chǎng)景中的個(gè)性化能力。
2、本技術(shù)實(shí)施例采用下述技術(shù)方案:
3、本技術(shù)實(shí)施例提供一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控方法。包括,獲取當(dāng)前場(chǎng)景中說(shuō)話人的音頻信息,并根據(jù)音頻特征將音頻信息劃分為多個(gè)音頻片段;獲取當(dāng)前場(chǎng)景中的人像信息,將人像信息與相應(yīng)的音頻片段進(jìn)行關(guān)聯(lián),以確定出目標(biāo)說(shuō)話人;在當(dāng)前場(chǎng)景的噪音水平達(dá)到預(yù)設(shè)噪音水平時(shí),基于噪音水平與智能眼鏡使用偏好數(shù)據(jù)之間的映射關(guān)系,確定出用戶在當(dāng)前場(chǎng)景下對(duì)應(yīng)的聲音偏好信息;對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行分析,基于分析后得到的聲音特征響應(yīng)動(dòng)態(tài)聲音調(diào)整策略,以對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行優(yōu)化;基于聲音偏好信息,通過(guò)設(shè)置于智能眼鏡上的功放對(duì)優(yōu)化后的聲音進(jìn)行頻段調(diào)節(jié),實(shí)現(xiàn)目標(biāo)語(yǔ)音調(diào)控。
4、在本技術(shù)的一種實(shí)現(xiàn)方式中,獲取當(dāng)前場(chǎng)景中的人像信息,將人像信息與相應(yīng)的音頻片段進(jìn)行關(guān)聯(lián),以確定出目標(biāo)說(shuō)話人,具體包括:在確定為雙人場(chǎng)景的情況下,啟動(dòng)定向收音,根據(jù)人像信息對(duì)應(yīng)的方位與音頻片段對(duì)應(yīng)的音源距離,確定出收音方位,并將音頻片段與人像信息進(jìn)行關(guān)聯(lián),以確定出目標(biāo)說(shuō)話人;在確定為多人場(chǎng)景的情況下,啟動(dòng)全向收音,根據(jù)發(fā)生口型變化的人像信息、聲音出現(xiàn)時(shí)間、各人像信息對(duì)應(yīng)的方位以及各音頻片段分別對(duì)應(yīng)的音源距離,將各人像信息與各音頻片段進(jìn)行關(guān)聯(lián),并將發(fā)生口型變化的人作為目標(biāo)說(shuō)話人。
5、在本技術(shù)的一種實(shí)現(xiàn)方式中,在確定為多人場(chǎng)景的情況下,方法還包括:響應(yīng)預(yù)設(shè)方案啟動(dòng)請(qǐng)求,將當(dāng)前多人場(chǎng)景內(nèi)采集的音頻片段與數(shù)據(jù)庫(kù)中的預(yù)置數(shù)據(jù)進(jìn)行匹配;若數(shù)據(jù)庫(kù)中存在與音頻片段匹配的預(yù)置數(shù)據(jù),則在數(shù)據(jù)庫(kù)中確定出與音頻片段存在關(guān)聯(lián)的人像信息,以基于人像信息確定出目標(biāo)說(shuō)話人;若數(shù)據(jù)庫(kù)中不存在與音頻片段匹配的預(yù)置數(shù)據(jù),則對(duì)當(dāng)前場(chǎng)景中的人像信息以及各人像信息分別對(duì)應(yīng)的音頻信息進(jìn)行采集,并建立人像信息與音頻信息之間的對(duì)應(yīng)關(guān)系,基于對(duì)應(yīng)關(guān)系將人像信息與音頻信息存儲(chǔ)至數(shù)據(jù)庫(kù)。
6、在本技術(shù)的一種實(shí)現(xiàn)方式中,基于噪音水平與智能眼鏡使用偏好數(shù)據(jù)之間的映射關(guān)系,確定出用戶在當(dāng)前場(chǎng)景下對(duì)應(yīng)的聲音偏好信息之前,方法還包括:基于不同聲音場(chǎng)景,對(duì)智能眼鏡對(duì)應(yīng)的歷史使用數(shù)據(jù)進(jìn)行分類;其中,歷史使用數(shù)據(jù)至少包括歷史噪音水平數(shù)據(jù)、歷史音量調(diào)整數(shù)據(jù)與歷史音質(zhì)均衡參數(shù)調(diào)整數(shù)據(jù);對(duì)分類后的歷史使用數(shù)據(jù)進(jìn)行噪音水平標(biāo)簽標(biāo)注;基于不同聲音場(chǎng)景,對(duì)不同噪音水平標(biāo)簽分別對(duì)應(yīng)的歷史使用數(shù)據(jù),進(jìn)行聲音調(diào)整特征提?。换诼曇粽{(diào)整特征與協(xié)同過(guò)濾算法,得到用戶聲音偏好數(shù)據(jù);將不同聲音場(chǎng)景、不同噪音水平以及聲音偏好數(shù)據(jù)進(jìn)行映射,構(gòu)建智能眼鏡使用偏好數(shù)據(jù)表。
7、在本技術(shù)的一種實(shí)現(xiàn)方式中,對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行分析,具體包括:基于目標(biāo)說(shuō)話人對(duì)應(yīng)的音頻片段,確定出聲波頻率分布特征與波形特征,以基于聲波頻率分布特征與波形特征,得到音色特征;獲取目標(biāo)說(shuō)話人在預(yù)置時(shí)段內(nèi)對(duì)應(yīng)的輸出詞匯量與音節(jié)變化量,將輸出詞匯量與音節(jié)變化量分別與預(yù)置變量閾值進(jìn)行比對(duì),基于比對(duì)結(jié)果得到語(yǔ)速特征;基于目標(biāo)說(shuō)話人對(duì)應(yīng)的音頻片段,確定出基頻曲線相鄰幀之間的斜率,以及確定出基頻曲線對(duì)應(yīng)的波峰波谷數(shù)據(jù),基于斜率與波峰波谷數(shù)據(jù),得到語(yǔ)調(diào)特征。
8、在本技術(shù)的一種實(shí)現(xiàn)方式中,基于分析后得到的聲音特征響應(yīng)動(dòng)態(tài)聲音調(diào)整策略,以對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行優(yōu)化,具體包括:在音色特征與目標(biāo)音色特征之間存在偏差的情況下,根據(jù)偏差對(duì)音頻片段的不同頻段進(jìn)行增益調(diào)節(jié);在語(yǔ)速特征與目標(biāo)語(yǔ)速特征之間存在偏差的情況下,通過(guò)預(yù)置聲音信號(hào)處理算法,對(duì)音頻片段進(jìn)行去噪,并對(duì)去噪后的音頻片段進(jìn)行音節(jié)延長(zhǎng);在語(yǔ)調(diào)特征與目標(biāo)語(yǔ)調(diào)特征之間存在偏差的情況下,基于音頻片段提取基頻變化軌跡,通過(guò)動(dòng)態(tài)時(shí)間規(guī)整將基頻變化軌跡與目標(biāo)語(yǔ)調(diào)模板進(jìn)行比對(duì),并將比對(duì)誤差不符合預(yù)設(shè)條件的區(qū)段進(jìn)行調(diào)節(jié)。
9、在本技術(shù)的一種實(shí)現(xiàn)方式中,通過(guò)預(yù)置聲音信號(hào)處理算法,對(duì)音頻片段進(jìn)行去噪,并對(duì)去噪后的音頻片段進(jìn)行音節(jié)延長(zhǎng),具體包括:通過(guò)小波變換對(duì)音頻片段進(jìn)行去噪重構(gòu)處理,以及通過(guò)語(yǔ)音增強(qiáng)中的譜減算法對(duì)音頻片段進(jìn)行信噪比增強(qiáng)處理;對(duì)處理后的音頻片段對(duì)應(yīng)的語(yǔ)音識(shí)別文本,進(jìn)行語(yǔ)義分析與情感分析,基于分析結(jié)果在語(yǔ)音識(shí)別文本中確定出關(guān)鍵語(yǔ)義;根據(jù)偏差與預(yù)置比例關(guān)系,確定出音節(jié)延長(zhǎng)系數(shù),基于延長(zhǎng)系數(shù)對(duì)關(guān)鍵語(yǔ)義進(jìn)行音節(jié)延長(zhǎng)。
10、在本技術(shù)的一種實(shí)現(xiàn)方式中,基于聲音偏好信息,通過(guò)設(shè)置于智能眼鏡上的功放對(duì)優(yōu)化后的聲音進(jìn)行頻段調(diào)節(jié),實(shí)現(xiàn)目標(biāo)語(yǔ)音調(diào)控,具體包括:以智能眼鏡為圓心,將水平方向空間劃分為多個(gè)扇形區(qū)域;其中,每個(gè)扇形區(qū)域分別對(duì)應(yīng)一組功放參數(shù);將目標(biāo)說(shuō)話人對(duì)應(yīng)的音源位置,與多個(gè)扇形區(qū)域進(jìn)行匹配,確定出待調(diào)節(jié)扇形區(qū)域,以及確定出待調(diào)節(jié)扇形區(qū)域?qū)?yīng)的初始功放配置;基于聲音偏好信息,對(duì)初始功放配置進(jìn)行調(diào)節(jié),以對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行頻段增強(qiáng),以及,對(duì)非目標(biāo)說(shuō)話人的聲音進(jìn)行頻段衰減。
11、本技術(shù)實(shí)施例提供一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控裝置,包括:劃分單元,獲取當(dāng)前場(chǎng)景中說(shuō)話人的音頻信息,并根據(jù)音頻特征將音頻信息劃分為多個(gè)音頻片段;關(guān)聯(lián)單元,獲取當(dāng)前場(chǎng)景中的人像信息,將人像信息與相應(yīng)的音頻片段進(jìn)行關(guān)聯(lián),以確定出目標(biāo)說(shuō)話人;解析單元,在當(dāng)前場(chǎng)景的噪音水平達(dá)到預(yù)設(shè)噪音水平時(shí),基于噪音水平與智能眼鏡使用偏好數(shù)據(jù)之間的映射關(guān)系,確定出用戶在當(dāng)前場(chǎng)景下對(duì)應(yīng)的聲音偏好信息;優(yōu)化單元,對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行分析,基于分析后得到的聲音特征響應(yīng)動(dòng)態(tài)聲音調(diào)整策略,以對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行優(yōu)化;調(diào)節(jié)單元,基于聲音偏好信息,通過(guò)設(shè)置于智能眼鏡上的功放對(duì)優(yōu)化后的聲音進(jìn)行頻段調(diào)節(jié),實(shí)現(xiàn)目標(biāo)語(yǔ)音調(diào)控。
12、本技術(shù)實(shí)施例提供一種基于智能眼鏡的目標(biāo)語(yǔ)音調(diào)控設(shè)備,包括:至少一個(gè)處理器;以及,與至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,存儲(chǔ)器存儲(chǔ)有可被至少一個(gè)處理器執(zhí)行的指令,指令被至少一個(gè)處理器執(zhí)行,以使至少一個(gè)處理器能夠:獲取當(dāng)前場(chǎng)景中說(shuō)話人的音頻信息,并根據(jù)音頻特征將音頻信息劃分為多個(gè)音頻片段;獲取當(dāng)前場(chǎng)景中的人像信息,將人像信息與相應(yīng)的音頻片段進(jìn)行關(guān)聯(lián),以確定出目標(biāo)說(shuō)話人;在當(dāng)前場(chǎng)景的噪音水平達(dá)到預(yù)設(shè)噪音水平時(shí),基于噪音水平與智能眼鏡使用偏好數(shù)據(jù)之間的映射關(guān)系,確定出用戶在當(dāng)前場(chǎng)景下對(duì)應(yīng)的聲音偏好信息;對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行分析,基于分析后得到的聲音特征響應(yīng)動(dòng)態(tài)聲音調(diào)整策略,以對(duì)目標(biāo)說(shuō)話人的聲音進(jìn)行優(yōu)化;基于聲音偏好信息,通過(guò)設(shè)置于智能眼鏡上的功放對(duì)優(yōu)化后的聲音進(jìn)行頻段調(diào)節(jié),實(shí)現(xiàn)目標(biāo)語(yǔ)音調(diào)控。
13、本技術(shù)實(shí)施例采用的上述至少一個(gè)技術(shù)方案能夠達(dá)到以下有益效果:通過(guò)將音頻片段與人像信息關(guān)聯(lián)確定目標(biāo)說(shuō)話人,能精準(zhǔn)捕捉目標(biāo)發(fā)言人聲音,避免其他聲音干擾,提升語(yǔ)音識(shí)別準(zhǔn)確性與交互效率。其次,對(duì)目標(biāo)說(shuō)話人聲音進(jìn)行分析并響應(yīng)動(dòng)態(tài)調(diào)整策略,對(duì)不同的目標(biāo)說(shuō)話人進(jìn)行個(gè)性化的聲音質(zhì)量?jī)?yōu)化,在不同環(huán)境或語(yǔ)音內(nèi)容變化時(shí)確保聲音清晰、自然。本技術(shù)實(shí)施例還根據(jù)用戶歷史使用數(shù)據(jù)確定不同場(chǎng)景、不同噪音下的聲音偏好信息,基于聲音偏好信息進(jìn)行頻段調(diào)節(jié)實(shí)現(xiàn)目標(biāo)語(yǔ)音調(diào)控,使智能眼鏡提供更智能、人性化的服務(wù)。用戶無(wú)需手動(dòng)頻繁調(diào)整設(shè)置,就能在各種場(chǎng)景下獲得理想的語(yǔ)音聽覺體驗(yàn),增強(qiáng)產(chǎn)品使用性能。