信息處理設(shè)備和信息處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理設(shè)備和信息處理方法,特別是涉及能夠識別圖像上的語音數(shù) 據(jù)的獲取位置的信息處理設(shè)備和信息處理方法。
【背景技術(shù)】
[0002] 最熱門的流媒體服務(wù)之一是基于互聯(lián)網(wǎng)的跨頂(over-the-top)視頻(0TT-V)。運 動圖像專家組階段-基于HTTP的動態(tài)自適應流媒體(MPEG-DASH)被廣泛用作其底層技術(shù) (參見,例如非專利文獻1)。
[0003] 在MPEG-DASH中,遞送服務(wù)器針對一個視頻內(nèi)容項制備具有不同畫面大小的一組 視頻數(shù)據(jù)和碼率,并且回放終端基于傳輸線路條件來請求具有最佳畫面大小和碼率的一組 視頻數(shù)據(jù),從而實現(xiàn)自適應流媒體遞送。
[0004] 引文列表 [0005] 非專利文獻
[0006] 非專利文獻1 :MPEG-DASH(基于HTTP的動態(tài)自適應流媒體)(URL:http://mpeg. chiariglione.org/standards/mpeg-dash/media_presentati on-description-and-segm ent-formats/text-isoiec-23009-12012-dam-l)
【發(fā)明內(nèi)容】
[0007] 技術(shù)問題
[0008] 然而,未給出關(guān)于由回放終端識別視頻內(nèi)容上的語音數(shù)據(jù)的獲取位置的考慮。
[0009] 本發(fā)明是鑒于這樣的情形而提出的,并且旨在能夠識別圖像上的語音數(shù)據(jù)的獲取 位置。
[0010] 問題的解決方案
[0011] 根據(jù)本公開內(nèi)容的第一方面的信息處理設(shè)備包括:發(fā)送器,該發(fā)送器被配置成發(fā) 送圖像幀大小信息和語音位置信息,圖像幀大小信息表示圖像數(shù)據(jù)的圖像幀大小,語音位 置信息表示語音數(shù)據(jù)的獲取位置。
[0012] 根據(jù)本公開內(nèi)容的第一方面的信息處理方法與根據(jù)本公開內(nèi)容的第一方面的信 息處理設(shè)備對應。
[0013] 根據(jù)本公開內(nèi)容的第一方面,發(fā)送圖像幀大小信息和語音位置信息,圖像幀大小 信息表示圖像數(shù)據(jù)的圖像幀大小,語音位置信息表示語音數(shù)據(jù)的獲取位置。
[0014] 根據(jù)本公開內(nèi)容的第二方面的信息處理設(shè)備包括:接收器,該接收器被配置成接 收圖像幀大小信息和語音位置信息,圖像幀大小信息表示圖像數(shù)據(jù)的圖像幀大小,語音位 置信息表示語音數(shù)據(jù)的獲取位置;以及位置確定單元,該位置確定單元被配置成基于由接 收器接收到的圖像數(shù)據(jù)的圖像幀大小信息和語音位置信息,確定與圖像數(shù)據(jù)對應的圖像上 的語音數(shù)據(jù)的獲取位置。
[0015] 根據(jù)本公開內(nèi)容的第二方面的信息處理方法與根據(jù)本公開內(nèi)容的信息處理設(shè)備 對應。
[0016] 根據(jù)本公開內(nèi)容的第二方面,接收圖像幀大小信息和語音位置信息,圖像幀大小 信息表示圖像數(shù)據(jù)的圖像幀大小,語音位置信息表示語音數(shù)據(jù)的獲取位置?;趫D像數(shù)據(jù) 的圖像幀大小信息和語音位置信息來確定與圖像數(shù)據(jù)對應的圖像上的語音數(shù)據(jù)的獲取位 置。
[0017] 根據(jù)第一方面和第二方面的信息處理設(shè)備可以通過使計算機執(zhí)行一定程序來實 現(xiàn)。
[0018] 要由計算機執(zhí)行的程序可以通過經(jīng)由傳輸介質(zhì)傳送或記錄在記錄介質(zhì)中來提供, 以實現(xiàn)根據(jù)第一方面和第二方面的信息處理設(shè)備。
[0019] 發(fā)明的有利效果
[0020] 根據(jù)本公開內(nèi)容的第一方面,可以傳送用于識別圖像上的語音數(shù)據(jù)的獲取位置的 信息。
[0021] 根據(jù)本公開內(nèi)容的第二方面,可以識別圖像上的語音數(shù)據(jù)的獲取位置。
【附圖說明】
[0022] [圖1]圖1是被示出以描述應用本公開內(nèi)容的信息處理系統(tǒng)的第一實施方式的概 況的圖。
[0023] [圖2]圖2是示出瓦片的示例的圖。
[0024] [圖3]圖3是被示出以描述對象的圖。
[0025] [圖4]圖4是被示出以描述對象位置信息的圖。
[0026] [圖5]圖5是被示出以描述圖像幀大小信息的圖。
[0027] [圖6]圖6是示出MPD文件的結(jié)構(gòu)的圖。
[0028] [圖7]圖7是示出"時段"、"表示"和"段"元素之間的關(guān)系的圖。
[0029] [圖8]圖8是示出MPD文件的層次結(jié)構(gòu)的圖。
[0030] [圖9]圖9是示出MPD文件的結(jié)構(gòu)與時間軸之間的關(guān)系的圖。
[0031] [圖10]圖10是被示出以描述MPD文件的示例性描述的圖。
[0032] [圖11]圖11是示出文件生成設(shè)備的示例性配置的框圖。
[0033] [圖12]圖12是被示出以描述由文件生成設(shè)備執(zhí)行的文件生成處理的流程圖。
[0034] [圖13]圖13是示出流媒體回放部的示例性配置的框圖。
[0035] [圖14]圖14是被示出以描述由流媒體回放部執(zhí)行的流媒體回放處理的流程圖。
[0036] [圖15]圖15是被示出以描述MPD文件的另一示例性描述的圖。
[0037] [圖16]圖16是被示出以描述MPD文件的又一示例性描述的圖。
[0038] [圖17]圖17是示出音頻流的布置示例的圖。
[0039] [圖18]圖18是示出gsix的示例性描述的圖。
[0040] [圖19]圖19是示出表示樣本組條目與對象ID之間的關(guān)聯(lián)關(guān)系的信息的示例。
[0041] [圖20]圖20是示出音頻對象樣本組條目的示例性描述的圖。
[0042] [圖21]圖21是示出類型分配盒的示例性描述的圖。
[0043] [圖22]圖22是被示出以描述應用本公開內(nèi)容的信息處理系統(tǒng)的第二實施方式的 概況的圖。
[0044] [圖23]圖23是示出應用本公開內(nèi)容的信息處理系統(tǒng)的流媒體回放部的示例性配 置的框圖。
[0045] [圖24]圖24是被示出以描述確定對象的位置的方法的圖。
[0046] [圖25]圖25是被示出以描述確定對象的位置的方法的圖。
[0047] [圖26]圖26是被示出以描述確定對象的位置的方法的圖。
[0048] [圖27]圖27是示出水平角θΑι與θ Αι'之間的關(guān)系的圖。
[0049] [圖28]圖28是示出垂直角γν/與γΑ/之間的關(guān)系的圖。
[0050] [圖29]圖29是被示出以描述要由圖23中的流媒體回放部執(zhí)行的流媒體回放處 理的流程圖。
[0051] [圖30]圖30是被示出以更詳細地描述圖29中的位置確定處理的流程圖。
[0052] [圖31]圖31是被示出以詳細描述圖30中的水平角θ Αι'估計處理的流程圖。
[0053] [圖32]圖32是被示出以描述根據(jù)應用本公開內(nèi)容的信息處理系統(tǒng)的第三實施方 式的用于確定對象的位置的方法的圖。
[0054] [圖33]圖33是被示出以描述根據(jù)應用本公開內(nèi)容的信息處理系統(tǒng)的第三實施方 式的用于確定對象的位置的方法的圖。
[0055] [圖34]圖34是被示出以描述根據(jù)應用本公開內(nèi)容的信息處理系統(tǒng)的第三實施方 式的用于確定對象的位置的方法的圖。
[0056] [圖35]圖35是被示出以描述根據(jù)應用本公開內(nèi)容的信息處理系統(tǒng)的第三實施方 式的用于確定對象的位置的方法的圖。
[0057] [圖36]圖36是被示出以詳細描述根據(jù)應用本公開內(nèi)容的信息處理系統(tǒng)的第三實 施方式的位置確定處理的流程圖。
[0058] [圖37]圖37是示出計算機的示例性硬件配置的框圖。
【具體實施方式】
[0059] 〈第一實施方式〉
[0060](信息處理系統(tǒng)的第一實施方式的概述)
[0061]圖1是被示出以描述應用本公開內(nèi)容的信息處理系統(tǒng)的第一實施方式的概述的 圖。
[0062] 圖1所示的信息處理系統(tǒng)10被配置成包括通過因特網(wǎng)13彼此相連的Web服務(wù)器 12和視頻回放終端14。Web服務(wù)器12連接至文件生成設(shè)備11。
[0063] 在信息處理系統(tǒng)10中,Web服務(wù)器12使用符合MPEG-DASH的方式以瓦片(tile) (瓦片流)為單位向視頻回放終端14遞送視頻內(nèi)容的圖像數(shù)據(jù)。
[0064] 具體地,文件生成設(shè)備11獲取視頻內(nèi)容的圖像數(shù)據(jù)并且以瓦片為單位對圖像數(shù) 據(jù)進行編碼以生成視頻流。文件生成設(shè)備11以范圍從幾秒至大約十秒的時間間隔將每個 瓦片的視頻流處理成文件格式,該時間間隔被稱為段。文件生成設(shè)備11將所得到的每個瓦 片的圖像文件上傳至Web服務(wù)器12。
[0065] 文件生成設(shè)備11針對(稍后詳細描述的)每個對象獲取視頻內(nèi)容的音頻數(shù)據(jù)并 且以對象為單位對音頻數(shù)據(jù)進行編碼以生成音頻流。文件生成設(shè)備11以段為單位將每個 對象的音頻流處理成文件格式,并且將所得到的每個對象的音頻文件上傳至Web服務(wù)器 12。
[0066] 對象是聲源。每個對象的語音數(shù)據(jù)是通過附接至該對象的麥克風或其他音頻設(shè)備 而獲取的。對象可以是諸如固定的傳聲器架的實物或者可以是諸如人的移動體。
[0067] 文件生成設(shè)備11對包括對象位置信息(語音位置信息)和對象ID的音頻元數(shù)據(jù) 進行編碼,對象位置信息表示每個對象的位置(獲取音頻數(shù)據(jù)的位置),對象ID是對象的唯 一 ID。文件生成設(shè)備11以段為單位將通過對音頻元數(shù)據(jù)進行編碼而獲得的編碼數(shù)據(jù)處理 成文件格式,并且文件生成設(shè)備11將所得到的語音元文件上傳至Web服務(wù)器12。
[0068] 文件生成設(shè)備11生成用于管理圖像文件或語音文件的媒體表示描述(MPD)文件 (控制信息)。媒體表示描述文件可以包含指示視頻內(nèi)容中的圖像的幀大小的圖像幀大小 信息,并且包含指示每個瓦片在圖像上的位置的瓦片位置信息。文件生成設(shè)備11將Mro文 件上傳至Web服務(wù)器12。
[0069] Web服務(wù)器12存儲從文件生成設(shè)備11上傳的圖像文件、語音文件、語音元文件和 MTO文件。
[0070] 在如圖1所示的示例中,Web服務(wù)器12存儲由瓦片ID為"1"的瓦片的圖像文件 構(gòu)成的多個段的段組和由瓦片ID為"2"的瓦片的圖像文件構(gòu)成的多個段的段組。Web服務(wù) 器12還存儲由對象ID為"1"的對象的語音文件構(gòu)成的多個段的段組和由對象ID為"2" 的對象的語音文件構(gòu)成的多個段的段組。盡管未示出,但類似地存儲有由語音元文件構(gòu)成 的段組。
[0071] 在下文中,將瓦片ID為i的瓦片稱為"瓦片#i"并且將對象ID為i的對象稱為 "對象#i"。
[0072] Web服務(wù)器12用作發(fā)送器,該發(fā)送器被配置成響應于來自視頻回放終端14的請求 而向視頻回放終端14發(fā)送所存儲的圖像文件、語音文件、語音元文件和MPD文件。
[0073] 視頻回放終端14執(zhí)行例如用于控制流媒體數(shù)據(jù)的軟件(在下文中被稱為控制軟 件)21、視頻回放軟件22和用于超文本傳輸協(xié)議(HTTP)訪問的客戶端軟件(在下文中被稱 為訪問軟件)23。
[0074] 控制軟件21是控制從Web服務(wù)器12經(jīng)由流媒體遞送的數(shù)據(jù)的軟件。具體地,控 制軟件21使視頻回放終端14能夠從Web服務(wù)器12獲取MPD文件。
[0075] 控制軟件21基于顯示區(qū)域和包含在MH)文件中的瓦片位置信息來指定顯示區(qū)域 中的瓦片,該顯示區(qū)域是圖像中用于顯示由音頻回放軟件22指示的視頻內(nèi)容的區(qū)域??刂?軟件21指示訪問軟件23發(fā)出對發(fā)送所指定的瓦片的圖像文件的請求。
[0076] 控制軟件21指示訪問軟件23發(fā)出對發(fā)送語音元文件的請求。控制軟件21基于 顯示區(qū)域、包含在MPD文件中的圖像幀大小信息和包含在語音元文件中的對象位置信息來 指定與顯示區(qū)域中的圖像對應的對象??刂栖浖?1指示訪問軟件23發(fā)出對發(fā)送所指定的 對象的語音文件的請求。
[0077] 視頻回放軟件22是用于回放從Web服務(wù)器12獲取的圖像文件和語音文件的軟 件。具體地,當用戶指定顯示區(qū)域時,視頻回放軟件22向控制軟件21指示所指定的顯示區(qū) 域。視頻回放軟件22響應于該指示而對從Web服務(wù)器12獲取的圖像文件和語音文件進行 解碼,并且視頻回放軟件22對解碼后的文件進行合成以用于輸出。
[0078] 訪問軟件23是用于控制使用HTTP經(jīng)由因特網(wǎng)13與Web服務(wù)器12的通信的軟件。 具體地,訪問軟件23使視頻回放終端14能夠響應于來自控制軟件21的指示來發(fā)送對發(fā)送 圖像文件、語音文件和語音元文件的請求。訪問軟件23使視頻回放終端14能夠接收響應 于發(fā)送請求而從Web服務(wù)器12發(fā)送的圖像文件、語音文件和語音元文件。
[0079](瓦片的示例)
[0080] 圖2是示出瓦片的示例的圖。
[0081] 如圖2所示,視頻內(nèi)容被劃分成多個瓦片。為從1開始的連續(xù)數(shù)字的瓦片ID被分 配給每個瓦片。在圖2所示的示例中,視頻內(nèi)容的圖像被劃分成四個瓦片#1至#4。
[0082] (對于對象的說明)
[0083] 圖3是被示出以描述對象的圖。
[0084] 圖3的示例示出了圖像中被獲取作為音頻內(nèi)容的語音的八個語音對象。為從1開 始的連續(xù)數(shù)字的對象ID被分配給每個對象。對象#1至對象#5是移動體,而對象#6至對 象#8是靜止物質(zhì)體。在圖3所示的示例中,視頻內(nèi)容的圖像被劃分成7 (寬度)X 5 (高度) 個瓦片。
[0085] 在該情況下,如圖3所示,當用戶指定由3 (寬度)X2(高度)個瓦片構(gòu)成的顯示 區(qū)域31時,顯示區(qū)域31僅包含對象#1、對象#2和對象#6。因此,視頻回放終端14可以從 Web服務(wù)器12獲取并回放對象#1、對象#2和對象#6的語音文件。
[0086] 可以基于上述圖像幀大小信息和對象位置信息來指定顯示區(qū)域31中的對象。
[0087] (對于對象位置信息的說明)
[0088] 圖4是被示出以描述對象位置信息的圖。
[0089] 如圖4所示,對象位置信息包含水平角ΘΑ(-180°彡ΘΑ< 180° )、垂直角 γΑ(-90°彡γΑ<90° )和距離rA(0<rA)。例如,圖像的中心處的拍攝位置可以被設(shè)置 成原點(基點)〇,圖像的水平方向可以被設(shè)置成X軸方向,圖像的垂直方向可以被設(shè)置成Y 軸方向以及與XY平面垂直的深度方向可以被設(shè)置成Z軸方向。在該情況下,水平角0,是 由YZ平面與連接對象40和原點0的直線形成的在水平方向上的角度。垂直角γΑ是由XZ 平面與連接對象40和原點0的直線形成的在垂直方向上的角度。距離rA是對象40與原 點0之間的距離。
[0090] 在下文中,將向左上旋轉(zhuǎn)的角度設(shè)置成正角度,而將向右下旋轉(zhuǎn)的角度設(shè)置成負 角度。
[0091] (對于圖像幀大小信息的說明)
[0092] 圖5是被示出以描述圖像幀大小信息的圖。
[0093] 如圖5所示,圖像幀大小信息包含左邊緣的水平角θνι、右邊緣的水平角θ ν2、上邊 緣的垂直角、γνι下邊緣的垂直角γ V2以及圖像幀的距離rv。
[0094] 圖像的中心的拍攝位置可以被設(shè)置成原點0,圖像的水平方向可以被設(shè)置成X軸 方向、圖像的垂直方向可以被設(shè)置成Y軸方向以及與XY平面垂直的深度方向可以被設(shè)置成 z軸方向。在該情況下,水平角θνι是由YZ平面和連接圖像幀的左端與原點0的直線形成 的角度。水平角θν2是由ΥΖ平面和連接圖像幀的右端與原點0的直線形成的角度。因此, 通過組合水平角Θν1和水平角θ V2而獲得的角成為水平視角。
[0095] 垂直角γνι是由XZ平面和在圖像幀的上端與原點0之間連接的直線形成的角度, 以及垂直角γν2是由ΧΖ平面和在圖像幀的下端與原點〇之間連接的直線形成的角度。通 過組合垂直角γ