aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

信息處理的制作方法

文檔序號:6651919閱讀:295來源:國知局
專利名稱:信息處理的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理。
背景技術(shù)
有許多已設(shè)立的系統(tǒng)用于通過根據(jù)關(guān)鍵字搜索來定位信息(例如,文檔、圖像、電子郵件、專利、諸如音頻/視頻內(nèi)容等因特網(wǎng)內(nèi)容或介質(zhì)內(nèi)容)。示例包括有因特網(wǎng)引擎,如由“Google”TM或“Yahoo”TM等提供的因特網(wǎng)引擎,在這些引擎中,按關(guān)鍵字執(zhí)行的搜索產(chǎn)生了由搜索引擎以理解的相關(guān)性排列的結(jié)果列表。
然而,在經(jīng)常稱為大量內(nèi)容集合,包括大量內(nèi)容的系統(tǒng)中,可能難以明確表達有效的搜索查詢以提供相對短的搜索“查詢結(jié)果”列表。例如,在準備本申請時,使用關(guān)鍵字“massive documentcollection”的Google搜索獲得了1470000個查詢結(jié)果。由于在因特網(wǎng)上存儲的內(nèi)容量通常與時俱增,因此,如果搜索在以后重復進行,則此查詢結(jié)果的數(shù)量預計將會增多。檢索此類查詢結(jié)果列表會極其耗時。
通常,未很好利用大量內(nèi)容集的一些原因如下·用戶不知道相關(guān)內(nèi)容存在·用戶知道相關(guān)內(nèi)容存在但不知道它們所處的位置·用戶知道內(nèi)容存在但不知道它相關(guān)·用戶知道相關(guān)內(nèi)容及如何找到它,但找到該內(nèi)容要很長時間論文“大量文檔集合的自組織”(“Self Organisation of a MassiveDocument Collection”,Kohonen et al,IEEE Transactions on NeutralNetworks,Vol 11,No.3,May 2000)第574-585頁公開了一種使用所謂“自組織映射圖”(SOM)的技術(shù)。這些映射圖使用了所謂的無人管理自學習神經(jīng)網(wǎng)絡(luò)算法,這些算法中,表示每個文檔屬性的“特征向量”被映射到SOM的節(jié)點上。在一種形式中,這可能是顯示大的字詞典中每個字發(fā)生頻率的直方圖。直方圖中每個數(shù)據(jù)值(即,相應詞典字發(fā)生的每個頻率)成了n值向量中的一個值,其中,n是詞典中候選字的總數(shù)(在此文所述示例中為43222)。加權(quán)可應用到n個向量值,可能用以強調(diào)某些字提高的相關(guān)性或改進的區(qū)別。
隨后,n值向量被映射到更小的維向量(即,具有多個值m[在此文示例中為500]的向量,m比n小很多)。這可通過將向量乘以由任意數(shù)字陣列組成的(n×m)“投影矩陣”而實現(xiàn)。此技術(shù)已顯示為生成更小維的向量,其中,任意兩個降維向量具有與兩個相應輸入向量相同的向量點積。
隨后,通過將每個向量乘以“模型”(另一向量)的過程,降維向量被映射到SOM上的節(jié)點(或稱為神經(jīng)元)。模型由學習過程生成,該過程自動按互相似性將模型排序到SOM上,而SOM通常被表示為二維的節(jié)點網(wǎng)格。這是一個重要的過程,Kohonen等人在具有800MB內(nèi)存的6處理器計算機上花費了6星期的時間才形成不到7百萬個文檔的文檔數(shù)據(jù)庫。最后,形成SOM的節(jié)點網(wǎng)絡(luò)會顯示,并且用戶能夠縮放圖的區(qū)域并選擇了個節(jié)點,這使用戶界面提供了到因特網(wǎng)頁面的鏈接,該頁面包含鏈接到該節(jié)點的文檔。

發(fā)明內(nèi)容
一個不變的要求是提供改進的信息處理技術(shù)。
本發(fā)明提供一種信息處理方法,其中,信息項通過所述信息項的互相似性映射到節(jié)點陣列中的相應節(jié)點,以便相似的信息項映射到所述節(jié)點陣列中相似位置上的節(jié)點;在涉及信息項的特征數(shù)據(jù)與所述節(jié)點陣列中的節(jié)點之間定義了映射關(guān)系;所述方法包括以下步驟(a)對于一組信息項中的每個信息項檢測表示該信息項屬性集中每個屬性的特征數(shù)據(jù);(b)對于與所述信息項組對應的全體特征數(shù)據(jù)檢測所述全體特征數(shù)據(jù)內(nèi)更重要和較不重要的屬性;關(guān)聯(lián)涉及更重要屬性的特征數(shù)據(jù)以便生成每個信息項的簡化特征向量;(c)定義所述簡化特征向量與所述節(jié)點陣列中節(jié)點之間的映射。
本發(fā)明以有利的方式解決了特征數(shù)據(jù)(例如,以所謂“特征向量”的形式)的生成和映射,這不但適用于Kohonen論文中典型的極少填充的向量,而且適用于例如通過分析音頻/視頻信息項的音頻或視頻屬性而獲得的典型向量等更加完全填充的特征數(shù)據(jù)。此處,要注意的是,本發(fā)明包含的認識是上述特征向量減少技術(shù)在向量填充不是很少的情況下不可用。
一種檢測技術(shù)(例如,如主成分分析)用于檢測哪些檢測到的特征在統(tǒng)計上更重要。定義較不重要屬性的特征數(shù)據(jù)在信息項整個組內(nèi)被丟棄。這本身使得為實現(xiàn)有用映射而要執(zhí)行的計算量減少。
但在優(yōu)選實施例中,存儲了為該組定義被丟棄特征數(shù)據(jù)的數(shù)據(jù)。這意味著新信息項要添加到組中時,或應用新搜索查詢時,減少的特征向量可直接生成,從而進一步節(jié)省處理資源。
本發(fā)明的其它各個方面和持性在隨附權(quán)利要求書中定義。


下面將參照附圖,通過僅示例的方式描述本發(fā)明的實施例,其中
圖1示意性地顯示了信息存儲和檢索系統(tǒng);圖2是示意流程圖,顯示自組織映射圖(SOM)的生成;圖3以示意圖方式顯示SOM;圖4以示意圖方式顯示抖動過程;圖5到圖7以示意圖方式顯示提供用戶界面以訪問SOM表示的信息的顯示屏幕;圖8以示意圖方式顯示作為視頻采集和/或處理設(shè)備示例的可攜式攝像機;圖9以示意圖方式顯示作為便攜式數(shù)據(jù)處理設(shè)備示例的個人數(shù)字助理;以及圖10到圖14顯示已丟棄較不重要變量的特征向量的經(jīng)驗結(jié)果。
具體實施例方式
圖1是基于通用計算機10的信息存儲和檢索系統(tǒng)的示意圖,所述計算機具有處理器單元20,其包括用于程序和數(shù)據(jù)的盤存儲器30、連接到諸如以太網(wǎng)或因特網(wǎng)等網(wǎng)絡(luò)50的網(wǎng)絡(luò)接口卡40;諸如陰極射線管裝置的顯示裝置60;鍵盤70;以及諸如鼠標的用戶輸入裝置80。所述系統(tǒng)在程序控制下操作,所述程序存儲在所述盤存儲器30上,并且通過例如網(wǎng)絡(luò)50、可移動盤(未顯示)或所述盤存儲器30上的預安裝提供。
所述存儲系統(tǒng)以兩種普通的操作模式操作。在第一模式中,一組信息項(例如,文本信息項)匯集在所述盤存儲器30上或經(jīng)所述網(wǎng)絡(luò)50連接的網(wǎng)絡(luò)盤驅(qū)動器上,并已排序和加索引,可用于搜索操作。第二操作模式是針對所述已加索引并排序的數(shù)據(jù)的實際搜索。
實施例適用于許多類型的信息項。適當類型信息的非窮盡列表包括專利、視頻資料、電子郵件、演示文稿、因特網(wǎng)內(nèi)容、廣播內(nèi)容、業(yè)務報告、音頻資料、圖形和圖庫、照片及諸如此類,或這些的任一組合或混合。在本說明中,將引用音頻/視頻信息項或至少具有音頻和/或視頻內(nèi)容或關(guān)聯(lián)的信息項。例如,諸如音頻和/或視頻資料等一段廣播內(nèi)容可具有以文本術(shù)語定義該資料的相關(guān)聯(lián)“元數(shù)據(jù)”。
信息項以常規(guī)方式載入到盤存儲器30上。它們最好作為數(shù)據(jù)庫結(jié)構(gòu)的一部分存儲,以便于對項目進行更輕松的檢索和加索引,但這不是必需的。一旦信息和項目已這樣存儲,則用于排列它們以便搜索的過程便將如圖2所示。
可以理解,索引信息數(shù)據(jù)無需存儲在本地盤驅(qū)動器30中。數(shù)據(jù)可存儲在經(jīng)網(wǎng)絡(luò)50連接到系統(tǒng)10的遠程驅(qū)動器上?;蛘?,信息可以分布方式存儲,例如,存儲在因特網(wǎng)上的不同站點。如果信息存儲在不同的因特網(wǎng)或網(wǎng)絡(luò)站點,則第二級信息存儲器可用于在本地存儲到所述遠程信息的“鏈接”(例如,URL),可能帶有相關(guān)概述、與該鏈接相關(guān)聯(lián)的摘要或元數(shù)據(jù)。因此,除非用戶選擇相關(guān)鏈接(例如,從下面要描述的結(jié)果列表260中選擇),否則遠程保持的信息將不可訪問,但為便于理解下面的技術(shù)說明,遠程保持的信息或摘要/概述/元數(shù)據(jù)或鏈接/URL可視為“信息項”。
換而言之,“信息項”的正式定義是可從中獲得并加以處理(參閱下述內(nèi)容)的特征向量,以提供到SOM的映射的項目。結(jié)果列表260(參閱下述內(nèi)容)中所示的數(shù)據(jù)可能是信息項本身(如果它在本地保持并且很短,足以方便顯示),或可能是表示和/或指向信息項,如元數(shù)據(jù)、URL、摘要、一組關(guān)鍵字、一個代表鍵戳圖像等之一或多個的數(shù)據(jù)。這是操作“列表”中固有的,它通常但不始終涉及列出表示一組項目的數(shù)據(jù)。
在又一示例中,信息項可存儲在連網(wǎng)的工作組如研究小組或合法公司處?;旌戏桨缚缮婕霸诒镜卮鎯Φ囊恍┬畔㈨椇?或在局域網(wǎng)中存儲的一些信息項和/或在廣域網(wǎng)中存儲的一些信息項。在這種情況下,系統(tǒng)可能在由例如大型跨國研究和開發(fā)組織中的其它人查找相似工作中有用,相似的研究工作將傾向于映射到SOM中相似的輸出節(jié)點(參閱下述內(nèi)容)。或者,如果要規(guī)劃新的電視節(jié)目,本技術(shù)可通過檢測具有相似內(nèi)容的以前節(jié)目而用于檢查其獨創(chuàng)性。
可以理解,圖1的系統(tǒng)10只是可使用有索引信息項的可能系統(tǒng)的一個示例。雖然可設(shè)想最初(加索引)階段會由功能相當強大的計算機執(zhí)行(極可能由非便攜式計算機執(zhí)行),訪問信息的以后階段可在便攜式機器如“個人數(shù)字助理”(具有顯示屏和用戶輸入裝置的數(shù)據(jù)處理裝置,通常適合手持)上執(zhí)行,可在便攜式計算機如膝上型計算機上執(zhí)行或甚至可在諸如移動電話、視頻編輯設(shè)備或攝像機等裝置上執(zhí)行。一般地,幾乎具有顯示屏的任一裝置可用于信息訪問操作階段。
過程不限于特定數(shù)量的信息項。
下面將參照圖2到圖4描述生成信息項自組織映射圖(SOM)表示的過程。圖2是示意流程圖,顯示在SOM映射過程后的所謂“特征提取”過程。
特征提取是將原始數(shù)據(jù)轉(zhuǎn)換成抽象表示的過程。這些抽象表示隨后可用于諸如模式分類、群集和識別等過程。在此過程中,會生成所謂的“特征向量”,它是文檔內(nèi)使用的術(shù)語頻率的抽象表示。
圖2的基本步驟是針對包括音頻和/或視頻資料的一組信息項中的信息項100來執(zhí)行的,如下所述在步驟110依次檢測每個信息項的音頻和/或視頻屬性。在步驟120和130,執(zhí)行檢測更重要和較不重要屬性數(shù)據(jù)的過程,從而導致丟棄較不重要的屬性數(shù)據(jù)。剩余(非丟棄)的屬性數(shù)據(jù)在步驟140中級聯(lián)起來以生成“簡化的”特征向量。一旦已生成信息項集合的“簡化”特征向量,則在步驟150中將其投射到二維SOM以形成語義圖。最后,在步驟160中應用“抖動”功能(參閱下述內(nèi)容)。
從下面將看到,步驟120到140可以另一種順序執(zhí)行,以便數(shù)據(jù)在級聯(lián)后被丟棄(或?qū)嶋H上,丟棄過程可在級聯(lián)之前或之后進行)。下面將討論每個方案的優(yōu)點。
現(xiàn)在將詳細描述步驟110到140。
所述技術(shù)的目的是(從音頻和視頻)自動提取以盡可能少的變量或至少減少數(shù)量的變量表示媒體項種類的特征向量;此特征向量從現(xiàn)在開始稱為“簡化特征向量”。
簡化特征向量由幾個“基本特征向量”組合而成?;咎卣飨蛄糠庋b了特定類型的特征,如顏色、形狀等。
為創(chuàng)建簡化特征向量,首先必需回答以下問題·哪些基本特征向量適用于創(chuàng)建簡化特征向量?·組合基本特征向量以形成簡化特征向量的最佳方式是什么?·基本特征向量和簡化特征向量是否包含任何冗余數(shù)據(jù),如果是這樣的話,是否可刪除它?為進行實施例的經(jīng)驗測試,決定使用兩個不同的數(shù)據(jù)集。第一個數(shù)據(jù)集由來自不同電視節(jié)目的697個5分鐘編輯剪輯組成,并且從現(xiàn)在開始稱為“TV資料”。第二個數(shù)據(jù)集由不同長度(在大約5秒鐘到大約5分鐘)的442個未編輯剪輯組成,并具有基于背景環(huán)境的分類,此數(shù)據(jù)集從現(xiàn)在開始稱為“DV資料”。每個數(shù)據(jù)集分成6個不同的種類/類型。
TV種類·動畫·電視知識競賽·新聞·肥皂劇·體育賽事
·訪談節(jié)目DV種類·汽車·跳水·時尚·航?!つ蠘O·火車由于核心技術(shù)基于自組織映射圖(SOM),因此,可以用“組織準確度(organization準確度)”來衡量特征向量的成功。組織準確度按以下方式計算SOM中的每個節(jié)點可吸引幾個對象;這些對象可能來自同一種類或不同種類。目標是每個節(jié)點應只吸引一個種類類型。作為成功的一個度量,SOM中的每個節(jié)點按其主要種類歸類(視為到該節(jié)點的已知期望映射),并計算主要種類占與節(jié)點相關(guān)總項目量的百分比。此百分比對SOM中的所有節(jié)點平均,并從現(xiàn)在開始稱為“組織準確度”。
因此,換而言之,不同簡化特征向量長度的組織準確度比較(參閱下述內(nèi)容)可視為表示用簡化特征向量獲得的映射與已知期望映射之間的差別程度。
基本特征向量的創(chuàng)建在實驗的此第一部分中,使用了5種類型的基本特征向量;這些向量為基于顏色、形狀、音頻、臉和邊緣/平域(edge/plain)的特征向量。下面所述結(jié)果中的許多結(jié)果是在無邊緣/平域向量的情況下獲得的,但相似的原理適用,并且應理解,除使用下述置換(或不使用其中一個或多個置換)外,可使用邊緣/平域向量。也應理解,
下述置換只是示例,并且可使用其它向量置換。
顏色有幾種彩色模型可供使用。要確定哪一模型最適合我們的用途,可嘗試幾種模型。
對于每個彩色模型實驗,針對媒體項中的每個幀計算了有20個區(qū)間(20-bin)的直方圖,并對整個媒體項求直方圖中每列的平均值和標準差。平均值和標準差向量用作表示媒體項的基本特征向量。平均值和標準差的級聯(lián)也用作基本特征向量,并因而在下面的列表中被稱為“組合”。彩色模型和從中計算得出的特征向量如下所示·色調(diào)直方圖·平均·標準差·組合(級聯(lián)的平均值和標準差向量)·照度直方圖·平均·標準差·組合(級聯(lián)的平均值和標準差向量)·紅色直方圖·平均·標準差·組合(級聯(lián)的平均值和標準差向量)·綠色直方圖·平均·標準差·組合(級聯(lián)的平均值和標準差向量)
·藍色直方圖·平均·標準差·組合(級聯(lián)的平均值和標準差向量)·RGB直方圖(60個數(shù)據(jù)區(qū)間,三個不同直方圖的組合)·平均·標準差·組合(級聯(lián)的平均值和標準差向量)形狀測試了兩種不同類型的形狀描述符;它們之間的差異是步驟4快速傅立葉變換(FFT)后的步驟。大體上,形狀描述符按以下方式提取1.每個幀調(diào)整為64*64圖像,例如,通過雙線性內(nèi)插2.根據(jù)調(diào)整后的幀求FFT。
3.每個方向上前10個頻率(最低頻率)組合為100個值長的特征向量。
4.這里產(chǎn)生兩個不同類型的特征向量i.普通FFT,即,不對向量執(zhí)行任何操作ii.放大的FFT,當特征向量中的每個值通過如下公式處理時D(uv)=10*log(1+|F(u,v)|)5.對整個媒體項求向量中每列的平均值和標準差,這根據(jù)每個后處理方法得到三個特征向量。
i.平均ii.標準差
iii.組合(級聯(lián)的平均值和標準差特征向量)臉測驗兩種不同類型的基于臉的特征向量;一種稱為“臉特征”,另一種稱為“臉統(tǒng)計”。
臉統(tǒng)計基本特征向量的生成方式如下1.對于每個幀,計算以下3個變量·臉計數(shù),即,幀內(nèi)的臉數(shù)·幀內(nèi)所有臉的平均臉大小·幀內(nèi)所有臉的平均(水平)位置x2.隨后,對媒體項內(nèi)所有幀計算所有3個變量的平均值和標準差3.臉計數(shù)、大小和x位置的平均值和標準差形成6個變量的特征向量。
臉特征基本特征向量的生成方式如下1.使用臉分類器,將幀中的所有臉根據(jù)臉大小和臉x位置分成6個不同的類別。
臉分類器的工作方式如下a.如果臉的大小大于21個像素(例如,寬度),則將其歸類為子類A,并且如果它小于21個像素,則將其歸類為子類B。
b.取決于臉x位置是否小于74(例如,從左邊起的像素數(shù))、介于74與114之間或高于114,將子類A和B二者分成三個不同的子類。
2.每個媒體項具有7個數(shù)據(jù)區(qū)間的直方圖,其中,第一數(shù)據(jù)區(qū)間表示無臉的幀,其它數(shù)據(jù)區(qū)間表示6個不同的臉類。對于正被分析的每個幀,找到的每個臉使其分類所屬的數(shù)據(jù)區(qū)間加1。
3.直方圖形成表示媒體項的7個數(shù)據(jù)區(qū)間的基本特征向量。
音頻可用的音頻具有48kHz的示例速率;音頻在有16ms重疊的32ms窗口中抽樣,從而產(chǎn)生總共N=1536個樣本。rms幅度定義為rj=Σi=1N(Si)2,]]>并且如果rj<0.2*r(其中j是音頻幀,并且r是整個媒體項上的平均rms幅度),則將一幀定義為無聲。
首先,對整個信號進行漢明窗處理,其中Wi=0.54-0.45*cos(2πiN),]]>之后對所有幀計算FFT系數(shù)F(ω)。然后,針對每個音頻幀計算以下特征·總功率譜。使用了功率譜的對數(shù)P=log(∫0ω0|F(ω)|2dω),]]>其中,|F(ω)|2表示頻率ω上的功率,并且其中ω0=24kHz,為一半抽樣頻率。
·子帶功率。使用具有以下間隔的4個子帶功率 和 子帶的功率通過如下方式計算Pj=log(∫LjHj|F(ω)|2dω),]]>其中,Hj表示所述間隔中的最高頻率,而Lj表示最低頻率。
·亮度。亮度定義為頻率質(zhì)心,并且按以下方式計算ωc=∫0ω0ω*|F(ω)|2dω∫0ω0|F(ω)|2dω]]>·帶寬。帶寬B按以下方式計算得出
B=∫0ω0(ω-ω0)2*|F(ω)|2dω∫0ω0|F(ω)|2dω]]>·基頻基頻按以下方式確定1.計算每個音頻幀的功率譜2.使用離散算子{0.25f,0.75f,1.0f,0.75f,0.25f}加重功率譜峰值。
3.音頻窗口的諧波按以下方式計算得出a.以基頻50Hz開始的梳狀濾波器連續(xù)增加,直至它達到1000Hz的基頻。對于每次步進,取梳狀濾波的信號“C”與噪聲“N”之間的差。
i.梳狀濾波器值按以下方式計算得出Ci=2.25*Si-1+1.5*Si+2.25*Si+1,其中,“i”是基頻,并且“S”是增強的信號。注意如果對于[i-1,i,i+1],S=1,則C=6。
ii.噪聲按以下方式計算得出Ni=Si-4*i6+Si-3*i6+Si-2*i6+Si+2*i6+Si+3*i6+Si+4*i6]]>注意,對于[i-4*i6,i-3*i6,i-3*i6,i+2*i6,i+3*i6,i+4*i6],]]>如果S=1,則N=6。
4.這將形成頻率與諧波圖;諧波的峰值給出基頻。
·梅爾頻率(Mel-Frequency)倒譜系數(shù)從FFT功率系數(shù)計算得出。三角帶通濾波器組對系數(shù)進行濾波。濾波器組由具有恒定梅爾頻率間隔涵蓋頻率范圍0-4000Hz的19個三角濾波器組成。Sk{k=1,2,...K}表示該濾波器組的輸出。梅爾頻率頻譜按以下方式計算得出
cn=2K*Σk=1klog(sk)*cos(n*[k-0.5]*ΠK),]]>其中,n=1,2,3...12是倒譜的順序。
上述特征形成一個20個值的特征向量,按列對整個媒體求平均值和標準差,并且將其級聯(lián)到一個40個值的特征向量。通過取無聲幀與整個媒體項的總幀數(shù)量的比率,將41個變量添加到該特征向量。
邊緣/平域特征向量現(xiàn)在將定義另一基本特征向量。這就是所謂的邊緣/平域直方圖(EPFH)特征向量。它由兩個基本步驟生成1.圖像中色值的量化。
2.EPFH的創(chuàng)建。
彩色空間的量化過程從HSV(色調(diào)飽和度值)編碼的圖像開始,其中,0≤H≤360,0≤S≤1,0≤V≤1。如果所考慮的圖像未按此格式提供,則將它轉(zhuǎn)換為此格式是直接(且已知)的映射操作。
如果HSV彩色空間已被可視化,則它會采取圓錐的形式。量化步驟旨在將該圓錐劃分成不同的塊。每個塊使用一個號碼編索引;號碼本身是無關(guān)的,號碼的唯一功能是用作索引。
索引是由前面陳述的飽和度量化生成(或“返回”)的值。這在下面又稱為色調(diào)和照度量化。
飽和度量化為4個部分0.00<飽和度≤0.03→無色 返回照度A0.03<飽和度≤0.33→低彩色返回7*照度C+色調(diào)-10.33<飽和度≤0.66→中彩色返回(3+照度C)*7+色調(diào)-10.66<飽和度≤1 →高彩色返回(6+照度C)*7+色調(diào)-1
在后三個類別的情況下,色調(diào)和照度如下量化色調(diào)量化為7個非均勻部分330<色調(diào)≤22 返回1//紅色22<色調(diào)≤45 返回2//橙色45<色調(diào)≤70 返回3//黃色70<色調(diào)≤155 返回4//綠色155<色調(diào)≤186返回5//青色186<色調(diào)≤278返回6//藍色278<色調(diào)≤330返回7//紫色照度C(值)量化為3個部分0.00<飽和度≤0.33→低照度返回00.33<飽和度≤0.66→中照度返回10.66<飽和度≤1 →高照度返回2在歸類為“無色”的情況下,將照度值量化照度A(值)在無色區(qū)域量化為4個部分0.00<飽和度≤0.25→白色 返回630.25<飽和度≤0.50→淺灰色返回640.50<飽和度≤0.75→暗灰色返回650.75<飽和度≤1 →黑色 返回66EPFH創(chuàng)建下面,對圖像中的像素進行迭代處理,每個像素(中心像素)與其周圍的像素(即一組8個像素)進行比較。如果任一周圍像素具有與當前中心像素不同的彩色指數(shù)值,則中心像素被視為“邊緣”像素;否則,它被視為平域像素。
為避免混淆,術(shù)語“中心”指像素相對于與其比較顏色屬性的像素的空間(圖像)位置。術(shù)語“邊緣”和“平域”指當前中心像素在彩色空間中相對于空間上周圍像素的位置。
如果像素被歸類為邊緣像素,則將它添加到“邊緣”直方圖;否則,將它添加到“平域”直方圖。
每個直方圖中的數(shù)據(jù)區(qū)間是以上所述的彩色指數(shù)。特征向量的后處理邊緣直方圖和平域直方圖各自加以歸一化,以使其長度等于1。邊緣像素與圖像中總像素的比率也可計算出(“邊緣比率”)。
最終的特征向量包括歸一化的邊緣直方圖、歸一化的平域直方圖和邊緣比率的級聯(lián)。
基準特征向量此處的主要目的是研究各個基本特征向量與種類的相關(guān)程度。
對于每個特征向量測試,計算如下表所示的混淆矩陣,該表中,列是預期分類,行是實際分類。
對于每個特征向量計算,計算組織準確度,以作為特征向量精確度的度量。而且,在組織準確度內(nèi)計算其標準差,以作為特征向量一般性程度的度量。高的標準差值與高的組織準確度一起可表示特征向量非常適于將一些類型的數(shù)據(jù)分類,而不適于將其它類型的數(shù)據(jù)分類。
實驗按以下方式進行特征向量以均值標準差歸一化來按列歸一化。之后,對它們進行評估。



表1混淆矩陣在上表中顯示。下表顯示具有混淆矩陣對角列的一個列表,它還包括平均組織準確度和組織準確度的平均偏差。
為獲得穩(wěn)健的結(jié)果,每個特征向量被測試了100次。結(jié)果如表2中所示的形式表示第1列特征向量的名稱第2列Avg OA是100個混淆矩陣的組織準確度OA的平均值(此參數(shù)顯示分類有多好)。它表示為百分比值。
第3列StdDev of OA是100個混淆矩陣的組織準確度的標準差(此參數(shù)顯示分類的穩(wěn)定程度)。
第4列StdDev準確度是100個混淆矩陣的組織準確度的平均值(此參數(shù)顯示分類的一般性程度)。
第5列StdDev of StdDev準確度是從100個混淆矩陣產(chǎn)生的標準差的標準差(此參數(shù)顯示分類的穩(wěn)定程度)。
第6列Avg OA的平均值從測試的所有特征向量中計算得出,并從Avg OA中減去,其旨在給出每個特征向量成功的良好概述。

表2示例結(jié)果結(jié)果TV和DV資料的結(jié)果通過兩個表格均得以顯示。第一個表顯示在測試中使用的數(shù)據(jù),第二個表顯示上一部分中所述的結(jié)果。
TVTV測試數(shù)據(jù)由表3中所示種類的697個5分鐘剪輯組成。
整體結(jié)果顯示在表4中。

表3TV種類分布


表4從TV特征向量基準產(chǎn)生的結(jié)果


表6從DV特征向量基準產(chǎn)生的結(jié)果討論此技術(shù)的目的是選擇在簡化特征向量中使用的基本特征向量。在此實驗中,有4種主要類型的基本特征向量類·基于顏色
·基于FFT·基于音頻·基于臉。
簡化特征向量應多樣化且穩(wěn)定,以便它對此實驗中未測試的數(shù)據(jù)集有效;同時,其性能理論上應優(yōu)于此數(shù)據(jù)集的平均特征向量。因此,簡化特征向量應包含所有主要基本特征向量類的數(shù)據(jù)。
·基于顏色的特征向量如果將根據(jù)TV和DV資料的結(jié)果組合,可看到RGB是用于對本目的的非常好的彩色模型。然而,采用的是RGB組合直方圖,即使它只是稍優(yōu)于RGB平均值本身并且長度為兩倍。繼續(xù)使用組合直方圖的原因是它提供比僅僅平均值更廣的信息,并且下述的Hotelling變換將大大縮短特征向量。
·基于FFT的特征向量放大的FFT的平均值和標準差對TV和DV資料表現(xiàn)均非常好。然而,組合的表現(xiàn)并不優(yōu)于平均值和標準差本身。但出于與“基于顏色的特征向量”中相同的原因,使用了組合向量。
·基于音頻的特征向量音頻特征向量對所有資料表現(xiàn)均非常好,是一個好的選擇。
·基于臉的特征向量我們對TV資料嘗試兩種不同類型的臉特征向量“臉特征”和“臉統(tǒng)計”?!澳樈y(tǒng)計”稍優(yōu)于“臉特征”,并在計算上較不復雜。對DV資料未測試“臉特征”,但根據(jù)TV資料的結(jié)果使得有信心作出繼續(xù)使用基本特征向量“臉統(tǒng)計”的決定。
特征向量內(nèi)冗余度的研究特征向量的緊湊性是特征向量非常重要的方面。此實驗的主要目的是研究我們的特征向量是否可以更少的變量來表示。
獲得向量最重要部分的一種方式是使用所謂的Hotelling變換。Hotelling變換基于特征向量的統(tǒng)計屬性。對一個含20個變量的向量進行變換將得到一個含20個變量的向量,其中最前/第一變量是具最大方差的變量(即,它們可視為更重要的變量)。這意味著變換將特征向量中的最重要特征移到向量的開始處。
實驗按以下方式進行1.特征向量集以均值標準差歸一化按列進行歸一化。
2.特征向量集內(nèi)的所有特征向量利用Hotelling變換進行變換。
3.評估循環(huán)開始并運行,直到僅一個變量留在特征向量中為止。
a.向量中最后(最不重要)的剩余變量被截去或丟棄。
b.特征向量被評估10次,并且平均組織準確度在圖中呈現(xiàn)。
結(jié)果顯示在圖10到圖14中,其中,水平軸表示向量中變量的數(shù)量,而垂直軸表示平均組織準確度(在圖13中還顯示了組織準確度的一階導數(shù)和二階導數(shù),分別重新圍繞垂直軸10單位和40單位的位置定基)。只提供了代表性結(jié)果。
結(jié)果顯示,有幾個變量由于對組織準確度貢獻不大而可被丟棄。在目前的實施例中,所用配置是通過級聯(lián)以下內(nèi)容形成簡化特征向量·具有41個變量的音頻向量的前7個變量·具有120個變量的RGB組合向量的前7個變量·具有200個變量的放大的FFT組合向量的前10個變量·具有6個變量的臉統(tǒng)計向量的所有6個變量。
為以解析方式獲得這些截去點,有用的是能夠獲得每個圖形的“拐點”,并丟棄該拐點后的所有特征數(shù)據(jù)。這可通過獲得在梯度大致水平且變化極慢的最右區(qū)域(例如,圖10中從25到40個變量的區(qū)域)上圖形的平均梯度和梯度遠非水平的圖形最左區(qū)域(例如,圖10中從1到6個變量的區(qū)域)的梯度來實現(xiàn)。這兩個梯度相交處可能指示拐點。預定的少量的額外變量(例如,額外的兩個變量)可可選地作為安全裕度添加。
或者,從圖形的左側(cè)開始,可檢測一個點,在該點移到變量數(shù)的下一更高值造成低于閾值的組織準確度差異。
歸一化策略基準SOM(在下面)使用歐幾里德距離進行特征向量的訓練和組織。為確保級聯(lián)特征向量中沒有哪一部分會比任何其它部分更有影響,將每個“基本特征向量”的值歸一化以便值在同一值范圍內(nèi)是適當?shù)?。歸一化有三個主要策略。
1.每個基本特征向量應該對結(jié)果有均等的貢獻,因此有用的是對每個特征向量按其自己的長度歸一化(所謂的向量歸一化處理)。(注意,如果在級聯(lián)后進行向量歸一化,則它針對簡化特征向量進行)2.基本特征向量中的每個變量有均等的貢獻,因此,通過均值標準差歸一化或線性變換,按列將特征向量歸一化。
3.組合上述兩個結(jié)果。(例如,列歸一化后進行其自己長度的歸一化)如下表所示,實際上有8種有意義的歸一化組合。注意ALT 1是原始特征向量。術(shù)語“向量”、“均值”和“線性”分別表示向量歸一化、均值標準差歸一化及線性歸一化。


表7歸一化組合以下描述處理下列情況級聯(lián)全部基本特征向量,然后進行Hotelling變換并截短簡化特征向量的情況,相對于進行Hotelling變換并截短/刪截基本特征向量然后將其級聯(lián)的情況。
要找出最適合的歸一化策略,首先將以上定義的特征向量歸一化并級聯(lián)。然后,將每個特征向量分類100次,并在對應于TV資料的表格8和對應于DV資料的表格9中顯示結(jié)果的平均值。
TV

表8TV歸一化結(jié)果
DV

表9DV歸一化結(jié)果討論明顯可以看出,級聯(lián)之前及之后的向量歸一化均僅使結(jié)果更壞。線性歸一化改善了DV資料的結(jié)果,但使TV資料的結(jié)果更壞,因而可視為在不同數(shù)據(jù)集之間不穩(wěn)定。另一方面,均值標準差歸一化對TV和DV資料表現(xiàn)均很好,因而是優(yōu)選的歸一化方法。
簡化特征向量內(nèi)后級聯(lián)冗余度的研究在先前部分中,采用了不同的方法和過程來生成簡化特征向量。到目前為止獲勝的概念是使用基本特征向量,將其級聯(lián),并通過均值標準差歸一化將它們歸一化。
研究基本特征向量級聯(lián)到簡化特征向量是否會導致生成冗余數(shù)據(jù)。換言之,是否任一基本特征向量包含相同的數(shù)據(jù),并且該種情況下我們是否可以刪除它?測試進行的方式與上述研究特征向量內(nèi)冗余度的方式相同。
經(jīng)驗結(jié)果表明,如果簡化特征向量長度截斷為一半,則組織準確度將降低大約5-7%,并且這種情況下似乎性能損失太大。
下面是現(xiàn)有實施例中使用的優(yōu)選簡化特征向量的定義。
簡化特征向量子部分的創(chuàng)建顏色基本顏色特征向量由整個媒體項上具有60個數(shù)據(jù)區(qū)間的RGB直方圖(每種顏色對應20個數(shù)據(jù)區(qū)間)的平均值和標準差組成。這給出由120個變量組成的特征向量。
顏色直方圖利用Hotelling變換進行變換和刪截,以便保持前7個變量。
形狀利用雙線性內(nèi)插將每個電影幀大小從720*576調(diào)整為64*64(這將導致混疊問題)。對64*64圖像進行FFT變換,并保存10個最低頻率加1的冪的對數(shù),如下所示。
D(u,v)=10*log(1+|F(u,v)|)這形成了100值長的向量。對于每個幀均產(chǎn)生這些向量,整個媒體項上的平均值和標準差用作特征向量。這意味著我們具有200值長的特征向量。
形狀特征向量通過Hotelling變換進行變換和刪截,以便保持前10個變量。
音頻音頻特征如以上所述創(chuàng)建,并形成41值的特征向量。
臉臉特征如以上所述創(chuàng)建,并形成6值的特征向量。
級聯(lián)與歸一化子特征向量通過均值標準差歸一化進行歸一化并級聯(lián)。這給出30值長的特征向量,并具有以下經(jīng)驗組織準確度

表10TV和DV資料二者的30值超向量的平均性能

表11對使用TV資料的30值超向量的混淆矩陣式評估

表12對使用DV資料的30值簡化特征向量的混淆矩陣式評估有關(guān)SOM的一般注釋本申請和引用文檔中其它地方也引用了SOM的論述。
自組織映射圖(SOM)是將n維向量映射到二維圖的一種神經(jīng)網(wǎng)絡(luò)類型。
映射圖由N*M個節(jié)點組成;每個節(jié)點表示mlNM前的碼本。系統(tǒng)初始化時,碼本向量設(shè)為隨機值。
為就向量集X={x}對該映射圖進行訓練,以使用距離度量如歐幾里德距離將x與所有碼本向量mlNM進行比較作為開始。獲勝節(jié)點(winning node)和獲勝節(jié)點周圍的鄰居隨后通過以下公式加以修改。
mmml+1=mmml+a(t)(mmml-x)]]>h(n,m)可表示其它函數(shù),如氣泡函數(shù)(bubble function)等。
有關(guān)Hotelling變換的一般注釋Hotelling變換也稱為主成分、本征向量和離散Karhunen-loéve變換。Hotelling是減少特征向量內(nèi)冗余度的一種很有用的方法。
假定有多個向量。
X=x1x2x3x4]]>具有平均向量mx=E(x)以及一個協(xié)方差矩陣Cx=E((x-mx)(x-mx)T)如果取本征值和匹配本征向量,并按匹配本征值的遞減值的順序?qū)⒈菊飨蛄颗判?,可得到矩陣A。A=eig(Cx)Hotelling變換隨后按如下公式描述y=A·(x-mx)其中,x變換為y。y向量中的第一維具有最高方差;第二維具有次高方差,如此等等。這是由于根據(jù)本征值大小組織本征向量的原因。
有關(guān)向量歸一化的一般注釋向量歸一化是標準的代數(shù)過程,其中,向量除以自己的范數(shù)。這產(chǎn)生長度為l的向量。
vnormalized=v||v||]]>‖vnormalized‖=l有關(guān)列線性變換歸一化的一般注釋對于每個列,可求最小值和最大值,并將其變換為新的最小值和最大值。
xnew=xold·a+Ma=xnewmax-xnewminxoldmax-xoldmin]]>m=xnewmax-xoldmax·a]]>有關(guān)均值和標準差歸一化的一般注釋均值和標準差歸一化是一種類型的列歸一化。按列求均值和標準差。每個值隨后通過均值轉(zhuǎn)換并除以該列的標準差。
xnew=(xold-mean)stdDev]]>替代方法研究實驗研究了,與將向量集級聯(lián),對其進行Hotelling變換,然后對最終的特征向量進行縮短相比較,對這些向量進行Hotelling變換,按向量縮短,然后再將其級聯(lián)是否存在任何優(yōu)點。
方法在此實驗中,兩種類型的特征向量彼此進行比較級聯(lián)“前”與級聯(lián)“后”截短特征向量。獲得這些的方法如下級聯(lián)前截短特征向量每個基本特征向量進行Hotelling變換,由其冗余“拐點”切斷(如上所述),然后以均值標準差歸一化進行歸一化。所有基本特征向量隨后級聯(lián)起來以形成一個大的特征向量。
級聯(lián)后截短特征向量每個基本特征向量以均值標準差歸一化進行歸一化,級聯(lián)起來以形成一個大的特征向量。大的特征向量隨后通過Hotelling變換進行變換并截短為與級聯(lián)前截短特征向量相同的長度。
隨后針對每個特征向量計算組織準確度10次,下表中顯示了平均值。
結(jié)果

可以看到,先對基本特征向量進行Hotelling變換,縮短它們?nèi)缓髮⑵浼壜?lián),優(yōu)于先將基本特征向量級聯(lián),然后對簡化特征向量進行Hotelling變換并截短簡化特征向量。
如上所述,一旦已為信息項集合生成“簡化”特征向量,從而定義了集合的信息空間,則在步驟150中將它們投射到二維SOM以形成語義圖。以下部分解釋通過使用Kohonen自組織映射圖將特征向量集群而映射到二維的過程。還可參照圖3。
Kohonen自組織映射圖用于群集和組織已為每個文檔生成的特征向量。
自組織映射圖由顯示為二維平面185的二維陣列或節(jié)點網(wǎng)格中的輸入節(jié)點170和輸出節(jié)點180組成。輸入節(jié)點的數(shù)量與用于訓練映射圖的特征向量中的值一樣多。映射圖上的每個輸出節(jié)點通過加權(quán)連接190連接到輸入節(jié)點(每條連接一個加權(quán))。
最初,這些加權(quán)中的每個加權(quán)設(shè)為隨機值,隨后,通過迭代過程,對這些加權(quán)進行“訓練”。通過將每個特征向量呈給映射圖中的輸入節(jié)點來對映射圖進行訓練。通過計算輸入向量與每個輸出節(jié)點的加權(quán)之間的歐幾里德距離,可計算得出“最近”的輸出節(jié)點。
最近的節(jié)點被指定為“贏家”,并且通過稍微改變加權(quán)以便它們移到“更接近”輸入向量,對該節(jié)點的加權(quán)進行訓練。
此過程不只訓練單個節(jié)點的加權(quán),而且訓練映射圖上節(jié)點區(qū)域的加權(quán),使得映射圖一旦經(jīng)過訓練便可保持二維節(jié)點映射圖中大量的輸入空間拓樸。
映射圖一旦經(jīng)過訓練,每個文檔便可呈給映射圖以查看哪個輸出節(jié)點最接近該文檔的輸入特征向量。加權(quán)將不可能與特征向量完全相同,并且特征向量與映射圖上其最近節(jié)點之間的歐幾里德距離稱為其“量化誤差”。
通過將每個文檔的特征向量呈給映射圖以查看它所處位置并給出每個文檔的x、y映射位置。這些x、y位置在連同文檔ID一起放入查找表中時可用于使文檔之間的關(guān)系可視化。
最后,在步驟160中添加抖動成分,這將在下面參照圖4進行描述。
上述過程的可能問題是兩個相同或大致相同的信息項可能映射到SOM節(jié)點陣列中的同一節(jié)點。這對數(shù)據(jù)處理不會造成困難,但對在顯示屏幕上可視化數(shù)據(jù)(如下描述)沒有幫助。具體而言,當數(shù)據(jù)在顯示屏幕上可視化時,已認識到,讓多個很相似的項目可與某個特定節(jié)點上的一個項目區(qū)分很有用。因此,將“抖動”成分添加到每個信息項映射到的節(jié)點位置。抖動成分是隨機添加的±1/2的節(jié)點間距。因此,參照圖4,映射過程為其選擇輸出節(jié)點200的信息項添加了抖動成分,這樣,它實際上可映射到圖4上虛線界定的區(qū)域210內(nèi)的任一節(jié)點位置。
因此,信息項可視為映射到在不同于SOM過程的“輸出節(jié)點”的節(jié)點位置處圖4平面上的位置。
一個替代方案可能使用比上述SOM映射過程中高得多的“輸出節(jié)點”密度。這不會在絕對相同的信息項之間提供任何區(qū)分,但可能幾乎但并不完全允許相同的信息項映射到不同但空間上接近的輸出節(jié)點。
圖5示意性地顯示了顯示屏幕60上的顯示,其中,以圖形方式顯示用于搜索操作的存儲在SOM中的數(shù)據(jù)。顯示包括搜索查詢250、結(jié)果列表260及SOM顯示區(qū)270。
在操作中,用戶將關(guān)鍵字搜索查詢鍵入查詢區(qū)250。用戶隨后啟動搜索,例如通過按鍵盤70上的回車鍵或通過使用鼠標80選擇屏幕“按鈕”以開始搜索。通過使用標準關(guān)鍵字搜索技術(shù),搜索查詢框250中的關(guān)鍵字隨后可與數(shù)據(jù)庫的信息項進行比較。這會生成結(jié)果列表,每個結(jié)果在列表視圖260中顯示為相應的條目280。另外,每個結(jié)果在節(jié)點顯示區(qū)270上具有對應的顯示點。
由于用于生成SOM表示的排序過程傾向于在SOM中將互相似的信息項組合在一起,因此,搜索查詢的結(jié)果通常傾向于落于諸如群集290的群集內(nèi)。此處,要注意的是,區(qū)域270上的每個點對應于SOM中與結(jié)果列表260中的一個結(jié)果相關(guān)聯(lián)的相應條目;并且區(qū)域270內(nèi)顯示點的位置對應于節(jié)點陣列內(nèi)那些節(jié)點的陣列位置。
圖6示意性地顯示了減少“查詢結(jié)果”(結(jié)果列表中的結(jié)果)數(shù)量的技術(shù)。用戶使用鼠標80在對應于感興趣節(jié)點的一組顯示點周圍畫一個框300。在結(jié)果列表區(qū)260中,只有與框300內(nèi)的點對應的那些結(jié)果才會顯示。如果這些結(jié)果證明是不是感興趣的結(jié)果,則用戶可另畫一個圍住不同顯示點集的框。
要注意的是,結(jié)果區(qū)260為顯示點顯示在框300內(nèi)以及滿足字搜索區(qū)250中搜索標準的那些結(jié)果顯示列表條目???00可圍住對應于節(jié)點陣列中填充節(jié)點的其它顯示位置,但如果這些不滿足搜索標準,則不會顯示它們,并因此不會形成框260中所示結(jié)果子集的部分。
圖7示意性地顯示了一種用于檢測列表視圖260中條目的節(jié)點位置的技術(shù)。使用圖形用戶界面領(lǐng)域的標準技術(shù),具體而言在使用所謂“Windows”TM操作系統(tǒng)的計算機中,用戶可在結(jié)果列表視圖中“選擇”一個或多個條目。在所示示例中,這通過鼠標點擊與相關(guān)結(jié)果相關(guān)聯(lián)的“復選框”310而完成。然而,這同過單擊以突出顯示整個結(jié)果,或者通過雙擊相關(guān)結(jié)果等操作也同樣可完成。在選擇結(jié)果時,以不同的方式顯示代表節(jié)點陣列中相應節(jié)點的對應顯示點。圖中示意性地顯示了與結(jié)果區(qū)260中選定結(jié)果330對應的兩個顯示點320。
外觀的變化可以是以更大的尺寸或同一顯示顏色的更濃版本或不同的顯示顏色或這些改變屬性的組合方式來顯示點。
在任一時候,通過在以上概述的步驟(即,步驟110到140)后,接著將得到的簡化特征向量應用到“預訓練的”SOM模型,即,由映射圖的自組織準備得到的SOM模型集,可將新信息項添加到SOM。因此,對于新添加的信息項,一般不對映射圖進行“重新訓練”;相反,對于所有未修改的SOM模型,使用步驟150到160。每次要添加新信息項時重新訓練SOM在計算上成本高,并且對可能習慣于映射圖中經(jīng)常訪問的信息項的相對位置的用戶也有點不友好。
注意,在準備原始映射時存儲的、定義哪個特征數(shù)據(jù)被重新訓練以及哪個被主成分檢測過程丟棄的信息,對允許生成有關(guān)新映射項目的對應簡化特征向量很有用。這同樣適用于基于A/V資料屬性的搜索查詢(例如,“查找更多與此類似的資料”)。此處與查詢(或與數(shù)據(jù)集的比較)相關(guān)的簡化特征向量將使用針對整個集合定義的相同的更重要特征數(shù)據(jù)集來生成。
然而,很可能產(chǎn)生在該處重新訓練過程是適當?shù)狞c。例如,如果SOM首先生成后新術(shù)語(可能是新的新聞項或新的技術(shù)領(lǐng)域)被輸入詞典,則它們可能不會特別好地映射到現(xiàn)有輸出節(jié)點集。這可作為將新接收的信息項映射到現(xiàn)有SOM過程中檢測到的所謂“量化誤差”增加被檢測到。在現(xiàn)有實施例中,將量化誤差與閾誤差數(shù)進行比較。如果它大于閾值量,則(a)使用自SOM創(chuàng)建后其所有原始信息項和所有添加的項目,自動對SOM進行重新訓練;或者(b)提示用戶在方便的時候啟動重新訓練過程。重新訓練過程使用所有相關(guān)信息項的特征向量,并完全地重新應用步驟150和160。重新訓練可限于已檢測到超過閾值量的至少閾數(shù)量個的誤差的情況,或在閾時限期間已檢測到此類數(shù)量的情況。
圖8示意性地顯示了作為視頻采集和/或處理設(shè)備示例的可攜式攝像機500;該可攜式攝像機包括具有關(guān)聯(lián)鏡頭520的圖像捕獲裝置510;數(shù)據(jù)/信號處理器530;帶存儲器540;盤或其它隨機存取存儲器550;用戶控制560;以及具有目鏡580的顯示裝置570。本領(lǐng)域的技術(shù)人員會清楚常規(guī)可攜式攝像機或其它攝像機的其它特征(如不同的存儲介質(zhì)或不同的顯示屏裝置)。使用時,與捕獲的視頻資料相關(guān)的元數(shù)據(jù)可存儲在存儲器550中,并且與存儲數(shù)據(jù)相關(guān)的SOM可在顯示裝置570上查看并如上所述使用用戶控制560進行控制。
圖9示意性地顯示了作為便攜式數(shù)據(jù)處理設(shè)備的個人數(shù)字助理(PDA)600,它具有包括顯示區(qū)620和提供用戶控制的觸敏區(qū)630的顯示屏幕610以及數(shù)據(jù)處理和存儲裝置(未顯示)。同樣地,本領(lǐng)域的技術(shù)人員會知道此領(lǐng)域的其它替代方式。PDA可如上所述結(jié)合圖1的系統(tǒng)使用。
權(quán)利要求
1.一種信息處理方法,其中,信息項通過所述信息項的互相似性映射到節(jié)點陣列中的相應節(jié)點,以便相似的信息項映射到所述節(jié)點陣列中相似位置上的節(jié)點;在涉及信息項的特征數(shù)據(jù)與所述節(jié)點陣列中的節(jié)點之間定義了映射關(guān)系;所述方法包括以下步驟(a)對于一組信息項中的每個信息項檢測表示該信息項屬性集中每個屬性的特征數(shù)據(jù);(b)對于與所述信息項組對應的全體特征數(shù)據(jù)檢測所述全體特征數(shù)據(jù)內(nèi)更重要和較不重要的屬性;關(guān)聯(lián)涉及更重要屬性的所述特征數(shù)據(jù)以便生成每個信息項的簡化特征向量;(c)定義所述簡化特征向量與所述節(jié)點陣列中節(jié)點之間的映射。
2.如權(quán)利要求1所述的方法,其特征在于,所述信息項包括音頻和/或視頻資料項目;以及所述屬性包括所述資料項目的音頻和/或視頻屬性。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述方法包括存儲定義了就一組信息項而論不使用哪些較不重要屬性的數(shù)據(jù)的步驟。
4.如權(quán)利要求3所述的方法,其特征在于,所述方法包括以下步驟就要被新映射到節(jié)點的信息項而論,使用與當前信息項組相關(guān)聯(lián)的映射;檢測特征數(shù)據(jù),所述特征數(shù)據(jù)表示用于有關(guān)所述當前信息項組的所述簡化特征向量中的至少那些信息項屬性中的每個屬性;關(guān)聯(lián)所述檢測到的特征數(shù)據(jù)以便形成對應于要新映射信息項的簡化特征向量。
5.如權(quán)利要求4所述的方法,其特征在于,所述方法包括以下步驟獲得取決于所述新映射信息項與其所映射到的節(jié)點之間的映射誤差的誤差數(shù);檢測是否所述誤差數(shù)指示大于閾誤差的誤差;并且如果是這樣的話,則啟動包括所述新映射信息項的所述信息項全體的重新映射。
6.如權(quán)利要求5所述的方法,其特征在于,所述誤差數(shù)取決于對應于所述新映射節(jié)點的所述簡化特征向量與所述新映射信息項映射到的節(jié)點之間的歐幾里德距離。
7.如權(quán)利要求5或6所述的方法,其特征在于,僅在涉及預定數(shù)量的新映射信息項的所述誤差數(shù)超過所述閾誤差數(shù)時才啟動重新映射。
8.如權(quán)利要求7所述的方法,其特征在于,僅在涉及預定數(shù)量的新映射信息項的所述誤差數(shù)已超出所述閾誤差數(shù),并且那些信息項已在閾時限期間全部被映射時才啟動重新映射。
9.如權(quán)利要求5到8中任一項所述的方法,其特征在于,重新映射操作包括重復檢測更重要和較不重要屬性的所述步驟。
10.如權(quán)利要求3到9中任一項所述的方法,其特征在于,針對要新映射到節(jié)點的搜索查詢,使用與當前信息項組相關(guān)聯(lián)的映射作為所述搜索查詢的一部分,定義表示用于有關(guān)所述當前信息項組的所述簡化特征向量中的至少那些信息項屬性中的每個屬性的特征數(shù)據(jù);關(guān)聯(lián)所述定義的特征數(shù)據(jù)以便形成對應于要新映射的所述搜索查詢的簡化特征向量。
11.如以上任一權(quán)利要求所述的方法,其特征在于,檢測更重要和較不重要屬性的所述步驟使用主成分分析技術(shù)。
12.如權(quán)利要求11所述的方法,其特征在于,檢測更重要和較不重要屬性的所述步驟使用Hotelling變換技術(shù)。
13.如以上任一權(quán)利要求所述的方法,其特征在于,檢測更重要和較不重要特征數(shù)據(jù)的所述步驟是針對于各個屬性或?qū)傩宰咏M來執(zhí)行的。
14.如以上任一權(quán)利要求所述的方法,其特征在于,所述屬性集包括從如下列表中選擇的一個或多個屬性色調(diào)統(tǒng)計分布;照度統(tǒng)計分布;亮度統(tǒng)計分布;顏色分量統(tǒng)計分布;圖像形狀;臉檢測統(tǒng)計;音頻功率;音頻子帶功率;音頻亮度;音頻帶寬;音頻基頻;以及音頻梅爾頻率屬性。
15.如以上任一權(quán)利要求所述的方法,其特征在于,所述方法包括丟棄與較不重要屬性相關(guān)的特征數(shù)據(jù)的所述步驟。
16.如以上任一權(quán)利要求所述的方法,其特征在于,所述方法包括通過以下步驟確定哪些特征數(shù)據(jù)更重要和較不重要的步驟(i)對于具有到所述陣列中節(jié)點的已知期望映射的信息項測試組中的每個信息項檢測表示該信息項屬性集中每個屬性的特征數(shù)據(jù);(ii)對于對應于所述信息項測試組的所述特征數(shù)據(jù)全體檢測所述特征數(shù)據(jù)內(nèi)或所述特征數(shù)據(jù)子類別內(nèi)的重要性順序;對n的至少兩個值,關(guān)聯(lián)與所述n個最重要屬性相關(guān)的特征數(shù)據(jù)以便生成每個信息項的簡化特征向量;定義所述簡化特征向量與所述節(jié)點陣列之間的映射;以及檢測使用每個n值的簡化特征向量定義的所述映射與所述已知期望映射之間的差異程度。
17.如權(quán)利要求16所述的方法,其特征在于,所述方法包括通過檢測n的某個值而檢測更重要與較不重要特征數(shù)據(jù)之間邊界的所述步驟,在所述n值,增加到n的下一最高值造成的使用簡化特征向量定義的所述映射與所述已知期望映射之間的差異程度的變化小于閾值。
18.具有用于執(zhí)行根據(jù)以上任一權(quán)利要求所述方法的程序代碼的計算機軟件。
19.一種用于提供如權(quán)利要求18所述程序代碼的提供介質(zhì)。
20.如權(quán)利要求19所述的介質(zhì),其特征在于,所述介質(zhì)是存儲介質(zhì)。
21.如權(quán)利要求19所述的介質(zhì),其特征在于,所述介質(zhì)是傳輸介質(zhì)。
22.一種信息處理系統(tǒng),其中,信息項通過所述信息項的互相似性映射到節(jié)點陣列中的相應節(jié)點,以便相似的信息項映射到所述節(jié)點陣列中相似位置上的節(jié)點;在涉及信息項的特征數(shù)據(jù)與所述節(jié)點陣列中的節(jié)點之間定義了映射關(guān)系;所述系統(tǒng)包括檢測表示信息項組中每個信息項的屬性集中每個屬性的特征數(shù)據(jù)的工具;檢測對應于所述信息項組的所述全體特征數(shù)據(jù)內(nèi)更重要和較不重要屬性的工具;關(guān)聯(lián)涉及更重要屬性的所述特征數(shù)據(jù)以便生成每個信息項的簡化特征向量的工具;以及定義所述簡化特征向量與所述節(jié)點陣列中節(jié)點之間映射的工具。
23.一種便攜式數(shù)據(jù)處理裝置,包括如權(quán)利要求22所述的系統(tǒng)。
24.一種視頻采集和/或處理設(shè)備,包括如權(quán)利要求22所述的系統(tǒng)。
全文摘要
一種信息處理方法,其中,信息項通過所述信息項的互相似性映射到節(jié)點陣列中的相應節(jié)點,以便相似的信息項映射到所述節(jié)點陣列中相似位置上的節(jié)點;在涉及信息項的特征數(shù)據(jù)與所述節(jié)點陣列中的節(jié)點之間定義了映射關(guān)系;所述方法包括以下步驟(a)對于一組信息項中的每個信息項檢測表示該信息項屬性集中每個屬性的特征數(shù)據(jù);(b)對于與所述信息項組對應的全體特征數(shù)據(jù)檢測所述全體特征數(shù)據(jù)內(nèi)更重要和較不重要的屬性;丟棄與較不重要屬性相關(guān)的特征數(shù)據(jù),剩余的未被丟棄特征數(shù)據(jù)被關(guān)聯(lián),以便生成每個信息項的簡化特征向量;(c)定義所述簡化特征向量與所述節(jié)點陣列中節(jié)點之間的映射。
文檔編號G06F17/30GK1786966SQ20051013704
公開日2006年6月14日 申請日期2005年12月9日 優(yōu)先權(quán)日2004年12月9日
發(fā)明者M·C·朗, J·R·托爾普, P·E·普雷爾 申請人:索尼英國有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1