專利名稱:信息處理的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理。
背景技術(shù):
有多種已建立用于通過根據(jù)關(guān)鍵詞搜索來定位信息(例如文檔、圖像、電子郵件、專利、互聯(lián)網(wǎng)內(nèi)容或媒體內(nèi)容,諸如音頻/視頻內(nèi)容)的系統(tǒng)。這些例子包括互聯(lián)網(wǎng)搜索“引擎”,諸如“Google”TM或“Yahoo”TM提供的搜索引擎,其中通過關(guān)鍵詞進(jìn)行的搜索產(chǎn)生了由該搜索引擎以感覺相關(guān)順序排列的結(jié)果列表。
然而,在包含大量內(nèi)容的系統(tǒng)中(通常稱為大量內(nèi)容集合),很難制定有效的搜索查詢以給出搜索“命中”的簡短列表。例如,在準(zhǔn)備本申請時(shí),以關(guān)鍵詞“大量文檔集合”進(jìn)行Google搜索,命中243000個(gè)。如果之后重復(fù)搜索,則這個(gè)命中數(shù)還有望增加,因?yàn)橥ㄟ^互聯(lián)網(wǎng)存儲(chǔ)的內(nèi)容量通常隨時(shí)增加。查看這種命中列表可能相當(dāng)耗時(shí)。
通常,大量內(nèi)容集合沒有被很好利用的一些原因是·用戶不知道存在相關(guān)內(nèi)容;·用戶知道存在相關(guān)內(nèi)容,但不知道它在哪;·用戶知道存在內(nèi)容,但不知道它是相關(guān)的;·用戶知道存在相關(guān)內(nèi)容以及如何找到它,但找到該內(nèi)容要花很長時(shí)間。
文章“大量文檔集合的自組織”(“Self Organisation of a MassiveDocument Collection”,Kohonen et al,IEEE Transactions on NeuralNetworks,Vol 11,No.3,May 2000,P574-585)公開了一種使用所謂“自組織映射”(SOM)的技術(shù)。其利用了所謂無人監(jiān)管的自學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法,其中表示各文檔特性的“特征向量”被映射到SOM的節(jié)點(diǎn)上。
在Kohonen等人的文章中,第一步是預(yù)處理文檔文本,并隨后從各預(yù)處理的文檔中導(dǎo)出特征向量。在一種形式中,這可以是顯示單詞的各大型詞典出現(xiàn)頻率的直方圖。直方圖內(nèi)的各數(shù)據(jù)值(即,各個(gè)詞典單詞的各出現(xiàn)頻率)變成n值向量的值,其中n是詞典中候選單詞的總數(shù)(在這篇文章描述的實(shí)例中是43222)??蓪向量值進(jìn)行加權(quán),或許強(qiáng)調(diào)特定單詞的增強(qiáng)的相關(guān)性或改進(jìn)的分化。
隨后,n值向量被映射到基本小于n的較小維數(shù)向量上(即,具有數(shù)值為m(在該篇文章中為500)的向量)。這是通過將該向量乘以由隨機(jī)數(shù)陣列形成的(n×m)“投影矩陣”實(shí)現(xiàn)的。這種技術(shù)已經(jīng)顯示出可以生成較小維數(shù)的向量,其中任意兩個(gè)減小維數(shù)的向量都具有許多與兩個(gè)各自輸入向量相同的向量點(diǎn)積。在文章“通過隨機(jī)映射的維數(shù)縮減用于聚類的快速相似性計(jì)算”(“DimensionalityReduction by Random MappingFast Similarity Computation forClustering”,Kaski,Proc IJCNN,P413-418,1998)中描述了這個(gè)向量映射過程。
通過將各向量與“模型”(另一向量)相乘的過程,減小維數(shù)的向量隨后被映射到SOM上的節(jié)點(diǎn)(也稱為神經(jīng)元)上。這些模型通過學(xué)習(xí)過程產(chǎn)生,該學(xué)習(xí)過程通過相互相似性將它們自動(dòng)排序在SOM上,這通常表示為節(jié)點(diǎn)的二維柵格。這是一個(gè)不平凡的過程,對于只在700萬文檔以下的文檔數(shù)據(jù)庫,Kohonen等人在內(nèi)存為800MB的6個(gè)處理器的計(jì)算機(jī)上花了6周的時(shí)間。最后,顯示形成SOM的節(jié)點(diǎn)柵格,用戶可放大映射區(qū)域并選擇節(jié)點(diǎn),這使用戶界面可提供到包含鏈接到那個(gè)節(jié)點(diǎn)的文檔的網(wǎng)頁的鏈接。
在經(jīng)驗(yàn)試驗(yàn)中已經(jīng)認(rèn)識到,雖然上述配置提供了有用的映射,但該映射有多方面的缺點(diǎn)。特別是,可能感覺難以分類的信息項(xiàng)傾向于通過訓(xùn)練過程放在映射的最邊上。映射末端的節(jié)點(diǎn)的加權(quán)因此趨向于反映比與接近映射中心的節(jié)點(diǎn)相關(guān)聯(lián)的加權(quán)因子更多的極值。由于這個(gè)原因,在表示信息項(xiàng)方面位于映射邊緣的節(jié)點(diǎn)傾向于變得用處不大。
發(fā)明內(nèi)容
本發(fā)明提供了一種信息處理方法,其中通過信息項(xiàng)的相互相似性將信息項(xiàng)映射到節(jié)點(diǎn)陣列中的各個(gè)節(jié)點(diǎn),以使相似信息項(xiàng)映射到節(jié)點(diǎn)陣列中相似位置的節(jié)點(diǎn);存在信息項(xiàng)內(nèi)信息特征每個(gè)索引的出現(xiàn)頻率與節(jié)點(diǎn)陣列中節(jié)點(diǎn)之間的映射關(guān)系;所述方法包括如下步驟相對于要處理的信息項(xiàng)檢測節(jié)點(diǎn)陣列中的最近節(jié)點(diǎn),所述最近節(jié)點(diǎn)是映射關(guān)系提供了與要處理的信息項(xiàng)的最近匹配的節(jié)點(diǎn);在陣列中選擇與最近節(jié)點(diǎn)接近的節(jié)點(diǎn)組;并且修改所述映射關(guān)系,以使最近節(jié)點(diǎn)和節(jié)點(diǎn)組通常更接近要處理的信息項(xiàng);其中出于選擇節(jié)點(diǎn)組的目的,陣列繞回(wrap around),以將陣列的外圍邊緣視為鄰近陣列的相對外圍邊緣。
在所附權(quán)利要求書中定義了本發(fā)明的其它各方面和特征。
根據(jù)結(jié)合附圖閱讀的說明性實(shí)施例的以下詳細(xì)描述,本發(fā)明的以上和其它目的、特征和優(yōu)點(diǎn)將是明顯的,附圖中圖1示意性示出了信息存儲(chǔ)與檢索系統(tǒng);圖2是顯示自組織映射(SOM)生成的示意性流程圖;圖3a和3b示意性示出了項(xiàng)頻率直方圖;圖4a示意性示出了原始特征向量;
圖4b示意性示出了減小的特征向量;圖5示意性地示出了SOM;圖6示意性地示出了抖動(dòng)(dither)過程;圖7-9示意性地示出了提供用戶界面以訪問由SOM表示的信息的顯示屏;圖10示意性示出作為視頻采集和/或處理裝置的例子的攝像機(jī);圖11示意性示出作為便攜數(shù)據(jù)處理裝置例子的個(gè)人數(shù)字助理;圖12和13示意性示出了訓(xùn)練過程;圖14示意性地示出了冒泡(bubble)訓(xùn)練曲線;圖15示意性地示出了高斯訓(xùn)練曲線;圖16示意性示出應(yīng)用到SOM邊緣節(jié)點(diǎn)的先前建議的訓(xùn)練過程;圖17示意性地示出了SOM;以及圖18和19示意性地示出應(yīng)用到SOM邊緣節(jié)點(diǎn)的訓(xùn)練過程。
具體實(shí)施例方式
圖1是基于通用計(jì)算機(jī)10的信息存儲(chǔ)和檢索系統(tǒng)的示意圖,該計(jì)算機(jī)10具有處理器單元20,該處理器單元20包括程序和數(shù)據(jù)的盤存儲(chǔ)器30、連接到網(wǎng)絡(luò)50(諸如以太網(wǎng)或互聯(lián)網(wǎng))的網(wǎng)絡(luò)接口卡40、諸如陰極射線管設(shè)備60的顯示設(shè)備、鍵盤70以及諸如鼠標(biāo)80的用戶輸入設(shè)備。該系統(tǒng)在程序控制下工作,程序存儲(chǔ)在盤存儲(chǔ)器30上,并例如通過在網(wǎng)絡(luò)50、移動(dòng)盤(未示出)或盤存儲(chǔ)器30上的預(yù)先安裝來提供。
存儲(chǔ)系統(tǒng)工作在兩種通用工作模式下。在第一種模式下,信息項(xiàng)集合(例如文本信息項(xiàng))安裝在盤存儲(chǔ)器30上或通過網(wǎng)絡(luò)50連接的網(wǎng)絡(luò)盤驅(qū)動(dòng)器上,并對其進(jìn)行分類和索引,準(zhǔn)備搜索操作。第二種工作模式是對索引并分類的數(shù)據(jù)進(jìn)行實(shí)際搜索。
這些實(shí)施例可應(yīng)用于多種類型的信息項(xiàng)。適當(dāng)類型信息的非窮盡列表包括專利、視頻材料、電子郵件、演示、互聯(lián)網(wǎng)內(nèi)容、廣播內(nèi)容、商業(yè)報(bào)告、音頻材料、圖形和剪輯圖、照片等、或這些信息的任意組合或混合。在本描述中將參照文本信息項(xiàng),或至少具有文本內(nèi)容或相關(guān)內(nèi)容的信息項(xiàng)。因此,例如諸如音頻和/或視頻材料的一段廣播內(nèi)容可與定義文本項(xiàng)中那個(gè)材料的“元數(shù)據(jù)”相關(guān)聯(lián)。
信息項(xiàng)以常規(guī)方式加載在盤存儲(chǔ)器30上。它們最好存儲(chǔ)為允許更容易檢索并索引信息項(xiàng)的一部分?jǐn)?shù)據(jù)庫結(jié)構(gòu),但這不是必需的。一旦信息和項(xiàng)已經(jīng)如此存儲(chǔ)了,就執(zhí)行圖2中示意性示出的配置它們搜索的過程。
要理解到,索引的信息項(xiàng)不必存儲(chǔ)在本地盤驅(qū)動(dòng)器30上。數(shù)據(jù)可存儲(chǔ)在通過網(wǎng)絡(luò)50連接到系統(tǒng)10的遠(yuǎn)程驅(qū)動(dòng)器上。作為一種備選方案,可以分布式方式存儲(chǔ)信息,例如經(jīng)過互聯(lián)網(wǎng)的各種網(wǎng)站。如果信息存儲(chǔ)在不同互聯(lián)網(wǎng)或網(wǎng)絡(luò)站點(diǎn)上,則信息存儲(chǔ)的第二級可用于本地存儲(chǔ)一個(gè)到遠(yuǎn)程信息的“鏈接”(例如URL),可能具有相關(guān)簡介、摘要或與那個(gè)鏈接相關(guān)聯(lián)的元數(shù)據(jù)。因此,雖然為了下面的技術(shù)描述,可將遠(yuǎn)程保存的信息、或摘要/簡介/元數(shù)據(jù)、或鏈接/URL看成是“信息項(xiàng)”,但除用戶選擇的相關(guān)鏈接(例如來自下面要描述的結(jié)果列表260)之外,不會(huì)訪問遠(yuǎn)程保存的信息。
換言之,“信息項(xiàng)”的形式定義是導(dǎo)出并處理(參見下文)特征向量以提供到SOM映射的項(xiàng)。結(jié)果列表260(參見下文)中所示的數(shù)據(jù)可以是自身的信息項(xiàng)(如果本地保存并足夠短便于顯示),或者可以是表示和/或針對諸如一個(gè)或多個(gè)元數(shù)據(jù)、URL、摘要、關(guān)鍵詞集合、代表性關(guān)鍵印記(stamp)圖像等的信息項(xiàng)的數(shù)據(jù)。在通常(雖然不總是)包括列出表示項(xiàng)集合數(shù)據(jù)的操作“列表”中,這是固有的。
在另一示例中,信息項(xiàng)可通過聯(lián)網(wǎng)的工作組(諸如研究組或合法公司)存儲(chǔ)?;旌戏椒砂ㄒ恍┍镜卮鎯?chǔ)的信息項(xiàng)、和/或一些通過局域網(wǎng)存儲(chǔ)的信息項(xiàng)、和/或一些通過廣域網(wǎng)存儲(chǔ)的信息項(xiàng)。在此情況下,該系統(tǒng)在定位例如由大型跨國研究和開發(fā)組織中的其他人從事的相似工作中是有用的,相似研究工作傾向于映射到SOM(參見下文)中的相似輸出節(jié)點(diǎn)上?;蛘?,如果策劃新的電視節(jié)目,則本技術(shù)可用于通過檢測具有相似內(nèi)容的先前節(jié)目來檢查其獨(dú)創(chuàng)性。
還要理解到,圖1的系統(tǒng)10只是可以使用索引信息項(xiàng)的可能系統(tǒng)的一個(gè)示例。雖然設(shè)想初始(索引)階段可由相當(dāng)強(qiáng)大的計(jì)算機(jī)來執(zhí)行(最可能是非便攜式計(jì)算機(jī)),但后面的訪問信息階段可在便攜式機(jī)器上執(zhí)行,諸如“個(gè)人數(shù)字助理”(帶有顯示器和用戶輸入設(shè)備的數(shù)據(jù)處理設(shè)備的術(shù)語,其通常適合于單手)、諸如膝上型電腦的便攜式計(jì)算機(jī)、乃至諸如移動(dòng)電話、視頻編輯裝置或攝像機(jī)的設(shè)備。通常,實(shí)際上任何具有顯示器的設(shè)備都可用于操作的信息訪問階段。
這些過程并不局限于特定數(shù)量的信息項(xiàng)。
現(xiàn)在參照圖2-6來描述生成信息項(xiàng)的自組織映射(SOM)表示的過程。圖2是說明SOM映射過程之前的所謂“特征提取”過程的示意性流程圖。
特征提取是將原始數(shù)據(jù)轉(zhuǎn)換為抽象表示的過程。隨后,這些抽象表示可用于諸如模式分類、聚類和識別的過程。在此過程中,生成所謂的“特征向量”,其是文檔內(nèi)所用項(xiàng)頻率的抽象表示。
通過創(chuàng)建特征向量形成可視化的過程包括·創(chuàng)建項(xiàng)的“文檔數(shù)據(jù)庫詞典”;·基于“文檔數(shù)據(jù)庫詞典”創(chuàng)建各個(gè)文檔的“項(xiàng)頻率直方圖”;·使用隨機(jī)映射來減小“項(xiàng)頻率直方圖”的維數(shù);·創(chuàng)建信息空間的2維可視化。
更詳細(xì)地考慮這些步驟,依次打開各文檔(信息項(xiàng))100。在步驟110,從文檔中去掉所有“無用詞”。無用詞是在預(yù)先準(zhǔn)備列表上極其常用的單詞,諸如“a”、“the”、“however”、“about”、“and”和“the”。因?yàn)檫@些詞極其常用,因此它們可能在所有足夠長的文檔中平均出現(xiàn)的頻率差不多。因此,在試圖表征特定文檔內(nèi)容時(shí)它們的用途很小,并因此應(yīng)該去掉。
去掉無用詞后,在步驟120對剩下的詞進(jìn)行詞干化,涉及找出單詞變形的共同詞干。例如,單詞“thrower”、“throws”和“throwing”的公共詞干是“throw”。
保留在文檔中(排除了“無用”詞)出現(xiàn)的詞干化單詞的“詞典”。當(dāng)遇到一個(gè)新詞時(shí)將其加到詞典中,并還記錄該詞已在整個(gè)文檔集合(信息項(xiàng)集合)中出現(xiàn)次數(shù)的運(yùn)行計(jì)數(shù)。
結(jié)果是在集合中所有文檔中所用的項(xiàng)列表,以及那些項(xiàng)出現(xiàn)的頻率。不理會(huì)出現(xiàn)頻率太高或太低的詞,也就是說將它們從詞典中去掉,并且不參與下面的分析。頻率太低的詞可能是拼錯(cuò)、編造、或與文檔集合表示的領(lǐng)域不相關(guān)的詞。出現(xiàn)頻率太高的詞不適于辨別集合內(nèi)的文檔。例如,在與廣播相關(guān)的文檔的測試集合中,大約所有文檔的三分之一中都使用了項(xiàng)“News(新聞)”,而單詞“football(足球)”在該測試集合中只有大約2%的文檔使用。因此可以假定“football”是比“News”更好的表征文檔內(nèi)容的項(xiàng)。相反,單詞“fottball”(“football”的錯(cuò)拼)在整個(gè)文檔集合中只出現(xiàn)一次,因此由于出現(xiàn)頻率太低而被丟掉。這種詞可定義為那些具有出現(xiàn)頻率比小于平均出現(xiàn)頻率的兩個(gè)標(biāo)準(zhǔn)偏差還低的單詞,或是出現(xiàn)頻率比大于平均出現(xiàn)頻率的兩個(gè)標(biāo)準(zhǔn)偏差還高的單詞。
隨后,在步驟130生成特征向量。
為此,為集合中的每個(gè)文檔生成項(xiàng)頻率直方圖。通過對單詞在各個(gè)文檔內(nèi)的詞典(屬于那個(gè)文檔集合)中出現(xiàn)的次數(shù)進(jìn)行計(jì)數(shù),來構(gòu)造項(xiàng)頻率直方圖。詞典中的大多數(shù)項(xiàng)不會(huì)出現(xiàn)在單個(gè)文檔中,因此這些項(xiàng)的頻率為零。圖3a和3b示出了兩個(gè)不同文檔項(xiàng)頻率直方圖的示意性示例。
從這個(gè)實(shí)例可以看出直方圖如何表征文檔內(nèi)容。通過觀察這些實(shí)例看到,文檔1中項(xiàng)“MPEG”和“視頻”的出現(xiàn)次數(shù)比文檔2多,文檔2中項(xiàng)“元數(shù)據(jù)”的出現(xiàn)次數(shù)較多。直方圖中的許多條目都為零,這是因?yàn)樵谖臋n中沒出現(xiàn)相應(yīng)的詞。
在一個(gè)真實(shí)例子中,實(shí)際項(xiàng)頻率直方圖具有的項(xiàng)數(shù)遠(yuǎn)大于該例中的數(shù)量。通常情況下,給直方圖超過50000的維數(shù),直方圖可描繪超過50000個(gè)不同項(xiàng)的頻率。如果直方圖要用于構(gòu)建SOM信息空間,則這個(gè)直方圖的維數(shù)需要大大減小。
項(xiàng)頻率直方圖中的每個(gè)條目都用作表示該文檔的特征向量中的相應(yīng)值。該過程的結(jié)果是一個(gè)(50000×1)向量,包含由詞典為文檔集合中各文檔指定的所有項(xiàng)頻率。由于大部分值通常為零,其它大部分詞通常為非常小的數(shù)(例如1),所以該向量可稱為“稀疏向量”。
在步驟140減小特征向量的大小,并因此減小項(xiàng)頻率直方圖的維數(shù)。為減小直方圖維數(shù)的過程提出了兩種方法。
i)隨機(jī)映射—一種將直方圖與隨機(jī)數(shù)矩陣相乘的技術(shù)。這是一個(gè)計(jì)算上很便宜的過程。
ii)隱性語義索引—一種通過尋找文檔中同時(shí)出現(xiàn)的概率很高的項(xiàng)的組合來減小直方圖維數(shù)的技術(shù)。這些詞組合隨后可被減小為單一參數(shù)。這是一個(gè)計(jì)算上很昂貴的過程。
在本實(shí)施例中,選擇用于減小項(xiàng)頻率直方圖維數(shù)的方法是“隨機(jī)映射”,上面提到的Kaski文章中對這種方法進(jìn)行了詳細(xì)描述。隨機(jī)映射通過將直方圖與隨機(jī)數(shù)矩陣相乘而成功減小了直方圖的維數(shù)。
如上所述,“原始”特征向量(圖4a中示意性示出)通常是大小在50000個(gè)值范圍內(nèi)的稀疏向量。這可減小到大約200個(gè)(參見示意圖4b),并仍保持了特征向量的相對特性,即,它的關(guān)系,諸如與其它同樣處理的特征向量的相對角(向量點(diǎn)積)。因?yàn)楸M管特定維數(shù)的正交向量數(shù)有限,但幾乎正交的向量的數(shù)量很大,所以該方法有效。
事實(shí)上,隨著向量維數(shù)的增加,任何給定的隨機(jī)生成的向量集合幾乎都彼此正交。這種性質(zhì)意味著將保持與隨機(jī)數(shù)矩陣相乘的向量的相對方向。這可通過在隨機(jī)映射之前和之后通過查看其點(diǎn)積來示出向量的相似性而進(jìn)行論證。
可用實(shí)驗(yàn)的方法示出,通過將稀疏向量從50000個(gè)值減小到200個(gè)值來保持其相對相似性。然而,該映射并不完善,但對于以簡潔方式表征文檔內(nèi)容而言足夠了。
一旦為文檔集合生成了特征向量,從而定義了集合的信息空間,就在步驟150將它們投入到二維SOM中,以創(chuàng)建語義映射。下面部分說明通過使用Kohonen自組織映射對特征向量進(jìn)行聚類來映射到2D的過程。還參考了圖5。
Kohonen自組織映射用于聚類并組織為各文檔生成的特征向量。
自組織映射包括顯示為二維平面185的節(jié)點(diǎn)的二維陣列或柵格中的輸入節(jié)點(diǎn)170和輸出節(jié)點(diǎn)180。輸入節(jié)點(diǎn)與用于訓(xùn)練映射的特征向量中的值一樣多。映射上的每個(gè)輸出節(jié)點(diǎn)通過加權(quán)連接190(一個(gè)連接一個(gè)加權(quán))連接到輸入節(jié)點(diǎn)。
開始每個(gè)這些加權(quán)都設(shè)為隨機(jī)值,并隨后通過迭代過程“訓(xùn)練”加權(quán)。通過將每個(gè)特征向量呈現(xiàn)到映射的輸入節(jié)點(diǎn)來訓(xùn)練該映射。通過計(jì)算輸入向量與各輸出節(jié)點(diǎn)的加權(quán)之間的歐氏距離,來計(jì)算“最近的”輸出節(jié)點(diǎn)。
最近節(jié)點(diǎn)被指定為“勝利者”,并通過稍微改變加權(quán)值來訓(xùn)練這個(gè)節(jié)點(diǎn)的加權(quán),以使它們向“更靠近”輸入向量的方向移動(dòng)。除獲勝節(jié)點(diǎn)之外,還訓(xùn)練獲勝節(jié)點(diǎn)鄰域內(nèi)的節(jié)點(diǎn),并稍微向更靠近輸入向量的方向移動(dòng)。下面將進(jìn)一步參考圖12-19來描述該過程。
這不只是訓(xùn)練單個(gè)節(jié)點(diǎn)加權(quán)的過程,而且是訓(xùn)練映射上節(jié)點(diǎn)區(qū)域加權(quán)的過程,其使映射一旦被訓(xùn)練了就保持節(jié)點(diǎn)2D映射中的輸入空間的大量拓?fù)洹?br>
一旦訓(xùn)練了映射,各文檔就被呈現(xiàn)到該映射上,以查看對于該文檔哪個(gè)輸出節(jié)點(diǎn)最靠近輸入特征向量。加權(quán)等于特征向量是不太可能的,并且特征向量與映射上其最近節(jié)點(diǎn)間的歐氏距離被稱為其“量化誤差”。
通過將各文檔的特征向量呈現(xiàn)到該映射上,來查看它在哪產(chǎn)生各文檔的x、y映射位置。當(dāng)這些x、y位置與文檔ID一起放進(jìn)查找表時(shí),可用來對文檔間的關(guān)系進(jìn)行可視化。
最后,在步驟160加入抖動(dòng)分量,這將在下面參照圖6描述。
用上述過程的潛在問題是兩個(gè)相同或基本相同的信息項(xiàng)可映射到SOM節(jié)點(diǎn)陣列中的同一節(jié)點(diǎn)。這沒有引起處理數(shù)據(jù)方面的困難,但對顯示屏上數(shù)據(jù)的可視化(下面將描述)沒有幫助。特別是,當(dāng)在顯示屏上可視化數(shù)據(jù)時(shí),已經(jīng)認(rèn)識到,對于在特定節(jié)點(diǎn)處的單個(gè)項(xiàng)上可辨別的多個(gè)非常相似的項(xiàng)而言,這是有用的。因此,將“抖動(dòng)”分量加到各信息項(xiàng)映射的節(jié)點(diǎn)位置上。抖動(dòng)分量是節(jié)點(diǎn)間隔的±1/2的隨機(jī)增加。因此,參照圖6,映射過程選擇輸出節(jié)點(diǎn)200的信息項(xiàng)具有添加的抖動(dòng)分量,以使它實(shí)際上可映射到圖6上用虛線界定的區(qū)域210內(nèi)的任何節(jié)點(diǎn)位置。
因此,可認(rèn)為信息項(xiàng)映射到了圖6平面上的位置,在節(jié)點(diǎn)位置而不是SOM過程的“輸出節(jié)點(diǎn)”。
備選方法可以是在上述SOM映射過程中使用更高密度的“輸出節(jié)點(diǎn)”。這不會(huì)提供絕對相同信息項(xiàng)之間的任何差別,但可使幾乎(但不完全)相同的信息項(xiàng)映射到不同(但間隔緊密)的輸出節(jié)點(diǎn)。
圖7示意性示出了顯示屏幕60上的顯示,其中圖示了在搜索操作中所用的分類到SOM中的數(shù)據(jù)。顯示器示出了搜索查詢250、結(jié)果列表260和SOM顯示區(qū)270。
在操作中,用戶將關(guān)鍵詞搜索查詢敲入查詢區(qū)域250。然后用戶例如通過按下鍵盤70上的回車鍵、或通過使用鼠標(biāo)80選擇屏幕“按鈕”起動(dòng)搜索來開始搜索。然后使用標(biāo)準(zhǔn)關(guān)鍵詞搜索技術(shù),比較搜索查詢框250中的關(guān)鍵詞與數(shù)據(jù)庫中的信息項(xiàng)。這生成結(jié)果列表,每個(gè)結(jié)果顯示為列表視圖260中的各條目280。同樣,每個(gè)結(jié)果具有節(jié)點(diǎn)顯示區(qū)270上的相應(yīng)顯示點(diǎn)。
因?yàn)橛糜谏蒘OM表示的分類過程傾向于在SOM中將相互相似的信息項(xiàng)集中在一起,所以搜索查詢結(jié)果通常傾向于歸入諸如聚類290的聚類中。在此要注意的是,區(qū)域270上的各點(diǎn)對應(yīng)于與結(jié)果列表260中的一個(gè)結(jié)果相關(guān)聯(lián)的SOM中的各條目;并且在區(qū)域270中顯示的點(diǎn)的位置對應(yīng)于節(jié)點(diǎn)陣列內(nèi)那些節(jié)點(diǎn)的陣列位置。
圖8示意性示出了一種減少“命中”(結(jié)果列表中的結(jié)果)數(shù)的技術(shù)。用戶用鼠標(biāo)80在對應(yīng)于感興趣節(jié)點(diǎn)的顯示點(diǎn)集的周圍拖出一個(gè)框300。在結(jié)果列表區(qū)260中,只顯示了與框300內(nèi)的點(diǎn)相對應(yīng)那些結(jié)果。如果這些結(jié)果證明是不感興趣的,則用戶可拖出包含不同顯示點(diǎn)集合的另一個(gè)框。
要注意的是,對于在框300內(nèi)顯示的顯示點(diǎn)并滿足詞搜索區(qū)250中搜索標(biāo)準(zhǔn)的那些結(jié)果,結(jié)果區(qū)260顯示了列表?xiàng)l目???00可包含與在節(jié)點(diǎn)陣列中填充的節(jié)點(diǎn)相對應(yīng)的其它顯示位置,但如果這些不滿足搜索標(biāo)準(zhǔn),則不會(huì)顯示它們,并因此不會(huì)形成在框260中顯示的一部分結(jié)果子集。
圖9示意性示出了檢測列表視圖260中條目的節(jié)點(diǎn)位置的技術(shù)。使用圖形用戶界面領(lǐng)域中的標(biāo)準(zhǔn)技術(shù),特別在使用所謂“Windows”TM操作系統(tǒng)的計(jì)算機(jī)中,用戶可“選擇”結(jié)果列表視圖中的一個(gè)或多個(gè)條目。在所示的例子中,這是通過鼠標(biāo)點(diǎn)擊與相關(guān)結(jié)果相關(guān)聯(lián)的“復(fù)選框”310實(shí)現(xiàn)的。然而,同樣可通過加亮整個(gè)結(jié)果或通過雙擊相關(guān)結(jié)果等來實(shí)現(xiàn)。當(dāng)選擇一個(gè)結(jié)果時(shí),以不同方式來顯示表示節(jié)點(diǎn)陣列中各個(gè)節(jié)點(diǎn)的相應(yīng)顯示點(diǎn)。示意性示出了對應(yīng)于結(jié)果區(qū)260中的選擇結(jié)果330的兩個(gè)顯示點(diǎn)320。
外觀的變化可能是以較大尺寸、或以同一顯示顏色的更濃烈版本、或以不同的顯示顏色、或以這些變化屬性的組合來顯示點(diǎn)。
任何時(shí)候,都可這樣將新的信息項(xiàng)添加到SOM中通過接著上面概述的步驟(即步驟110至140),并然后將合成的減小的特征向量應(yīng)用到“預(yù)訓(xùn)練”SOM模型,即,從映射的自組織準(zhǔn)備中產(chǎn)生的SOM模型集。因此,對于新添加的信息項(xiàng)而言,通常不“重新訓(xùn)練”映射;改為使用步驟150和160,其中并不修正所有的SOM模型。每次要添加新信息項(xiàng)都重新訓(xùn)練SOM的計(jì)算量是非常大的,而且對用戶也不太友好,用戶可能習(xí)慣了映射中通常訪問的信息項(xiàng)的相對位置。
然而,有可能存在重新訓(xùn)練過程是合適的點(diǎn)。例如,如果自從最初生成SOM以來新的項(xiàng)(可能是新的新聞項(xiàng)或新的技術(shù)領(lǐng)域)已經(jīng)輸入詞典中,則它們不會(huì)特別好地映射到現(xiàn)有輸出節(jié)點(diǎn)集。這可檢測為在將新接收的信息項(xiàng)映射到現(xiàn)有SOM期間所謂“量化誤差”的增加。在本實(shí)施例中,量化誤差與閾值誤差量相比較。如果量化誤差大于閾值,則(a)使用其所有原始信息項(xiàng)和從其創(chuàng)建以來添加的任何項(xiàng)來自動(dòng)重新訓(xùn)練SOM;或(b)提示用戶在方便時(shí)開始重新訓(xùn)練過程。重新訓(xùn)練過程使用所有相關(guān)信息項(xiàng)的特征向量,并全部重新應(yīng)用步驟150和160。
圖10示意性地示出作為視頻采集和/或處理裝置的攝像機(jī),該攝像機(jī)包括具有相關(guān)鏡頭520的圖像捕獲設(shè)備510;數(shù)據(jù)/信號處理器530;帶存儲(chǔ)器540;盤或其它隨機(jī)存取存儲(chǔ)器550;用戶控制560;以及具有目鏡580的顯示設(shè)備570。對于本領(lǐng)域的技術(shù)人員,常規(guī)攝像機(jī)或其它替換物(諸如不同的存儲(chǔ)介質(zhì)或不同的顯示屏配置)的其它特征將是明了的。使用中,可將與捕獲的視頻資料有關(guān)的元數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器550上,并可在顯示設(shè)備570上查看與存儲(chǔ)的數(shù)據(jù)有關(guān)的SOM,并如上所述使用用戶控制560來控制該SOM。
圖11示意性地示出個(gè)人數(shù)字助理(PDA)600,作為便攜式數(shù)據(jù)處理裝置的一個(gè)例子,其具有包括顯示區(qū)620和提供用戶控制的觸摸敏感區(qū)630的顯示屏610;以及數(shù)據(jù)處理和存儲(chǔ)器(未示出)。本領(lǐng)域技術(shù)人員還會(huì)想到一些備選物。該P(yáng)DA可如上面針對圖1系統(tǒng)描述的來使用。
現(xiàn)在將參考圖12-19更詳細(xì)地描述之前提到的節(jié)點(diǎn)訓(xùn)練過程。
如上所述,在SOM訓(xùn)練過程期間,當(dāng)找到特定特征向量的“最近”節(jié)點(diǎn)時(shí),改變應(yīng)用到該節(jié)點(diǎn)的節(jié)點(diǎn)加權(quán)。用這樣的方法進(jìn)行改變改變后,最近的節(jié)點(diǎn)略微更可能是最近的節(jié)點(diǎn)。此外,同樣以這種方式調(diào)節(jié)鄰近的節(jié)點(diǎn)它們調(diào)節(jié)的加權(quán)使它們略微更接近當(dāng)前信息項(xiàng)的特征向量。
在圖12中示意性示出了這個(gè)過程。這里,已經(jīng)標(biāo)識了最近節(jié)點(diǎn)700。調(diào)節(jié)與該節(jié)點(diǎn)相關(guān)的加權(quán)。調(diào)節(jié)后,節(jié)點(diǎn)700將仍然是最近的節(jié)點(diǎn),并且實(shí)際上將略微更接近當(dāng)前的特征向量。
但除了對最近節(jié)點(diǎn)700的加權(quán)進(jìn)行調(diào)節(jié)之外,還對圍繞該最近節(jié)點(diǎn)的區(qū)域710內(nèi)的其它鄰近節(jié)點(diǎn)進(jìn)行調(diào)節(jié)。圖12所示的簡化示例具有在矩形柵格中配置的節(jié)點(diǎn),并且最近節(jié)點(diǎn)的±1柵格位置內(nèi)的任何節(jié)點(diǎn)都已經(jīng)用這種方式調(diào)節(jié)了其加權(quán)。
在自組織映射節(jié)點(diǎn)的另一概念性視圖中,節(jié)點(diǎn)配置在偏斜或六邊形柵格中,諸如圖13所示的柵格。這具有這樣的優(yōu)點(diǎn)對于任何特定節(jié)點(diǎn),所有方向的相鄰節(jié)點(diǎn)距那個(gè)節(jié)點(diǎn)都是等距的。這使基于直接極距的函數(shù)可用于選擇要修改的節(jié)點(diǎn)。
在圖13中,已經(jīng)標(biāo)識了最近節(jié)點(diǎn)720。在一個(gè)示例中,修改與區(qū)域730中節(jié)點(diǎn)相關(guān)聯(lián)的加權(quán)。區(qū)域730由與最近節(jié)點(diǎn)的距離定義,并包括緊鄰最近節(jié)點(diǎn)720的所有節(jié)點(diǎn)。然而,可使用基于不同距離的函數(shù),例如以將區(qū)域740定義為要修改的節(jié)點(diǎn)。
圖14示意性示出了所謂的“冒泡”訓(xùn)練曲線。對于節(jié)點(diǎn)訓(xùn)練配置創(chuàng)造了這個(gè)術(shù)語,其中相同的修改(例如相同的乘法因子或相同的加法因子)被應(yīng)用于圖13中節(jié)點(diǎn)720的某個(gè)距離內(nèi)所有節(jié)點(diǎn)的加權(quán)。在閾值距離之外的不進(jìn)行修改。
圖15中示意性示出了稱為“高斯”訓(xùn)練曲線的備選方案。這里,應(yīng)用到節(jié)點(diǎn)的修改量取決于它與節(jié)點(diǎn)720的距離,其中當(dāng)距離增加時(shí)修改量通常減少。
到此為止,配置了已經(jīng)描述的示例,以使最近的節(jié)點(diǎn)(700或720)適當(dāng)遠(yuǎn)離SOM的邊緣。圖16示意性示出了最近節(jié)點(diǎn)完全非常接近SOM邊緣的情況下會(huì)發(fā)生什么。要注意到,在圖16中示出了更多的節(jié)點(diǎn)以幫助闡明該圖。
參考圖16,已將節(jié)點(diǎn)750標(biāo)識為最近的節(jié)點(diǎn),并選擇通常是半圓形的區(qū)域760用于加權(quán)修改。不修改最近節(jié)點(diǎn)750左側(cè)的節(jié)點(diǎn),這是由于在所繪制的映射中不存在這些節(jié)點(diǎn)。
在經(jīng)驗(yàn)試驗(yàn)中已經(jīng)認(rèn)識到,雖然圖16的配置可提供有用的映射,但該映射具有各種缺點(diǎn)。特別是,訓(xùn)練過程趨向于將可能感覺難以分類的信息項(xiàng)置于映射的最邊上。因此,映射末端處節(jié)點(diǎn)的加權(quán)可能趨向于反映比與接近映射中心的節(jié)點(diǎn)相關(guān)聯(lián)的加權(quán)因子更多的極值。由于該原因,位于映射邊緣的節(jié)點(diǎn)在表示信息項(xiàng)的過程中趨向于變得用處不大。
圖17中示意性地示出了上述問題的解決方案,還示出了SOM。在該非常簡單的配置中,映射被看成在每個(gè)邊緣處繞回。因此,節(jié)點(diǎn)770看作與節(jié)點(diǎn)780和節(jié)點(diǎn)790相鄰。節(jié)點(diǎn)770和780看作沿水平方向(如圖所示)相鄰,而節(jié)點(diǎn)770和790看作沿垂直方向相鄰。此外,節(jié)點(diǎn)770被看作在映射的對角處與節(jié)點(diǎn)800相鄰。下面將參考圖19描述實(shí)現(xiàn)這個(gè)的方法,但首先參考圖18,其示出了該方法的效果。
參考圖18,已經(jīng)標(biāo)識了最近節(jié)點(diǎn)810。選擇用于修改的區(qū)域內(nèi)的節(jié)點(diǎn)包括四個(gè)子區(qū)域820、830、840和850內(nèi)的那些節(jié)點(diǎn)。類似地,對于SOM一個(gè)邊上的節(jié)點(diǎn)860,選擇用于修改的兩個(gè)子區(qū)域870和880內(nèi)的節(jié)點(diǎn)。
圖19示意性地示出了可獲得該修正映射的簡單方式。如果將特定節(jié)點(diǎn)(例如最近節(jié)點(diǎn))標(biāo)識為在映射邊緣的閾值距離內(nèi),則轉(zhuǎn)換映射如下。
如果檢測到最近節(jié)點(diǎn)位于距陣列邊緣的閾值距離內(nèi)(其中閾值距離在適當(dāng)時(shí)例如可以是映射寬度或高度的一半),則重新配置映射,以便在選擇用于訓(xùn)練修改的節(jié)點(diǎn)組之前有效地分割映射,并使兩個(gè)相對的邊彼此相鄰。該過程可沿垂直和水平方向執(zhí)行,或在需要時(shí)可僅沿垂直方向或僅沿水平方向執(zhí)行。當(dāng)然,實(shí)際上不必移動(dòng)節(jié)點(diǎn);在訓(xùn)練過程期間,可僅通過暫時(shí)改變節(jié)點(diǎn)的尋址來執(zhí)行上述重新配置。圖18和19示出了以這種方式重新配置的示例區(qū)域890以及區(qū)域820...850上重新配置的效果。
發(fā)生分割(和重新配置)的映射中的位置是可變的。在圖示的示例中,在水平和垂直方向大約一半的位置處分割映射。但該分割位置可有所不同。在每個(gè)方向都可分離出包括“最近節(jié)點(diǎn)”的部分,并將其象征性地(出于考慮最近節(jié)點(diǎn)的目的)重新配置到映射的相對側(cè)上,其中理想的是該部分至少與在訓(xùn)練過程中要修改的節(jié)點(diǎn)組的寬度一樣寬,并且映射的其余部分也滿足同一約束。這里的結(jié)果是重新配置的映射中的結(jié)果,在映射區(qū)之間不分割要修改的節(jié)點(diǎn)組。
用于處理映射以使邊緣以上述方式繞回的另一種技術(shù)是用水平方向模數(shù)為n的映射地址和垂直方向模數(shù)為m的映射地址來處理映射,以確定訓(xùn)練過程中要調(diào)節(jié)的節(jié)點(diǎn),其中n是該位置上映射的水平寬度(以節(jié)點(diǎn)為單位),m是該位置上映射的高度(以節(jié)點(diǎn)為單位)。
要理解到,引用“垂直”和“水平”方向以及諸如“寬度”的術(shù)語,僅用于幫助闡明本描述。它們并不涉及節(jié)點(diǎn)陣列的任何物理屬性。
最后,在顯示映射時(shí),可應(yīng)用同一類型的技術(shù)。也就是說,可以繞回的形式顯示映射,以將映射的最邊緣的節(jié)點(diǎn)顯示為鄰近相對邊的節(jié)點(diǎn)。這樣,在用戶看來映射沿任一方向都是無窮的。
雖然在此已參考附圖詳細(xì)描述了本發(fā)明的示意性實(shí)施例,但應(yīng)該理解到,本發(fā)明并不局限于那些具體實(shí)施例,并且在不脫離所附權(quán)利要求書定義的本發(fā)明的范圍和精神的前提下,本領(lǐng)域技術(shù)人員可對其進(jìn)行各種改動(dòng)和修改。
權(quán)利要求
1.一種信息處理方法,其中通過信息項(xiàng)的相互相似性將所述信息項(xiàng)映射到節(jié)點(diǎn)陣列中的各個(gè)節(jié)點(diǎn),以使相似信息項(xiàng)映射到所述節(jié)點(diǎn)陣列中相似位置的節(jié)點(diǎn);存在信息項(xiàng)內(nèi)信息特征的每個(gè)索引的出現(xiàn)頻率與所述節(jié)點(diǎn)陣列中節(jié)點(diǎn)之間的映射關(guān)系;所述方法包括如下步驟相對于要處理的信息項(xiàng)檢測所述節(jié)點(diǎn)陣列中的最近節(jié)點(diǎn),所述最近節(jié)點(diǎn)是所述映射關(guān)系提供了與要處理的信息項(xiàng)的最近匹配的節(jié)點(diǎn);在所述陣列中選擇接近所述最近節(jié)點(diǎn)的節(jié)點(diǎn)組;并且修改所述映射關(guān)系,以使所述最近節(jié)點(diǎn)和所述節(jié)點(diǎn)組通常更接近要處理的所述信息項(xiàng);其中出于選擇所述節(jié)點(diǎn)組的目的,所述陣列繞回,以將所述陣列的外圍邊緣視為鄰近所述陣列的相對外圍邊緣。
2.如權(quán)利要求1所述的方法,其中選擇所述最近節(jié)點(diǎn)的閾值距離內(nèi)的節(jié)點(diǎn)用于修改。
3.如權(quán)利要求1所述的方法,包括如下步驟生成從要處理的所述信息項(xiàng)中導(dǎo)出的特征向量,信息項(xiàng)的所述特征向量表示那個(gè)信息項(xiàng)內(nèi)信息特征的每個(gè)所述索引的出現(xiàn)頻率集合;以及將所述特征向量映射到所述節(jié)點(diǎn)陣列中的節(jié)點(diǎn)。
4.如權(quán)利要求1所述的方法,其中所述信息項(xiàng)包括文本信息;并且所述信息特征包括詞。
5.如權(quán)利要求4所述的方法,其中所述信息特征包括具有多種可能語言形式的語言詞干。
6.如權(quán)利要求4所述的方法,其中所述信息特征排除詞的預(yù)定集合。
7.如權(quán)利要求1所述的方法,包括圖形用戶界面,所述圖形用戶界面將至少一些所述節(jié)點(diǎn)的表示在用戶顯示器上顯示為顯示區(qū)內(nèi)顯示點(diǎn)的二維顯示陣列。
8.如權(quán)利要求7所述的方法,其中出于顯示所述節(jié)點(diǎn)的目的,所述陣列繞回,以便將所述陣列的外圍邊緣視為鄰近所述陣列的相對外圍邊緣。
9.計(jì)算機(jī)軟件,具有執(zhí)行如權(quán)利要求1所述方法的程序代碼。
10.一種提供介質(zhì),用于提供如權(quán)利要求9所述的程序代碼。
11.如權(quán)利要求10所述的介質(zhì),所述介質(zhì)是存儲(chǔ)介質(zhì)。
12.如權(quán)利要求10所述的介質(zhì),所述介質(zhì)是傳輸介質(zhì)。
13.一種信息處理系統(tǒng),其中通過信息項(xiàng)的相互相似性將所述信息項(xiàng)映射到節(jié)點(diǎn)陣列中的各個(gè)節(jié)點(diǎn),以使相似信息項(xiàng)映射到所述節(jié)點(diǎn)陣列中相似位置的節(jié)點(diǎn);存在信息項(xiàng)內(nèi)信息特征的每個(gè)索引的出現(xiàn)頻率與所述節(jié)點(diǎn)陣列中節(jié)點(diǎn)之間的映射關(guān)系;所述系統(tǒng)包括檢測器,可操作用于相對于要處理的信息項(xiàng)檢測所述節(jié)點(diǎn)陣列中的最近節(jié)點(diǎn),所述最近節(jié)點(diǎn)是所述映射關(guān)系提供了與要處理的信息項(xiàng)的最近匹配的節(jié)點(diǎn);選擇器,在所述陣列中選擇接近所述最近節(jié)點(diǎn)的節(jié)點(diǎn)組;以及邏輯,其修改所述映射關(guān)系,以使所述最近節(jié)點(diǎn)和所述節(jié)點(diǎn)組通常更接近要處理的所述信息項(xiàng);其中出于選擇所述節(jié)點(diǎn)組的目的,所述陣列繞回,以便將所述陣列的外圍邊緣視為鄰近所述陣列的相對外圍邊緣。
14.一種便攜式數(shù)據(jù)處理設(shè)備,包括如權(quán)利要求13所述的系統(tǒng)。
15.視頻采集和/或處理裝置,包括如權(quán)利要求13所述的系統(tǒng)。
全文摘要
一種信息處理方法,通過信息項(xiàng)的相互相似性將信息項(xiàng)映射到節(jié)點(diǎn)陣列中的各個(gè)節(jié)點(diǎn),以使相似信息項(xiàng)映射到節(jié)點(diǎn)陣列中相似位置的節(jié)點(diǎn);存在信息項(xiàng)內(nèi)信息特征的每個(gè)索引的出現(xiàn)頻率與節(jié)點(diǎn)陣列中節(jié)點(diǎn)之間的映射關(guān)系,相對于要處理的信息項(xiàng)該方法包括如下步驟檢測節(jié)點(diǎn)陣列中的最近節(jié)點(diǎn),該最近節(jié)點(diǎn)是映射關(guān)系提供與要處理的信息項(xiàng)的最近匹配的節(jié)點(diǎn);在陣列中選擇與最近節(jié)點(diǎn)接近的節(jié)點(diǎn)組;并修改映射關(guān)系,以使最近節(jié)點(diǎn)和節(jié)點(diǎn)組通常更接近要處理的信息項(xiàng);其中出于選擇節(jié)點(diǎn)組的目的,陣列繞回,以將陣列的外圍邊緣視為鄰近陣列的相對的外圍邊緣。
文檔編號G06F17/30GK1746891SQ20051010369
公開日2006年3月15日 申請日期2005年9月9日 優(yōu)先權(quán)日2004年9月9日
發(fā)明者J·R·索普, P·E·普雷勒 申請人:索尼英國有限公司