aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

網(wǎng)絡中智能信息處理的方法和系統(tǒng)的制作方法

文檔序號:6462907閱讀:360來源:國知局
專利名稱:網(wǎng)絡中智能信息處理的方法和系統(tǒng)的制作方法
技術(shù)領域
本發(fā)明涉及一種在類似于Internet的廣域網(wǎng)中用自然語言,如中文,進行智能信息處理的方法和系統(tǒng)。更具體地說,本發(fā)明涉及在Internet上中文智能檢索的方法和系統(tǒng)。
例如,在因特網(wǎng)上,該電子地址被稱為統(tǒng)一資源定位標識或URL。它由一系列特定格式的信息串接而成訪問該資源所需的協(xié)議類型信息,網(wǎng)絡主機域名標識符(來識別電子資源所在的具體計算機),端口號,資源在計算機文件系統(tǒng)中的目錄路徑信息,和資源的文件名。因特網(wǎng)的URL和電子資源的類似的標志模式對于用戶來說是很不方便的。URL長度經(jīng)常超過50個字符,并且,所含信息對信息搜索者來說既枯燥又沒有含義。因此,人們已做了一些工作,使得對用URL表示的網(wǎng)址檢索對信息搜索者或檢索者來說更有含義。這就使搜索者或檢索者不必記住準確的URL,而只用一些自然使用的詞或術(shù)語。
美國專利第5,764,906號描述了一種系統(tǒng),可以對信息資源及其提供者提供并維護一個短的別名,并且可以將這些別名翻譯成有用的電子地址,如URL、傳真及語音電話號碼,和電子郵件地址等,并且,用這些地址來訪問資源。類似的,1999年8月5日公開的PCT申請WO99/39275公開了一種基于自然語言的因特網(wǎng)導航方法,導航到存儲在網(wǎng)絡中并由位置標識來識別的資源。一些軟件產(chǎn)品已進入商業(yè)領域,以幫助用戶使用自然語言名稱訪問因特網(wǎng)資源。
目前,已有許多這種服務,例如,RealNames(http//www.realnames.com)用簡短的“關(guān)鍵字”替代復雜的因特網(wǎng)地址,或URLs,并且,它已通過Microsoft(微軟)的因特網(wǎng)瀏覽器和MSN門戶網(wǎng)站,來提供這種服務。Microsoft也在其網(wǎng)頁瀏覽器軟件中宣布包含RealNames。RealNames的服務相當于美國在線的關(guān)鍵字系統(tǒng)。該系統(tǒng)允許AOL會員能鍵入普通短語去查找具體內(nèi)容頻道。類似的,Netword Agent軟件(http//www.netword.com)也允許用戶鍵入因特網(wǎng)關(guān)鍵字,而不是URL。另外,Internet Engineering TaskForce(IETF)正在開發(fā)因特網(wǎng)關(guān)鍵字標準。IETF已組成工作組,致力于設計“通用名字解析協(xié)議”,或?qū)崿F(xiàn)網(wǎng)絡(Web)關(guān)鍵字的標準方式。
然而,因特網(wǎng)關(guān)鍵字軟件產(chǎn)品,如RealNames或Netword的那些產(chǎn)品,要么與瀏覽器結(jié)合,要么做為瀏覽器的插件。當新瀏覽器出現(xiàn)時,插件也必須更新。
此外,這些因特網(wǎng)關(guān)鍵字軟件產(chǎn)品或關(guān)鍵字檢索既不適合也不便于處理某寫國家的自然語言,如亞洲的語言,特別是中文、日文和韓文,或任何其它象形文字的語言。每個字符可能沒有確切的含義,并且,與一個或多個其它字符組合時,可能有多種含義。因此,使用通常的關(guān)鍵字檢索技術(shù),不能快速和準確地得到這種所希望的電子地址的檢索結(jié)果。
因此,本發(fā)明的一個目的是提供一種用自然語言,如中文,來處理信息檢索的方法。
本發(fā)明的另一目的是提供一種用自然語言,如中文,處理信息檢索的系統(tǒng)。
本發(fā)明進一步的目的是提供一種基于中文或者中文拼音(字的發(fā)音)的因特網(wǎng)中文智能檢索的方法和系統(tǒng)。
本發(fā)明進一步的目的是提供一種因特網(wǎng)中文智能檢索的方法和系統(tǒng),即使輸入南方音拼音,也能自動獲得正確結(jié)果。
如果輸入被確定為自然語言發(fā)音符號,即拼音拼寫,則將進一步確定輸入是否是完整的音標(拼音全拼)還是拼音字頭縮寫。如果輸入是完整音標(全拼)查詢,該查詢用拼音檢索表處理,以得到所希望的URL或網(wǎng)址,并且,結(jié)果被送回到瀏覽器以供選擇。否則,該查詢會依據(jù)自然語言文字拼音字頭縮寫檢索表處理,URL或網(wǎng)址的查詢結(jié)果被送回到瀏覽器,以供選擇。
本發(fā)明的智能檢索還包括確定查詢是否與某個網(wǎng)站、網(wǎng)址或網(wǎng)頁精確匹配。如果沒有與網(wǎng)站或網(wǎng)頁的精確匹配,就將可能的檢索結(jié)果列表提供給用戶,以供其選擇。
漢字輸入對于許多用戶來說是困難的。然而,如果瀏覽者的計算機配備有中文輸入軟件,漢字可作為檢索查詢被輸入。這就可以啟動了中文的智能檢索。為給用戶提供更多的選擇,在本發(fā)明的一些具體實施方案中,智能信息處理系統(tǒng)和方法可以接受“拼音”,即,發(fā)音符號,或“拼音”字頭,即,所要查詢的詞語發(fā)音的首字母縮寫,以便獲得可能的檢索結(jié)果表。
該系統(tǒng)和方法還可以處理電話號碼輸入,并可得到與注冊電話號碼相應的相關(guān)網(wǎng)站。如果輸入人名(中文或英文),可從遠程網(wǎng)絡名片服務器中,如由http//www.letscard.com所提供的服務器,或者其它任何類似的服務器,得到這個人的網(wǎng)絡名片。本發(fā)明的這些方面的包含在本申請人的其它相應的專利申請中。
附圖的簡要說明所附附圖示出本發(fā)明的具體實施方案,并且,通過以下的詳細說明和附圖,能更好理解本發(fā)明。


圖1示出可用于執(zhí)行本發(fā)明具體實施方案的網(wǎng)絡計算機系統(tǒng)的例子;圖2示出本發(fā)明的一個具體實施方案;圖3示出控制瀏覽器URL輸入窗口的處理過程;圖4示出帶有漢語自然語言的訪問和導航服務的瀏覽器屏幕截圖;圖5A、5B和5C示出本發(fā)明的廣域網(wǎng)中智能信息處理的三個基本結(jié)構(gòu);圖6示出中文自然語言處理的處理過程;圖7示出中文自然語言處理的另一處理過程;圖8示出本發(fā)明漢字和/或英文詞處理的方法;圖9示出本發(fā)明漢語拼音全拼詞處理的方法;圖10示出本發(fā)明漢語拼寫縮寫詞處理的方法;圖11示出本發(fā)明在信息處理前,確定查詢輸入詞類的處理過程;圖12A和12B分別示出本發(fā)明拼音全拼同音詞的檢索方法,和方言錯拼的拼音全拼詞的檢索方法。
發(fā)明的詳細說明如像本領域任何普通技術(shù)人員所夠認識到的一樣,本發(fā)明可包括一種方法、數(shù)據(jù)處理系統(tǒng)或程序產(chǎn)品。依據(jù)本發(fā)明所寫的軟件可被存在某些計算機可讀的載體中,如存儲器,或CD ROM,或在網(wǎng)上傳送,并被處理器執(zhí)行。然而,本發(fā)明的主要原理可被描述在以下所述的網(wǎng)絡智能信息處理方法或網(wǎng)絡智能信息處理系統(tǒng)中。
圖1表示本發(fā)明的一個系統(tǒng)。用戶機/計算機101,通過因特網(wǎng)連接108,109,連接到網(wǎng)絡服務器102和因特網(wǎng)資源定位標識服務器,如http//www.3721.com的服務器103和104。用戶計算機101可以是運行Microsoft Windows(微軟視窗)操作系統(tǒng)的任何種類的計算機,包括PC機,Macintosh計算機,以及因特網(wǎng)設備,如WebTV(網(wǎng)絡電視機)和無線因特網(wǎng)瀏覽裝置。用戶機101可通過拔入調(diào)制解調(diào)器,DSL線,有線調(diào)制解調(diào)器,專用線,如T1或T3,或光纖連接,連接到因特網(wǎng)。顯然,本領域普通技術(shù)人員知道,本發(fā)明并不限定用戶計算機的具體類型或用戶機與因特網(wǎng)之間連接的具體形式。因特網(wǎng)資源定位器服務器103和104包括瀏覽器模式數(shù)據(jù)庫105、URL模式106,和其它模式107。
圖2表示用戶機203,通過因特網(wǎng)連接202,被連接到因特網(wǎng)資源定位標識服務器201,如3721服務器或含有本發(fā)明服務器軟件的其它服務器。瀏覽器屏幕圖像正在用戶機203中執(zhí)行。一個小的用戶端計算機軟件也正在用戶機203中執(zhí)行(見屏幕底部的小圖)。小的用戶端計算機軟件從瀏覽器的地址框截取文本信息(msg)輸入。該信息或者被傳送到因特網(wǎng)資源定位標識服務器201以供處理,或者由小的用戶端軟件進行本地處理圖3示出本發(fā)明用戶端軟件運行的處理過程。用戶端軟件使用win32鉤子技術(shù)(Win32 hook技術(shù))注入所有運行進程中。鉤子是Microsoft Windows消息處理機制中的一個點,在該點,應用程序能夠安裝一個子程序或單獨的模塊,以監(jiān)視系統(tǒng)中的消息往來,和處理某些類型的消息。鉤子程序可以是全局的,監(jiān)視系統(tǒng)所有線程中的消息,或者它也可以是特定于線程的,監(jiān)視單個線程的消息。某些鉤子只能設定為系統(tǒng)范圍(如,WH_SYSMSGFILTER),但大多數(shù)鉤子的作用域可以有系統(tǒng)或者特定線程范圍??梢栽贛icrosoft網(wǎng)站(http//www.microsoft.com)找到關(guān)于Win32鉤子的技術(shù)資料。
檢查所有運行的進程,以確定它是否是需要截獲的目標。如果它是目標,有關(guān)進程的信息就被用來查找用戶輸入URL的瀏覽器的編輯控件。該信息可以用來檢索瀏覽器模式庫,以確定用戶計算機中正在運行的瀏覽器的版本。此數(shù)據(jù)庫可以自動更新。
一旦找到編輯控件,就生成一個子類。這個編輯窗口的消息可以是組合框和下拉式列表的選擇或鍵盤輸入。如果它是鍵盤輸入,就檢查確定它是否是URL地址。還是在一個URL的規(guī)則模式庫中檢索以確定其是否為一個URL。如果它是組合框或下拉式列表的選擇,就按圖3所示處理。
圖4示出中文版的瀏覽器與本發(fā)明的用戶端軟件交互的圖象。用戶在瀏覽器的地址框中用中文輸入單詞“計算機”,就產(chǎn)生與該單詞相關(guān)的中文地址表。
然而,今天網(wǎng)站的檢索不僅可以通過英文的URL或者關(guān)鍵詞進行,而且也用其它種自然語言進行,如中文。這就需要某些可以使用那種自然語言,有效和準確地進行這種網(wǎng)上信息檢索的處理方法或系統(tǒng)。
可以理解,檢索通常通過數(shù)據(jù)庫進行,該數(shù)據(jù)庫包含特別設計的檢索表,從而方便各種檢索任務。對于中文信息的網(wǎng)上檢索,也不例外。作為本發(fā)明的檢索之目的,因特網(wǎng)資源定位標識服務器應至少包含中文字符的檢索索引表,拼音全拼(拼音)檢索索引表和漢字拼音字母縮寫(拼音字頭)的檢索表。
通常,當輸入關(guān)鍵詞查詢時,輸入的關(guān)鍵詞短語就被分解成幾個有含義的單詞,將其與有預先設的檢索表匹配。然后,各個單詞的檢索結(jié)果合并在一起考慮,以確定最終結(jié)果或查詢結(jié)果。然而,對于某些自然語言,如中文,所輸入的查詢可能是漢字。每個字符可能有或者可能沒有確切的含意,而且,字符與其它字符的組合可以產(chǎn)生不同含意的中文詞。因此,中文字符串的簡單分解并不能保證查詢結(jié)果的準確性。因此,本發(fā)明會將用戶所輸入的短語或者查詢詞,分解成所有可能組合出來的有含義的中文詞。
例如,第一個字不只是簡單地與后面的第二個字和/或第三個字組合,得到一個有含義的詞,除此之外,還會與后面的各個字組成其它任何有含義的詞。在本發(fā)明中,第一個字會與輸入的任何字組合,組成所有可能的有含義的詞用于查詢。因此,當全部結(jié)果都出自于所有可能組合出的有含義的詞時,獲得的查詢結(jié)果可以保證查詢的正確。
對中文網(wǎng)站的查詢輸入有可能是漢字輸入、URL輸入和拼音輸入,包括拼音全拼輸入,拼音字頭縮寫,同音字拼音輸入和南方音的拼音輸入。在進入本發(fā)明有關(guān)上述每個輸入的方法和系統(tǒng)的細節(jié)之前,討論一下現(xiàn)有的中文輸入技術(shù)可以有助于更好地理解本發(fā)明。
中文的主要編碼系統(tǒng)是Big5和國標(即,國家標準)。Big5一般用于處理繁體字,國標一般用于簡體字。在香港和臺灣通行的Big編碼系統(tǒng)中,“天”的二進制編碼是1101000110100100?!疤臁钡膰鴺舜a是1110110011001100。請注意上述“天”的Big5碼或國標碼都以1開始,而字母“A”的ASCII碼是以0開始。這個例子說明事實,即,所有中文碼都以1開始,而所有ASCII碼都以0開始。從這種意義上說,系統(tǒng)能在包含中、英文文本的文件里檢測給定字節(jié)是否為英文還是中文。
計算機輸入和處理中文文本是一個非常困難的問題。漢字的數(shù)量說明了這點。在中文的方塊字(漢字)書寫系統(tǒng)中,通常使用的漢字有3000到6000個。如果包括相對較少使用的,就有1萬多個漢字。除這個困難以外,還有漢語版本的標準化,多個同音字,生僻字的分界線問題等,都妨礙計算機有效處理中文文本。盡管進行了幾十年大量的研究,存在著數(shù)百種不同的方法,但計算機中文輸入和處理仍是妨礙計算機在中國使用,特別是文本處理的一個主要障礙。
目前,可用于輸入和處理漢語文本的計算機系統(tǒng)可被分成三種。第一種是基于將漢字分解成基本圖形元素。每種方法的漢字分解都不是唯一的。因此,學會這些方法相當困難。
第二種和第三種是以發(fā)音為基礎,如拼音全拼方法。這些方法會遇到漢語處理中的“同音字問題”。第二種是語音輸入(如,用于中國大陸的“拼音”和用于臺灣的“注音”或BPMF),它對除專業(yè)打字員以外的每個人來說是最通用的方法。中文漢字書寫系統(tǒng)是這種方法在概念上和實際上的障礙。
盡管,相對于成千上萬的字而言,僅有約1300個不同的語音音節(jié),然而,一個語音音節(jié)可相當于許多不同的漢字。例如,普通話中“yi”的發(fā)音能相當于100多個漢字。這在將輸入的語音音節(jié)轉(zhuǎn)譯成相應的漢字時,產(chǎn)生不確定性。
涉及這個“同音字問題”,大多數(shù)語音輸入系統(tǒng)使用多選方法。例如,J.Heinzl等的1938年5月5日的德國專利第3,142,138號,K.C.Hsieh的1991年9月10日的美國專利第5,047,932號,和TanShanguang的1991年3月8日的中國專利申請第1064957號。在鍵入語音音節(jié)后,計算機顯示出有相同發(fā)音的所有可能的字。在一些情況下,屏幕上沒有足夠的空間去顯示有相同發(fā)音的所有可能的字。這會需要上下滾動。因此,這些以單個音節(jié)為基礎的語音方法很慢。
以獲取相鄰漢字的概率(可能性)為基礎的對這種多選方法的改進公開在,R.W.Sproat的1992年4月1日的英國專利申請第2,248,328號中。概率(可能性)方法能與語法規(guī)則進一步相結(jié)合。例如,K.T.Lua等的1992年的中文和東方語言的計算機處理,Vol.6,Num.1,85頁。然而,這些方法轉(zhuǎn)換的準確性(語音到字)一般只能達到80%左右。
第三種方法將語音一字符輸入方法和其它的非語音字母相組合。將非語音字母加到語音字母上,人工地區(qū)別相同發(fā)音的字。實例包括帶部首標記的拼音(C.C.Chen的1985年11月20日的英國專利第2,158,776號)和帶筆劃數(shù)的拼音(G.Xie的1992年11月25日的中國專利申請第1066518號)。這些方法需要記住制定的規(guī)則或計算筆劃數(shù),實際降低了輸入速度。
還有其它漢字輸入方法,例如,美國專利第6,073,146號所公開的?!?46專利公開了一種系統(tǒng),使用帶區(qū)別符號鍵(和相應的ASCII碼)的鍵盤,使用戶能用表示音節(jié)聲調(diào)的區(qū)別符號注釋每個輸入的語音文本的音節(jié)。在系統(tǒng)上執(zhí)行的這一方法是確定在區(qū)別符號(或界定符號)擊鍵時已被輸入的音節(jié)。隨后,所有輸入的音節(jié)與一個可被接受的語音音節(jié)和縮寫表相比較。如果輸入的音節(jié)是在該表上,則正確拼寫和口音的音節(jié)就被存儲在存儲器中,并被顯示在圖像顯示的語音部分。對后續(xù)音節(jié)繼續(xù)處理,直到輸入界定符。一旦遇到界定符,就使用詞法的和綜合性的處理和/或統(tǒng)計語言模式來分析詞的字符串(定義為兩個界定符之間的字串),以明確確定出代表該詞的字符串中的適當?shù)臐h字。這唯一的中文譯文就被儲存在存儲器中,并被顯示在圖像界面的漢字部分。
本發(fā)明中,用于因特網(wǎng)關(guān)鍵字查詢的檢索索引數(shù)據(jù)結(jié)構(gòu)如圖5A,圖5B和圖5C所示。本發(fā)明有三種結(jié)構(gòu)近似的檢索索引表。為實現(xiàn)因特網(wǎng)關(guān)鍵字的高速智能檢索,建立適合檢索大規(guī)模數(shù)據(jù)的高效數(shù)據(jù)結(jié)構(gòu)是非常重要的。本發(fā)明的三種數(shù)據(jù)結(jié)構(gòu)是(1)用于識別普通漢字和英文單詞的詞或短語的智能檢索的索引表;(2)漢語拼音全拼智能檢索索引表;(3)漢語拼音字母縮寫智能檢索索引表。
參見圖5A,索引表是中英文詞表,包括所有中英文詞,例如“中國”、“軟件”、“電腦”、“ibm”等。在中文或英文表中,每個詞都連接到因特網(wǎng)關(guān)鍵字結(jié)點列表。該表中的每個結(jié)點代表某個指針,指向包含該單詞的因特網(wǎng)關(guān)鍵詞的實際存儲空間。因此,它可以從鏈接到各詞的因特網(wǎng)關(guān)鍵字入口點列表,檢索出包含該中文或英文單詞的所有因特網(wǎng)關(guān)鍵詞。
參見圖5B,數(shù)據(jù)結(jié)構(gòu)與圖5A的相似。只是左側(cè)中文詞是拼音形式,即語音拼寫。例如,上述詞的中文現(xiàn)在是“zhongguo”、“ruanijan”、“diannao”、等。鏈接的因特網(wǎng)關(guān)鍵字入口點列表是包括該詞漢語拼音形式的因特網(wǎng)關(guān)鍵字的列表。
圖5C也是有與圖5A相似的數(shù)據(jù)結(jié)構(gòu)。不同之處在于,左側(cè)詞表中,各詞均是漢語拼音首字母縮寫的形式,如“zg”、“rj”、“dn”等。這樣,相關(guān)的因特網(wǎng)關(guān)鍵字入口點列表包括該詞與這些查詢的拼音字母縮寫相對應。由這三圖可知,三種基本的智能檢索方法有相似的數(shù)據(jù)結(jié)構(gòu),但是,詞是以中、英文詞、拼音全拼(拼音),或拼音字母縮寫(漢語拼音字頭)的不同形式存儲的。因此,可以理解,這三種檢索的內(nèi)部算法是相同的。關(guān)鍵在于這些詞是如何在查詢中分組或選擇,以組成有含意的檢索詞。如上所述,查詢串被分解成所有可能被組合出的有含義的詞,以確保每個可能的檢索詞指向列表中的因特網(wǎng)關(guān)鍵字,并確保查詢?nèi)绾伪慌卸槭菨h字輸入或英文詞輸入,拼音全拼輸入或者拼音字頭縮寫輸入。以下討論本發(fā)明的相關(guān)方法。
盡管開發(fā)了較簡單的方法,漢字輸入仍然是一項非常困難的工作。特別是當互聯(lián)網(wǎng)裝置是手持裝置時,如個人數(shù)據(jù)助理,或者與互聯(lián)網(wǎng)無線連接的移動電話。本發(fā)明的一個方面,是提供一種簡化漢字輸入的方法。本發(fā)明特別適用于輸入網(wǎng)址,或者自然語言關(guān)鍵詞或網(wǎng)站(網(wǎng)頁)名。圖6表示出本發(fā)明的一個具體實施方案。在此方法中,用戶鍵入中文詞拼音拼寫的字頭,如501所示。拼音字頭被用來查詢數(shù)據(jù)庫,一個可能的URL表作為結(jié)果被列出,如502所示。該表可以以統(tǒng)計信息為基礎,如按照查詢的頻率將最常用的URL首先列出,如503所示。
圖7表示出本發(fā)明的另一具體實施方案,在601,輸入中文詞的拼音拼寫。在602,檢查該拼寫,以確定其是否為常見的錯誤拼寫。常見錯拼的發(fā)生是因為口音的原因。在中國南方,許多南方人因為南方口音造成漢語拼音錯誤。如果由于南方口音出現(xiàn)錯拼,在605,本發(fā)明的系統(tǒng)會自動將其糾正。如果查詢串沒有錯拼,或錯拼已被糾正,則在603,檢索相關(guān)的URL數(shù)據(jù)庫。在604,顯示其輸出。
一個小的用戶端軟件,通過后端的智能檢索引掣和數(shù)據(jù)庫的支持,可以作為本發(fā)明的具體實施方案的例子。該軟件可從http//www.3721.com下載。用戶不必知道或鍵入長而復雜的URL字串,取而代之的是簡單地在網(wǎng)址框鍵入熟悉的品牌、產(chǎn)品名稱的漢字,就可將其帶到其所希望的目標站點或相關(guān)網(wǎng)頁。例如,用戶能簡單地鍵入中文的“聯(lián)想電腦”就會找到所要訪問的站點,而不用鍵入http//www.legend.com.cn。
現(xiàn)在,來看以下本發(fā)明的主要特點,圖8表示出本發(fā)明的中文和/或英文詞檢索的基本流程圖。在801,輸入中文和/或英文詞形式的查詢字符串A后,在802,系統(tǒng)就對照中、英文詞表(CEWL)分析查詢字符串A,并且,將查詢字符串A分解成一個或多個中文詞W=(W1,W2,W3,...,Wn)。在803,對W中的每個詞Wx,系統(tǒng)在CEWL表中檢索詞Wx,以找到其附屬的因特網(wǎng)關(guān)鍵字入口點表(IKEPLx),IKEPLx表中的每個節(jié)點會指向一個包含詞Wx的因特網(wǎng)關(guān)鍵字(IK)。
在804,系統(tǒng)將所有的IKEPL1,IKEPL2,...,IKEPLn合并在一起,得到結(jié)果R,即,R=IKEPL1,U IKEPL2,U...,IKEPLn。由于IKEPLx中的每個節(jié)點均指向包含詞Wx的IK,則R的每個IK至少包含W中的一個詞。在805,合并的同時,系統(tǒng)按特定規(guī)則對R中每個IK計算其權(quán)重,規(guī)則的例子如下(1)詞數(shù)權(quán)重IK所含的在W中的詞的個數(shù)(2)長度權(quán)重IK所含的在W中的詞的總長最后,在上述規(guī)則的基礎上,系統(tǒng)計算每個IK的綜合權(quán)重。計算后,在806,系統(tǒng)按IK的權(quán)重,將結(jié)果R分類,這樣一來,最近似的結(jié)果出現(xiàn)在表頭,并且,系統(tǒng)會限制R中結(jié)果的數(shù)量。然后,在807,出現(xiàn)最終IK表R。
類似地,參見圖9,在901,輸入的查詢字符串A是拼音全拼的形式。在902,當字符串A輸入后,系統(tǒng)對照漢語拼音全拼詞表(FCPWL)分析字符串A,并將其分解成一個或多個漢語拼音詞W={W1,W2,W3,...,Wn}。在903,對于W中的每個詞Wx,系統(tǒng)在FCPWL中檢索,以找到其附屬的因特網(wǎng)關(guān)鍵詞入口點表IKEPLx,IKEPLx表中的每個節(jié)點指向其拼音包含Wx的因特網(wǎng)關(guān)鍵詞(IK)。隨后,在904,系統(tǒng)合并IKEPL1,IKEPL2,...,IKEPLn,以獲得結(jié)果R=IKEPL1,U IKEPL2,U...,IKEPLn。這樣,R中的每個IK的拼音都至少包含W中的一個詞。以下步驟906-907與805-807的步驟非常相同,即,按特定規(guī)則計算R中每個IK的權(quán)重;按IK的權(quán)重將表R的結(jié)果分類,以便把最近似的結(jié)果放在表頭,并且,限制R中結(jié)果的數(shù)量,從而最終獲得結(jié)果IK的表R。
類似地,參見圖10,在11,用戶將輸入漢語拼音縮寫字符串A。在12,系統(tǒng)對照漢語拼音縮寫詞表(ACPWL)分析字符串A,并且,將字符串A分解成一個或多個漢語拼音縮寫詞W={W1,W2,W3,...,Wn}。然后,在13,對W中的每個詞Wx,系統(tǒng)在ACPWL中檢索該詞,以找到其附屬的因特網(wǎng)關(guān)鍵詞入口點表IKEPLx,IKEPLx表中的每個節(jié)點指向其拼音縮寫包含詞Wx的因特網(wǎng)關(guān)鍵詞(IK)。隨后,在14,系統(tǒng)合并IKEPL1,IKEPL2,...,IKEPLn,以得到結(jié)果R=IKEPL1,U IKEPL2,U...,IKEPLn,則R中每個IK的拼音縮寫都至少包含W里的一個詞。以下步驟15-17與圖8和圖9中的那些步驟基本相同,即,按特定規(guī)則計算R中每個IK的權(quán)重;按IK的權(quán)重將表R的結(jié)果分類,以便把最近似的結(jié)果放在表頭處,并且,限制R中結(jié)果的數(shù)量,從而最終獲得結(jié)果IK的表R。
在中、英文詞,漢語拼音全拼詞,和漢語拼音縮寫詞,這三種智能檢索模式的基礎上,本發(fā)明關(guān)于廣域網(wǎng)中智能信息處理的方法和系統(tǒng)將判斷輸入查詢字符串是否為中、英文詞、漢語拼音全拼詞、還是漢語拼音縮寫詞,如圖11所示。在110輸入字符串A后,在111,系統(tǒng)判斷輸入的查詢字符串A是否為漢語拼音全拼詞的形式。如果是,系統(tǒng)就按拼音全拼的智能檢索方法進行計算,如圖9所示。
如果字符串A不是漢語拼音全拼詞,在112,系統(tǒng)判斷輸入的查詢字符串A是否是漢語拼音縮寫詞的形式。如果是,系統(tǒng)就按漢語拼音縮寫詞的智能檢索方法進行計算,如圖10所示。如果字符串A不是,系統(tǒng)就因此判斷出輸入的查詢字符串A是中、英文詞的形式,并且,進行與圖8所示計算相同的計算。然而,有一種情況,系統(tǒng)在113判斷漢語拼音全拼詞檢索或者漢語拼音縮寫詞檢索的計算結(jié)果是否是空白。如果結(jié)果是空白,系統(tǒng)將再次進行中、英文詞檢索的計算,如圖8所示。如果圖9或圖10的檢索模式的計算不是空白,則其計算結(jié)果就被判斷為最終結(jié)果。
圖12A表示了本發(fā)明的同音詞的拼音全拼檢索模式。在121,輸入查詢字符串A后,在122,系統(tǒng)分析得到所有可能的同音詞組合,作為可檢索的全拼詞。在123,對于每個全拼同音詞,系統(tǒng)進行漢語拼音全拼詞檢索計算,如圖9所示。在獲得所有檢索結(jié)果RN后,在124,系統(tǒng)將分析結(jié)果RN,并獲得最終和最可能的結(jié)果,或限制結(jié)果的數(shù)量。
圖12B示出本發(fā)明中帶有方言錯拼糾正功能的拼音全拼檢索模式。為進一步擴展圖7的方法和系統(tǒng),在125,輸入全拼詞字符串A后,在126,本發(fā)明的系統(tǒng)將對照一個表中所列出的因南方口音可能拼錯的輔音或元音,分析輸入的詞,如“huang”和“wang”,“shi”和“si”“l(fā)u”和“l(fā)”,等。總之,此表列舉了所有可能拼錯的詞。因此,輸入的查詢字符串被分成為若干個拼音詞,包含所有可能的拼音詞,然后,在127,通過拼音全拼檢索的方法進行計算,以獲得所有可能的結(jié)果IK。隨后,在128,分析檢索結(jié)果,以獲得最終和最可能的結(jié)果。
可以理解,以上敘述僅是說明而不是限制。對于閱讀了上述說明的本領域普通技術(shù)人員來說,本發(fā)明的許多變化是顯而易見的。因此,本發(fā)明的范圍不僅應結(jié)合以上說明加以確定,而且還應結(jié)合變化和等同物來加以確定。盡管本發(fā)明與具體實施方案一起敘述;但可以理解,這并沒有打算將本發(fā)明限制在這些具體實施方案。相反,本發(fā)明意欲覆蓋可能在本發(fā)明實質(zhì)精神和范圍內(nèi)的變化、修改及等同物。
權(quán)利要求
1.一種因特網(wǎng)智能信息處理方法,包括步驟a)識別輸入是否是URL地址,英文單詞,本土語言文字,還是本土語言發(fā)音符號;b)如果所輸入的是普通的URL,就通過因特網(wǎng)在相應的服務器中查詢輸入,并且,直接從其獲得查詢結(jié)果;c)如果所述輸入包括本土語言發(fā)音符號,就將所述輸入針對至少一個拼音詞表查找相應的因特網(wǎng)關(guān)鍵詞,并且,直接從中獲得查詢結(jié)果;和d)如果所述輸入包括本土語言文字,則將所述輸入作為自然語言輸入在自然語言表中進行處理,并獲得所希望的因特網(wǎng)關(guān)鍵詞,并取得相應的網(wǎng)站URL查詢結(jié)果。
2.如權(quán)利要求1的方法,其特征在于進一步包括判斷所述音符是拼音全拼形式的詞,還是拼音字頭形式的詞,如果所述輸入是拼音全拼詞字符串,就將所述輸入字符串在含有所有可能的有含義詞組合的漢語拼音全拼詞表中解析。
3.如權(quán)利要求1的方法,其特征在于當以拼音全拼的形式輸入所述查詢字符串后,所述系統(tǒng)對照漢語拼音全拼詞表(FCPWL)分析所述字符串,并將所述字符串分解成一個或多個漢語拼音詞,即W={W1,W2,W3,...,Wn};對于W中的每個詞Wx,所述系統(tǒng)在FCPWL中檢索查詢字符串,以找到其附屬的因特網(wǎng)關(guān)鍵詞入口點表IKEPLx,IKEPLx表中的每個節(jié)點指向其拼音包含Wx的因特網(wǎng)關(guān)鍵詞,隨后,所述系統(tǒng)合并IKEPL1,IKEPL2,...,IKEPLn,以獲得結(jié)果R=IKEPL1,UIKEPL2,U...,IKEPLn;R中的每個因特網(wǎng)關(guān)鍵詞,其拼音至少包含W中的一個詞。
4.如權(quán)利要求3的方法,其特征在于在附屬的因特網(wǎng)關(guān)鍵詞合并后,所述系統(tǒng)進一步按特定規(guī)則計算R中每個因特網(wǎng)關(guān)鍵詞的權(quán)重;包括因特網(wǎng)關(guān)鍵詞所含的W中詞數(shù)的詞數(shù)權(quán)重,和因特網(wǎng)關(guān)鍵詞所含的W中詞的總的長度權(quán)重;然后,將所述結(jié)果表R按因特網(wǎng)關(guān)鍵詞的權(quán)重分類,以便把最接近的結(jié)果出現(xiàn)在所述表的表頭,接著是限制R中結(jié)果的數(shù)量,從而獲得最終結(jié)果的因特網(wǎng)關(guān)鍵詞表R。
5.如權(quán)利要求1的方法,其特征在于進一步包括判斷所述發(fā)音符號是拼音全拼詞,還是拼音字頭縮寫詞;如果所述輸入是拼音字頭縮寫詞字符串,就在含有所有可能有含義詞的組合的漢語拼音縮寫詞表中解析所述輸入字符串。
6.如權(quán)利要求5的方法,其特征在于在判斷所述查詢輸入是漢語拼音縮寫詞后,所述系統(tǒng)對照ACPWL分析所述查詢輸入,將所述查詢輸入分解成一個或多個漢語拼音縮寫詞,即W={W1,W2,W3,...,Wn};對于W中的每個詞Wx,所述系統(tǒng)在漢語拼音縮寫詞表(ACPWL)中解析所述詞,以找到其附屬的因特網(wǎng)關(guān)鍵詞入口點表IKEPLx,IKEPLx表中的每個節(jié)點指向其拼音縮寫詞包含所述詞Wx的因特網(wǎng)關(guān)鍵詞;然后,所述系統(tǒng)合并IKEPL1,IKEPL2,...,IKEPLn,以獲得結(jié)果R=IKEPL1, U IKEPL2,U...,IKEPLn;隨后,R中的每個因特網(wǎng)關(guān)鍵詞將至少包含W中的一個拼音縮寫詞。
7.如權(quán)利要求6的方法,其特征在于在所述附屬的因特網(wǎng)關(guān)鍵詞合并后,所述系統(tǒng)按特定規(guī)則進一步計算R中每個因特網(wǎng)關(guān)鍵詞的權(quán)重;包括因特網(wǎng)關(guān)鍵詞所含的W中詞數(shù)的詞數(shù)權(quán)重,和因特網(wǎng)關(guān)鍵詞所含的W中詞的總的長度權(quán)重;隨后,將所述結(jié)果表R按因特網(wǎng)關(guān)鍵詞的權(quán)重分類,以便把最接近的結(jié)果出現(xiàn)在所述表的表頭,接著是限制R中結(jié)果的數(shù)量,從而獲得最終結(jié)果的因特網(wǎng)關(guān)鍵詞表R。
8.如權(quán)利要求1的方法,其特征在于所述自然語言表是中英文詞表,這樣,按所述輸入所有可能有含義詞的組合解析所述輸入,以找到附屬的因特網(wǎng)關(guān)鍵詞。
9.如權(quán)利要求8的方法,其特征在于在對照所述中英文詞表(CEWL)分析所述查詢輸入后,將所述查詢輸入分解成一個或多個中文詞,即W={W1,W2,W3,...,Wn};對于W中的每個詞Wx,在CEWL中檢索所述詞Wx,以找到其附屬的因特網(wǎng)關(guān)鍵詞入口點表IKEPLx,隨后,在IKEPLx中的每個節(jié)點指向包含所述詞Wx的因特網(wǎng)關(guān)鍵詞。
10.如權(quán)利要求9的方法,其特征在于所述系統(tǒng)合并所有的IkEPL1,IKEPL2,...,IKEPLn,并且,得到結(jié)果R,即,R=IKEPL1,UIKEPL2,U...,IKEPLn;由此,每個IKEPLx的節(jié)點指向至少包含有一個詞Wx的因特網(wǎng)關(guān)鍵詞;合并得到的所述結(jié)果,并且按特定規(guī)則計算R中每個因特網(wǎng)關(guān)鍵詞的權(quán)重;包括(1)因特網(wǎng)關(guān)鍵詞所含的W中詞數(shù)的詞數(shù)權(quán)重;(2)因特網(wǎng)關(guān)鍵詞所含的W中詞的總的長度權(quán)重。
11.如權(quán)利要求10的方法,其特征在于所述系統(tǒng)按上述所述規(guī)則,計算每個因特網(wǎng)關(guān)鍵詞的綜合權(quán)重,并且在所述計算后,所述系統(tǒng)按所述因特網(wǎng)關(guān)鍵詞的權(quán)重將所述結(jié)果表R分類,以便把最接近的結(jié)果放在所述結(jié)果表的表頭,所述系統(tǒng)將限制R中結(jié)果的數(shù)量,以最終獲得所述因特網(wǎng)關(guān)鍵詞表。
12.一種用于拼音同音詞的智能信息處理方法,其特征在于包括下列步驟在拼音詞查詢字符串輸入后,分析所有可能的同音詞,并且將所有這些詞認定為漢語拼音全拼的可檢索詞;對于每個漢語拼音的同音詞,按漢語拼音全拼詞表,進行漢語拼音全拼詞檢索計算;將得出的所有檢索結(jié)果合并,分析所述結(jié)果,從而獲得最終及最可能的結(jié)果。
13.如權(quán)利要求12的方法,其特征在于漢語拼音全拼所述計算的進行,是通過按漢語拼音全拼詞表(FCPWL)分析所述查詢字符串,并將所述字符串分解成一個或多個漢語拼音詞,即W={W1,W2,W3,...,Wn};對于W中的每個詞Wx,所述系統(tǒng)將在FCPWL中檢索查詢字符串,以找到其附屬的因特網(wǎng)關(guān)鍵詞入口點表IKEPLx,則IKEPLx中的每個節(jié)點指向其拼音包含Wx的因特網(wǎng)關(guān)鍵詞;隨后,所述系統(tǒng)合并IKEPL1,IKEPL2,...,IKEPLn,以獲得結(jié)果R=IKEPL1,U IKEPL2,U...,IKEPLn;R中的每個因特網(wǎng)關(guān)鍵詞的拼音至少包含W中的一個拼音詞。
14.如權(quán)利要求13的方法,在附屬的因特網(wǎng)關(guān)鍵詞合并后,所述系統(tǒng)進一步按特定規(guī)則計算R中每個因特網(wǎng)關(guān)鍵詞的權(quán)重,包括因特網(wǎng)關(guān)鍵詞所含的W中詞數(shù)的詞數(shù)權(quán)重,和因特網(wǎng)關(guān)鍵詞所含的W中詞的總的長度權(quán)重;隨后,將所述結(jié)果表R按因特網(wǎng)關(guān)鍵詞的權(quán)重分類,以便把最接近的結(jié)果放在所述表的表頭,接著是限制R中結(jié)果的數(shù)量,從而獲得最終結(jié)果的因特網(wǎng)關(guān)鍵詞表R。
15.一種用于因南方音而拼錯的拼音全拼的智能信息處理方法,其特征在于包括下列步驟在拼音詞查詢字符串輸入后,對照會由南方人拼錯的所有可能拼錯的輔音或元音相對應的漢字的詞表,分析輸入的所述詞;窮舉表中列舉出的所有拼錯的詞;將所述查詢字符串分解成為若干個拼音詞,以包含所有可能的拼音詞;進行拼音全拼詞檢索的計算,以獲得可能的檢索結(jié)果的所有可能的因特網(wǎng)關(guān)鍵詞;分析所述檢索結(jié)果,從而獲得最終及最可能的結(jié)果。
16.如權(quán)利要求15的方法,其特征在于在確定所述查詢的拼音全拼正確后,所述系統(tǒng)對照漢語拼音全拼詞表(FCPWL)解析所述查詢字符串,并將所述查詢字符串分成一個或多個漢語拼音詞,即W={W1,W2,W3,...,Wn};對于W中的每個詞Wx,所述系統(tǒng)按FCPWL檢索所述查詢輸入,以找到其附屬的因特網(wǎng)關(guān)鍵詞入口點表IKEPLx,IKEPLx中的每個節(jié)點指向其拼音包含Wx的因特網(wǎng)關(guān)鍵詞;隨后,所述系統(tǒng)合并IKEPL1,IKEPL2,...,IKEPLn,以獲得結(jié)果R=IKEPL1,UIKEPL2,U...,IKEPLn;R中的每個因特網(wǎng)關(guān)鍵詞的拼音至少包含W中的一個拼音詞。
17.如權(quán)利要求16的方法,其特征在于在附屬的因特網(wǎng)關(guān)鍵詞合并后,所述系統(tǒng)進一步按特定規(guī)則計算R中每個因特網(wǎng)關(guān)鍵詞的權(quán)重;包括因特網(wǎng)關(guān)鍵詞所含的W中詞數(shù)的詞數(shù)權(quán)重,和因特網(wǎng)關(guān)鍵詞所含的W中詞的總的長度權(quán)重;隨后,將所述結(jié)果表R按因特網(wǎng)關(guān)鍵詞的權(quán)重分類,以便把最接近的結(jié)果展現(xiàn)在所述表的表頭,接著是限制R中結(jié)果的數(shù)量,從而獲得最終結(jié)果的因特網(wǎng)關(guān)鍵詞表R。
18.一種因特網(wǎng)智能信息處理系統(tǒng),其特征在于包括一個用于輸入詞的查詢字符串的裝置;一個用于識別輸入詞是否是URL地址,英文詞,本土語言文字,還是本土語音符號的裝置;一個用于通過因特網(wǎng)在相應的服務器中查詢所述輸入,如果所述輸入是普通的URL時,直接從中獲得所述查詢結(jié)果的裝置;一個用于對照至少一個拼音詞表分析所述輸入,如果所述輸入包括所述本土語音符號時,找出相應的因特網(wǎng)關(guān)鍵詞,隨后取得相應的查詢結(jié)果的裝置;和一個用于將所述輸入作為自然語言輸入在自然語言表中處理的,并當所述輸入包括本土語言文字時,獲得所希望的因特網(wǎng)關(guān)鍵詞,取得相應的URL網(wǎng)站查詢結(jié)果的裝置。
19.如權(quán)利要求18的系統(tǒng),其特征在于進一步包括一個用于檢查所述查詢輸入的漢語拼音詞是否有由于南方音而出現(xiàn)常見的錯拼的裝置,和一個用于自動糾正所述拼錯的詞的裝置,其中在確定所述輸入拼音正確,并且任何拼錯詞被糾正后,由一數(shù)據(jù)庫查詢裝置進行相關(guān)URL的檢索。
全文摘要
一種因特網(wǎng)智能信息處理的方法和系統(tǒng),包括識別輸入是否是URL地址,英文詞,本國文字,和還是本國語發(fā)音符。如果輸入是普通的URL,系統(tǒng)通過因特網(wǎng)在相應的服務器查詢輸入,并且,直接從其獲得查詢結(jié)果。如果輸入包括本國語音符,系統(tǒng)至少對照一種拼音詞表分析輸入,以找到相應的因特網(wǎng)關(guān)鍵字,然后取得相應的查詢結(jié)果;如果輸入包括本國文字,系統(tǒng)將輸入作為自然語言表中的自然語言,獲得所希望的因特網(wǎng)關(guān)鍵字,并取得相應的網(wǎng)站URL的查詢結(jié)果。
文檔編號G06F13/00GK1383517SQ01801846
公開日2002年12月4日 申請日期2001年6月28日 優(yōu)先權(quán)日2000年6月28日
發(fā)明者周鴻祎 申請人:因特國風網(wǎng)絡軟件有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1