aaa视频网站,国产最新进精品视频,国产主播一区二区,999热精品视频,а√天堂资源8在线官网在线,国产免费不卡av,麻豆国产视频

確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的方法、設(shè)備及計(jì)算設(shè)備與流程

文檔序號(hào):11138695閱讀:457來(lái)源:國(guó)知局
確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的方法、設(shè)備及計(jì)算設(shè)備與制造工藝

本發(fā)明涉及信息安全技術(shù)領(lǐng)域,尤其涉及一種確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的方法、設(shè)備及計(jì)算設(shè)備。



背景技術(shù):

隨著網(wǎng)絡(luò)通信技術(shù)的迅速發(fā)展、互聯(lián)網(wǎng)應(yīng)用的持續(xù)深化、所承載信息的日益豐富,互聯(lián)網(wǎng)已成為人類社會(huì)重要的基礎(chǔ)設(shè)施。與此同時(shí),各種危害網(wǎng)絡(luò)安全的事件層出不窮,引發(fā)了社會(huì)對(duì)網(wǎng)絡(luò)安全的極大關(guān)注。

其中,存在一些不法網(wǎng)絡(luò)服務(wù)器的運(yùn)營(yíng)者,通過(guò)將網(wǎng)絡(luò)服務(wù)器的域名或提供的網(wǎng)絡(luò)內(nèi)容偽裝的與正規(guī)網(wǎng)絡(luò)服務(wù)器的域名或網(wǎng)絡(luò)內(nèi)容非常相似的方式,引誘用戶訪問(wèn),騙取用戶信任,并損害用戶利益。而由于電子商務(wù)和互聯(lián)網(wǎng)應(yīng)用的普及和發(fā)展,這種提供仿冒服務(wù)的犯罪行為造成的損失日益嚴(yán)重。

目前,可以通過(guò)黑名單技術(shù)、基于URL特征的檢測(cè)技術(shù)、基于網(wǎng)絡(luò)內(nèi)容包含的圖片相似度的檢測(cè)技術(shù)來(lái)判斷網(wǎng)絡(luò)服務(wù)器是否提供仿冒服務(wù)。

黑名單技術(shù)是通過(guò)用戶舉報(bào)或評(píng)價(jià)來(lái)維護(hù)一個(gè)不斷更新的提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的名單列表,從而阻止更多的用戶不要訪問(wèn)已發(fā)現(xiàn)的提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器?;赨RL特征的檢測(cè)技術(shù),通常是使用正則表達(dá)式來(lái)匹配URL特征,但正則表達(dá)式需要手動(dòng)添加規(guī)則,使用和維護(hù)成本高,同時(shí)其使用有風(fēng)險(xiǎn),可能產(chǎn)生未知的誤報(bào)和漏報(bào)。此外,此種方式往往用于初步檢測(cè),最終的判定一般也要基于網(wǎng)絡(luò)內(nèi)容?;诰W(wǎng)絡(luò)內(nèi)容包含的圖片相似度的檢測(cè)技術(shù)需要進(jìn)行大量的圖片比較,計(jì)算復(fù)雜度高,并且如果兩個(gè)網(wǎng)絡(luò)服務(wù)器提供的網(wǎng)絡(luò)內(nèi)容使用相似的設(shè)計(jì)方案(如Bootstrap模板)和設(shè)計(jì)元素(相同或相似的圖標(biāo)),則容易產(chǎn)生誤報(bào)。

因此,迫切需要一種更先進(jìn)的更有效的確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的方案。



技術(shù)實(shí)現(xiàn)要素:

為此,本發(fā)明提供一種確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的方案,以力圖解決或者至少緩解上面存在的至少一個(gè)問(wèn)題。

根據(jù)本發(fā)明的一個(gè)方面,提供了一種確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的方法,適于在計(jì)算設(shè)備中執(zhí)行,網(wǎng)絡(luò)服務(wù)器具有IP地址和域名,并提供網(wǎng)絡(luò)內(nèi)容,方法包括步驟:從域名服務(wù)器獲取第一預(yù)定時(shí)間段內(nèi)的域名解析記錄;獲取域名解析記錄對(duì)應(yīng)的多個(gè)域名、以及每個(gè)域名的解析次數(shù);篩選出解析次數(shù)最低的預(yù)定數(shù)量個(gè)域名;從域名服務(wù)器獲取所篩選出的預(yù)定數(shù)量個(gè)域名在第二預(yù)定時(shí)間段內(nèi)的至少一條域名解析記錄;根據(jù)預(yù)定數(shù)量個(gè)域名在第二預(yù)定時(shí)間段內(nèi)的域名解析記錄,最后篩選出其中僅在第二預(yù)定時(shí)間段中的第三預(yù)定時(shí)間段內(nèi)存在域名解析記錄的至少一個(gè)域名;對(duì)于所篩選出的至少一個(gè)域名中的域名,獲取該域名對(duì)應(yīng)的網(wǎng)絡(luò)服務(wù)器的IP特征、域名特征、以及內(nèi)容特征;以及根據(jù)提取的特征,采用分類模型確定網(wǎng)絡(luò)服務(wù)器是否提供仿冒服務(wù)。

根據(jù)本發(fā)明的另一方面,提供了一種確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的設(shè)備,網(wǎng)絡(luò)服務(wù)器具有IP地址和域名,并提供網(wǎng)絡(luò)內(nèi)容,設(shè)備包括:記錄獲取模塊,適于從域名服務(wù)器獲取第一預(yù)定時(shí)間段內(nèi)的域名解析記錄;還適于從域名服務(wù)器獲取所篩選出的預(yù)定數(shù)量個(gè)域名在第二預(yù)定時(shí)間段內(nèi)的至少一條域名解析記錄;域名篩選模塊,適于:獲取第一預(yù)定時(shí)間段內(nèi)的域名解析記錄對(duì)應(yīng)的多個(gè)域名、以及每個(gè)域名的解析次數(shù);篩選出解析次數(shù)最低的預(yù)定數(shù)量個(gè)域名;還適于:根據(jù)預(yù)訂數(shù)量個(gè)域名在第二預(yù)定時(shí)間段內(nèi)的域名解析記錄,最后篩選出其中僅在第二預(yù)訂時(shí)間段中的第三預(yù)定時(shí)間段內(nèi)存在域名解析記錄的至少一個(gè)域名;特征提取模塊,適于對(duì)于所篩選出的至少一個(gè)域名中的域名,獲取該域名對(duì)應(yīng)的網(wǎng)絡(luò)服務(wù)器的IP特征、域名特征、以及內(nèi)容特征;以及仿冒判斷模塊,適于根據(jù)提取的特征,采用分類模型確定網(wǎng)絡(luò)服務(wù)器是否提供仿冒服務(wù)。

根據(jù)本發(fā)明的還有一個(gè)方面,提供了一種計(jì)算設(shè)備,包括根據(jù)本發(fā)明的確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的設(shè)備。

根據(jù)本發(fā)明的確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的方案,同過(guò)多次篩選,篩選出訪問(wèn)量較低、活躍時(shí)間較短的域名,并獲取該域名對(duì)應(yīng)的網(wǎng)絡(luò)服務(wù)器的域名特征、IP特征和內(nèi)容特征,根據(jù)這些多維度的特征采用分類模型進(jìn)行是否提供仿冒服務(wù)的判斷,過(guò)程高度自動(dòng)化,大大減少了人工干預(yù),同時(shí)特征維度廣,準(zhǔn)確度高,有效避免了誤報(bào)和漏報(bào)。

附圖說(shuō)明

為了實(shí)現(xiàn)上述以及相關(guān)目的,本文結(jié)合下面的描述和附圖來(lái)描述某些說(shuō)明性方面,這些方面指示了可以實(shí)踐本文所公開(kāi)的原理的各種方式,并且所有方面及其等效方面旨在落入所要求保護(hù)的主題的范圍內(nèi)。通過(guò)結(jié)合附圖閱讀下面的詳細(xì)描述,本公開(kāi)的上述以及其它目的、特征和優(yōu)勢(shì)將變得更加明顯。遍及本公開(kāi),相同的附圖標(biāo)記通常指代相同的部件或元素。

圖1示出了根據(jù)本發(fā)明的一個(gè)示例性實(shí)施方式的網(wǎng)絡(luò)服務(wù)系統(tǒng)100的結(jié)構(gòu)框圖;

圖2示出了根據(jù)本發(fā)明的一個(gè)示例性實(shí)施方式的計(jì)算設(shè)備200的結(jié)構(gòu)框圖;

圖3示出了根據(jù)本發(fā)明的一個(gè)示例性實(shí)施方式的確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的設(shè)備300的結(jié)構(gòu)框圖;以及

圖4示出了根據(jù)本發(fā)明的一個(gè)示例性實(shí)施方式的確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的方法400的流程圖。

具體實(shí)施方式

下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

圖1示出了根據(jù)本發(fā)明一個(gè)示例性實(shí)施方式的網(wǎng)絡(luò)服務(wù)系統(tǒng)100的結(jié)構(gòu)框圖。網(wǎng)絡(luò)服務(wù)系統(tǒng)100可以包括客戶端110、域名服務(wù)器120以及網(wǎng)絡(luò)服務(wù)器130。網(wǎng)絡(luò)服務(wù)器130具有IP地址和域名,并可以向用戶提供網(wǎng)絡(luò)內(nèi)容。用戶可以通過(guò)客戶端110向網(wǎng)絡(luò)服務(wù)器130發(fā)送訪問(wèn)請(qǐng)求,請(qǐng)求訪問(wèn)網(wǎng)絡(luò)服務(wù)器130上的網(wǎng)絡(luò)內(nèi)容。

其中,在向網(wǎng)絡(luò)服務(wù)器130發(fā)送訪問(wèn)請(qǐng)求之前,客戶端110首先需要向域名服務(wù)器120發(fā)送域名解析請(qǐng)求,請(qǐng)求域名對(duì)應(yīng)的網(wǎng)絡(luò)服務(wù)器130的IP地址。域名服務(wù)器120響應(yīng)于客戶端110的域名解析請(qǐng)求,返回IP地址至客戶端110。同時(shí),可以理解地,域名服務(wù)器120會(huì)基于客戶端110的域名解析請(qǐng)求生成相應(yīng)的域名解析記錄并存儲(chǔ),域名解析記錄可以包括解析時(shí)間、請(qǐng)求解析的域名、域名對(duì)應(yīng)的網(wǎng)絡(luò)服務(wù)器130的IP地址。

計(jì)算設(shè)備200可以通過(guò)網(wǎng)絡(luò)與域名服務(wù)器120和網(wǎng)絡(luò)服務(wù)器130連接,可以獲取域名服務(wù)器120上存儲(chǔ)的域名解析記錄,并至少根據(jù)域名解析記錄確定那些提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器。

計(jì)算設(shè)備200可以實(shí)現(xiàn)為服務(wù)器,例如文件服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器、應(yīng)用程序服務(wù)器和WEB服務(wù)器等,也可以實(shí)現(xiàn)為包括桌面計(jì)算機(jī)和筆記本計(jì)算機(jī)配置的個(gè)人計(jì)算機(jī)。此外,計(jì)算設(shè)備200還可以實(shí)現(xiàn)為小尺寸便攜(或者移動(dòng))電子設(shè)備的一部分,這些電子設(shè)備可以是諸如蜂窩電話、個(gè)人數(shù)字助理(PDA)、個(gè)人媒體播放器設(shè)備、無(wú)線網(wǎng)絡(luò)瀏覽設(shè)備、個(gè)人頭戴設(shè)備、應(yīng)用專用設(shè)備、或者可以包括上面任何功能的混合設(shè)備。

圖2示出了根據(jù)本發(fā)明一個(gè)示例性實(shí)施方式的實(shí)現(xiàn)本發(fā)明方案的計(jì)算設(shè)備200的結(jié)構(gòu)框圖。在基本的配置202中,計(jì)算設(shè)備200典型地包括系統(tǒng)存儲(chǔ)器206和一個(gè)或者多個(gè)處理器204。存儲(chǔ)器總線208可以用于在處理器204和系統(tǒng)存儲(chǔ)器206之間的通信。

取決于期望的配置,處理器204可以是任何類型的處理,包括但不限于:微處理器((μP)、微控制器(μC)、數(shù)字信息處理器(DSP)或者它們的任何組合。處理器204可以包括諸如一級(jí)高速緩存210和二級(jí)高速緩存212之類的一個(gè)或者多個(gè)級(jí)別的高速緩存、處理器核心214和寄存器216。示例的處理器核心214可以包括運(yùn)算邏輯單元(ALU)、浮點(diǎn)數(shù)單元(FPU)、數(shù)字信號(hào)處理核心(DSP核心)或者它們的任何組合。示例的存儲(chǔ)器控制器218可以與處理器204一起使用,或者在一些實(shí)現(xiàn)中,存儲(chǔ)器控制器218可以是處理器204的一個(gè)內(nèi)部部分。

取決于期望的配置,系統(tǒng)存儲(chǔ)器206可以是任意類型的存儲(chǔ)器,包括但不限于:易失性存儲(chǔ)器(諸如RAM)、非易失性存儲(chǔ)器(諸如ROM、閃存等)或者它們的任何組合。系統(tǒng)存儲(chǔ)器206可以包括操作系統(tǒng)220、一個(gè)或者多個(gè)應(yīng)用222以及程序數(shù)據(jù)224。在一些實(shí)施方式中,應(yīng)用222可以布置為在操作系統(tǒng)上利用程序數(shù)據(jù)224進(jìn)行操作。

計(jì)算設(shè)備200還可以包括有助于從各種接口設(shè)備(例如,輸出設(shè)備242、外設(shè)接口244和通信設(shè)備246)到基本配置202經(jīng)由總線/接口控制器230的通信的接口總線240。示例的輸出設(shè)備242包括圖形處理單元248和音頻處理單元250。它們可以被配置為有助于經(jīng)由一個(gè)或者多個(gè)A/V端口252與諸如顯示器或者揚(yáng)聲器之類的各種外部設(shè)備進(jìn)行通信。示例外設(shè)接口244可以包括串行接口控制器254和并行接口控制器256,它們可以被配置為有助于經(jīng)由一個(gè)或者多個(gè)I/O端口258和諸如輸入設(shè)備(例如,鍵盤、鼠標(biāo)、筆、語(yǔ)音輸入設(shè)備、觸摸輸入設(shè)備)或者其他外設(shè)(例如打印機(jī)、掃描儀等)之類的外部設(shè)備進(jìn)行通信。示例的通信設(shè)備246可以包括網(wǎng)絡(luò)控制器260,其可以被布置為便于經(jīng)由一個(gè)或者多個(gè)通信端口264與一個(gè)或者多個(gè)其他計(jì)算設(shè)備262通過(guò)網(wǎng)絡(luò)通信鏈路的通信。

網(wǎng)絡(luò)通信鏈路可以是通信介質(zhì)的一個(gè)示例。通信介質(zhì)通??梢泽w現(xiàn)為在諸如載波或者其他傳輸機(jī)制之類的調(diào)制數(shù)據(jù)信號(hào)中的計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊,并且可以包括任何信息遞送介質(zhì)?!罢{(diào)制數(shù)據(jù)信號(hào)”可以這樣的信號(hào),它的數(shù)據(jù)集中的一個(gè)或者多個(gè)或者它的改變可以在信號(hào)中編碼信息的方式進(jìn)行。作為非限制性的示例,通信介質(zhì)可以包括諸如有線網(wǎng)絡(luò)或者專線網(wǎng)絡(luò)之類的有線介質(zhì),以及諸如聲音、射頻(RF)、微波、紅外(IR)或者其它無(wú)線介質(zhì)在內(nèi)的各種無(wú)線介質(zhì)。這里使用的術(shù)語(yǔ)計(jì)算機(jī)可讀介質(zhì)可以包括存儲(chǔ)介質(zhì)和通信介質(zhì)二者。

在本發(fā)明中,計(jì)算設(shè)備100的應(yīng)用222可以包括被配置為實(shí)現(xiàn)本發(fā)明方案的確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的設(shè)備300。

圖3示出了根據(jù)本發(fā)明一個(gè)示例性實(shí)施方式的確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的設(shè)備300的結(jié)構(gòu)框圖。如圖3所示,確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的設(shè)備300可以與域名服務(wù)器120和網(wǎng)絡(luò)服務(wù)器130通過(guò)網(wǎng)絡(luò)連接,并可以包括記錄獲取模塊310、域名篩選模塊320、特征提取模塊330、以及仿冒判斷模塊340。

記錄獲取模塊310適于從域名服務(wù)器120獲取第一預(yù)定時(shí)間段內(nèi)的域名解析記錄。第一預(yù)定時(shí)間段例如可以是當(dāng)日的00:00~24:00,記錄獲取模塊310可以獲取域名服務(wù)器120上解析時(shí)間在當(dāng)日00:00~24:00之間的所有域名解析記錄。

域名篩選模塊320與記錄獲取模塊310連接,適于獲取記錄獲取模塊310所獲取的第一預(yù)定時(shí)間段內(nèi)的域名解析記錄對(duì)應(yīng)的多個(gè)域名、以及每個(gè)域名的解析次數(shù)。具體地,域名篩選模塊320可以對(duì)記錄獲取模塊310所獲取的對(duì)域名解析記錄進(jìn)行統(tǒng)計(jì),得到每個(gè)域名的域名解析記錄條數(shù),也就是該域名的解析次數(shù)。

域名的解析次數(shù)可以代表該域名的訪問(wèn)量,可以理解地,提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的域名的訪問(wèn)量通常較低,因此若域名的訪問(wèn)量較低,可以認(rèn)為該域名對(duì)應(yīng)的網(wǎng)絡(luò)服務(wù)器存在提供仿冒服務(wù)的可能。

具體地,域名篩選模塊320可以篩選出解析次數(shù)最低的預(yù)定數(shù)量個(gè)域名。其中,預(yù)定數(shù)量可以是所有解析次數(shù)中最低的10%部分的解析次數(shù)的數(shù)量,例如,域名篩選模塊320可以將解析次數(shù)從高至低排序,選取其中后10%的解析次數(shù)對(duì)應(yīng)的域名。

而后,為了增加的判斷的可靠度,本發(fā)明可以對(duì)域名做進(jìn)一步的篩選。提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的域名的注冊(cè)時(shí)間可能不定,但是通??梢酝ㄟ^(guò)域名服務(wù)器120解析到其對(duì)應(yīng)IP(即域名上線)的時(shí)間(即活躍時(shí)間)一般不長(zhǎng),因此若域名存在域名解析記錄的時(shí)間不長(zhǎng),可以認(rèn)為該域名對(duì)應(yīng)的網(wǎng)絡(luò)服務(wù)器存在提供仿冒服務(wù)的可能。

具體地,記錄獲取模塊310可以從域名服務(wù)器120獲取域名篩選模塊320所篩選出的預(yù)定數(shù)量個(gè)域名在第二預(yù)定時(shí)間段內(nèi)的至少一條域名解析記錄,最后域名篩選模塊320篩選出其中僅在第二預(yù)訂時(shí)間段中的第三預(yù)定時(shí)間段內(nèi)存在域名解析記錄的至少一個(gè)域名。

其中,第二預(yù)定時(shí)間段可以是近兩周,第三預(yù)定時(shí)間段可以是近一周,記錄獲取模塊310可以從域名服務(wù)器120獲取所篩選出來(lái)的那些域名在近兩周的域名解析記錄,域名篩選模塊320篩選出其中僅在近一周內(nèi)存在域名解析記錄的至少一個(gè)域名,即只在近一周內(nèi)活躍的域名。

篩選出上述域名后,與域名篩選模塊320連接的特征提取模塊320適于對(duì)于所篩選出的至少一個(gè)域名中的域名,獲取該域名對(duì)應(yīng)的網(wǎng)絡(luò)服務(wù)器的能夠體現(xiàn)該網(wǎng)絡(luò)服務(wù)器提供仿冒服務(wù)的以下特征:IP特征、域名特征、以及內(nèi)容特征。

根據(jù)本發(fā)明的一個(gè)實(shí)施方式,IP特征可以包括特征s1——IP地址數(shù)量的倒數(shù),即域名對(duì)應(yīng)的IP地址數(shù)量的倒數(shù)。由于IP地址的申請(qǐng)成本較高,不法份子往往不會(huì)申請(qǐng)對(duì)應(yīng)于同一域名的多個(gè)IP地址,因此若域名對(duì)應(yīng)的IP地址數(shù)量較高,則可以認(rèn)為其提供仿冒服務(wù)的可能性較小。

具體地,特征提取模塊330可以使用類似dig這種DNS查詢工具從域名服務(wù)器查詢?cè)撚蛎麑?duì)應(yīng)的至少一個(gè)IP地址,并根據(jù)查詢到的至少一個(gè)IP地址確定域名對(duì)應(yīng)網(wǎng)絡(luò)服務(wù)器的IP地址數(shù)量Nbind,取其倒數(shù)1/Nbind,得到特征s1。

根據(jù)本發(fā)明的另一個(gè)實(shí)施方式,IP特征還可以包括特征s2——地址惡意比率,即域名對(duì)應(yīng)的IP地址所屬地區(qū)和運(yùn)營(yíng)商的惡意IP地址的比率。若某個(gè)地區(qū)和運(yùn)營(yíng)商下惡意IP地址的比率較高,則可以認(rèn)為屬于該地區(qū)和運(yùn)營(yíng)商的網(wǎng)絡(luò)服務(wù)器提供仿冒服務(wù)的可能性較大。

具體地,設(shè)備300可以與IP數(shù)據(jù)存儲(chǔ)設(shè)備相耦接,IP數(shù)據(jù)存儲(chǔ)設(shè)備存儲(chǔ)有已知的IP地址、該IP地址是否惡意、以及所屬的地區(qū)和運(yùn)營(yíng)商(或者虛擬運(yùn)營(yíng)商)。特征提取模塊330可以對(duì)查詢到的域名對(duì)應(yīng)的至少一個(gè)IP地址中的每一個(gè),都從IP數(shù)據(jù)存儲(chǔ)設(shè)備獲取與該IP地址屬于同一地區(qū)和運(yùn)營(yíng)商的IP地址數(shù)量Nall、以及其中的惡意IP地址數(shù)量Nmal,再根據(jù)惡意IP地址數(shù)量與IP地址數(shù)量,計(jì)算該IP地址所屬地區(qū)和運(yùn)營(yíng)商的IP地址惡意比率最后可以選取其中數(shù)值最大的一個(gè)作為網(wǎng)絡(luò)服務(wù)器的IP地址惡意比率,得到特征s2。

根據(jù)本發(fā)明的另一個(gè)實(shí)施方式,IP特征還可以包括特征s3——IP地址是否惡意。若IP地址為惡意,則可以認(rèn)為網(wǎng)絡(luò)服務(wù)器提供仿冒服務(wù)的可能性較大。

具體地,特征提取模塊330可以判斷域名對(duì)應(yīng)的至少一個(gè)IP地址中的任意一個(gè)是否屬于IP數(shù)據(jù)存儲(chǔ)設(shè)備中的惡意IP地址,若是,則確定網(wǎng)絡(luò)服務(wù)器的IP地址是惡意,s3=1,否則不是惡意,s3=0。

根據(jù)本發(fā)明的另一個(gè)實(shí)施方式,域名特征可以包括特征s4——域名信息相似度,即域名與其他正規(guī)域名的相似程度。若域名與其他正規(guī)域名的相似程度較高,則可以認(rèn)為網(wǎng)絡(luò)服務(wù)器提供仿冒服務(wù)的可能性較高。

具體地,設(shè)備300可以與域名反查設(shè)備相耦接,域名反查設(shè)備存儲(chǔ)有已知的IP地址和與該IP地址相關(guān)聯(lián)的域名,可以通過(guò)IP地址查詢到與該IP地址相關(guān)聯(lián)的域名。設(shè)備300還可以與域名查詢?cè)O(shè)備(即Whois查詢?cè)O(shè)備)相耦接,可以通過(guò)域名查詢到域名數(shù)據(jù)(即Whois數(shù)據(jù))。通常地,域名數(shù)據(jù)可以包括域名、域名的注冊(cè)商、聯(lián)系人、聯(lián)系方式、更新時(shí)間、過(guò)期時(shí)間、公司名稱、域名服務(wù)器、DNS、狀態(tài)中的至少一個(gè)。

首先特征提取模塊330可以從域名查詢?cè)O(shè)備獲取網(wǎng)絡(luò)服務(wù)器的域名的域名數(shù)據(jù),而后可以從域名反查設(shè)備獲取該域名對(duì)應(yīng)的至少一個(gè)IP地址關(guān)聯(lián)的至少一個(gè)關(guān)聯(lián)域名,并對(duì)這些關(guān)聯(lián)域名中除上述網(wǎng)絡(luò)服務(wù)器本身的域名以外的每一個(gè),都從域名查詢?cè)O(shè)備獲取該關(guān)連域名的域名數(shù)據(jù),計(jì)算該關(guān)連域名的域名數(shù)據(jù)中的每一項(xiàng)與網(wǎng)絡(luò)服務(wù)器的域名的域名數(shù)據(jù)中的對(duì)應(yīng)項(xiàng)的相似度,根據(jù)每一項(xiàng)的相似度計(jì)算得到該關(guān)聯(lián)域名與網(wǎng)絡(luò)服務(wù)器的域名的相似度。最后選擇其中數(shù)值最大的一個(gè)作為網(wǎng)絡(luò)服務(wù)器的域名信息相似度,得到特征s4。

其中,相似度可以通過(guò)計(jì)算編輯距離而得到,編輯距離(Edit Distance)又稱Levenshtein距離,是指兩個(gè)字串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符。一般來(lái)說(shuō),編輯距離越小,兩個(gè)字串的相似度越大。計(jì)算編輯距離的原理為本領(lǐng)域的常規(guī)技術(shù),在此不做描述。

計(jì)算每一項(xiàng)的相似度后,每一項(xiàng)的相似度可以組成相似度向量v,該關(guān)聯(lián)域名與網(wǎng)絡(luò)服務(wù)器的域名的相似度可以通過(guò)計(jì)算s4=|v|/N得到,其中N為域名數(shù)據(jù)的數(shù)據(jù)項(xiàng)數(shù)。

需要注意的是,若特征提取模塊330從域名反查設(shè)備獲取到的該域名對(duì)應(yīng)的至少一個(gè)IP地址關(guān)聯(lián)的關(guān)聯(lián)域名只有1個(gè)且為網(wǎng)絡(luò)服務(wù)器的域名本身,則令網(wǎng)絡(luò)服務(wù)器的域名信息相似度s4=1。

根據(jù)本發(fā)明的另一個(gè)實(shí)施方式,內(nèi)容特征包括特征s5——內(nèi)容相似度,若網(wǎng)絡(luò)服務(wù)器提供的網(wǎng)絡(luò)內(nèi)容與其他網(wǎng)絡(luò)內(nèi)容相似度很高,則可以認(rèn)為該網(wǎng)絡(luò)服務(wù)器提供仿冒內(nèi)容的可能性較高。

具體地,特征提取模塊330首先可以利用網(wǎng)絡(luò)爬蟲獲取網(wǎng)絡(luò)服務(wù)器域名指向的網(wǎng)絡(luò)內(nèi)容(例如HTML頁(yè)面),而后利用搜索引擎(例如Baidu、Google等)查詢?cè)摼W(wǎng)絡(luò)內(nèi)容的標(biāo)題,獲取搜索結(jié)果中前第一預(yù)定數(shù)目條(例如前50條)網(wǎng)絡(luò)內(nèi)容。對(duì)所獲取的每條網(wǎng)絡(luò)內(nèi)容,都計(jì)算其與網(wǎng)絡(luò)服務(wù)器域名指向的網(wǎng)絡(luò)內(nèi)容的內(nèi)容相似度,最后選取其中數(shù)值最大的一個(gè)作為網(wǎng)絡(luò)服務(wù)器的內(nèi)容相似度,得到特征s5。

內(nèi)容相似度的計(jì)算如下:可以利用XML庫(kù)(如libxml2等)將網(wǎng)絡(luò)服務(wù)器的域名指向的網(wǎng)絡(luò)內(nèi)容、以及搜索所獲取到的網(wǎng)絡(luò)內(nèi)容解析為文檔對(duì)象模型樹(shù)(即DOM樹(shù)),通過(guò)遞歸比較其中子樹(shù)的相似度來(lái)計(jì)算搜索所獲取的網(wǎng)絡(luò)內(nèi)容與網(wǎng)絡(luò)服務(wù)器的域名指向的網(wǎng)絡(luò)內(nèi)容的內(nèi)容相似度。

其中,為了進(jìn)一步降低數(shù)據(jù)計(jì)算量同時(shí)不損失準(zhǔn)確度,根據(jù)本發(fā)明的另一個(gè)實(shí)施方式,獲取搜索結(jié)果中前第一預(yù)定數(shù)目條網(wǎng)絡(luò)內(nèi)容之后,特征提取模塊330還可以分別計(jì)算搜索出的每一條網(wǎng)絡(luò)內(nèi)容的標(biāo)題與網(wǎng)絡(luò)服務(wù)器的域名指向的網(wǎng)絡(luò)內(nèi)容的標(biāo)題的相似度,獲取其中標(biāo)題相似度最大的第二預(yù)定數(shù)目條(例如10個(gè))網(wǎng)絡(luò)內(nèi)容。而后,對(duì)第二預(yù)定數(shù)目條(例如10個(gè))網(wǎng)絡(luò)內(nèi)容進(jìn)行內(nèi)容相似度的計(jì)算。

綜上所述,特征提取模塊330可以獲取特征s1、s2、s3、s4和s5,這些特征可以構(gòu)成網(wǎng)絡(luò)服務(wù)器的特征向量(s1,s2,s3,s4,s5)。

接下來(lái),與特征提取模塊330連接的仿冒判斷模塊340根據(jù)提取的特征,采用分類模型確定該網(wǎng)絡(luò)服務(wù)器是否提供仿冒服務(wù)。

具體地,根據(jù)本發(fā)明的一個(gè)實(shí)施方式,分類模型可以是邏輯回歸模型,并可以體現(xiàn)為以下公式:

其中,hθ(x)為預(yù)測(cè)函數(shù),并表示確定網(wǎng)絡(luò)服務(wù)器提供仿冒服務(wù)的概率,θ為回歸參數(shù),x為由網(wǎng)絡(luò)服務(wù)器的特征所構(gòu)成的特征向量(s1,s2,s3,s4,s5),Cost(hθ(x),y)為邏輯回歸模型基于對(duì)數(shù)似然估計(jì)的損失函數(shù),J(θ)為邏輯回歸模型的簡(jiǎn)化損失函數(shù),m為訓(xùn)練樣本條數(shù)。其中,可以針對(duì)每一條訓(xùn)練樣本進(jìn)行迭代,并采用梯度下降法對(duì)簡(jiǎn)化損失函數(shù)J(θ)求解,得到使得簡(jiǎn)化損失函數(shù)J(θ)最小化的回歸參數(shù)θ。

最后,若p(y=1|x)>0.5,則y=1,確定網(wǎng)絡(luò)服務(wù)器提供仿冒服務(wù),若p(y=1|x)≤0.5,則y=0,不確定網(wǎng)絡(luò)服務(wù)器提供仿冒服務(wù)。當(dāng)然,上述公式所示的分類模型僅是示例性的,本領(lǐng)域技術(shù)人員也可以采用其他公式來(lái)定義分類模型,本發(fā)明對(duì)此不做限制。

下面以一個(gè)域名為例來(lái)詳細(xì)描述確定域名對(duì)應(yīng)的網(wǎng)絡(luò)服務(wù)器是否提供仿冒服務(wù)的過(guò)程。

假設(shè)域名篩選模塊320在某日的域名解析記錄中,檢測(cè)到域名www.ccbtuic.com訪問(wèn)量很少,在當(dāng)日最少的3%之內(nèi)。而后經(jīng)由記錄獲取模塊310查詢?cè)撚蛎^(guò)去兩周的域名解析記錄,檢測(cè)到該域名www.ccbtuic.com在近一周內(nèi)存在域名解析記錄,在近一周之前不存在域名解析記錄,因此可以將該域名篩選出來(lái),進(jìn)行后續(xù)的處理和判斷。

特征提取模塊330從域名服務(wù)器查詢到域名www.ccbtuic.com對(duì)應(yīng)的IP地址僅有一個(gè),并為122.10.85.106,則IP地址數(shù)量Nbind=1,特征s1=1/Nbind=1.0。

特征提取模塊330還從IP數(shù)據(jù)設(shè)備中查詢到IP地址122.10.85.106所屬地區(qū)為香港Cloudie,并且該地區(qū)的IP地址數(shù)量Nall=526507,其中惡意IP地址數(shù)量Nmal=23468,則計(jì)算得到特征

特征提取模塊330還從IP數(shù)據(jù)設(shè)備查詢到該IP地址122.10.85.106屬于惡意IP地址,則得到特征s3=1。

特征提取模塊330獲取網(wǎng)絡(luò)服務(wù)器的IP特征s1、s2和s3后,從域名反查設(shè)備查詢到IP地址關(guān)聯(lián)有以下關(guān)聯(lián)域名:

www.ccbtuic.com、www.ccbcvgv.com,其中www.ccbtuic.com為上述獲取的網(wǎng)絡(luò)服務(wù)器的域名。

接著,特征提取模塊330可以從域名查詢?cè)O(shè)備中查詢www.ccbtuic.com和www.ccbcvgv.com的域名數(shù)據(jù),結(jié)果如下表:

計(jì)算得到www.ccbtuic.com和www.ccbcvgv.com表中每一項(xiàng)的相似度為0.6364,1.0,1.0,1.0,0.9091,1.0,1.0,1.0,1.0,1.0,由此組成的相似度向量為v(0.6364,1.0,1.0,1.0,0.9091,1.0,1.0,1.0,1.0,1.0),最后計(jì)算得到域名特征s4=|v|/N=0.3038,N為表中的數(shù)據(jù)項(xiàng)數(shù)。

而后,特征提取模塊330利用網(wǎng)絡(luò)爬蟲獲取域名www.ccbtuic.com指向的網(wǎng)絡(luò)內(nèi)容,得到其標(biāo)題為“建行首頁(yè)”。再通過(guò)百度搜索引擎反查該標(biāo)題,選擇搜索出的前50條網(wǎng)絡(luò)內(nèi)容中,選取與www.ccbtuic.com的標(biāo)題相似度最大的10條網(wǎng)絡(luò)內(nèi)容,依次比較這10條網(wǎng)絡(luò)內(nèi)容和www.ccbtuic.com指向的網(wǎng)絡(luò)內(nèi)容的DOM樹(shù),并計(jì)算得到這10條網(wǎng)絡(luò)內(nèi)容分別與www.ccbtuic.com指向的網(wǎng)絡(luò)內(nèi)容的內(nèi)容相似度為0.301、0.791、0.950、0.165、0.441、0.736、0.753、0.480、0.918、0.232,最后選擇其中數(shù)值最大的一個(gè)作為網(wǎng)絡(luò)服務(wù)器的內(nèi)容特征s5=0.950。

以上特征可以構(gòu)成一個(gè)特征向量(0.447,1.0,0.2111,1.0,0.3038,0.95),仿冒判斷模塊340將該特征向量輸入預(yù)先建立的邏輯回歸模型中,得到結(jié)果y=1,則可以確定該網(wǎng)絡(luò)服務(wù)器提供仿冒服務(wù)。

這樣實(shí)現(xiàn)了根據(jù)以上多維度的特征采用分類模型對(duì)網(wǎng)絡(luò)服務(wù)器是否提供仿冒服務(wù)的判斷過(guò)程,整個(gè)過(guò)程高度自動(dòng)化,大大減少了人工干預(yù),同時(shí)特征維度廣,準(zhǔn)確度高,有效避免了誤報(bào)和漏報(bào)。

圖4示出了根據(jù)本發(fā)明一個(gè)示例性實(shí)施方式的確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的方法400,適于在計(jì)算設(shè)備200中執(zhí)行,該網(wǎng)絡(luò)服務(wù)器具有IP地址和域名,并提供網(wǎng)絡(luò)內(nèi)容。如圖4所示,確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的方法400始于步驟S410。

在步驟S410中,從域名服務(wù)器獲取第一預(yù)定時(shí)間段內(nèi)的域名解析記錄。而后在步驟S420中,獲取該域名解析記錄對(duì)應(yīng)的多個(gè)域名、以及每個(gè)域名的解析次數(shù)。并在步驟S430中,篩選出解析次數(shù)最低的預(yù)定數(shù)量個(gè)域名。

而后在步驟S440中,從域名服務(wù)器獲取所篩選出的預(yù)定數(shù)量個(gè)域名在第二預(yù)定時(shí)間段內(nèi)的至少一條域名解析記錄。并在步驟S450中,根據(jù)預(yù)定數(shù)量個(gè)域名在第二預(yù)定時(shí)間段內(nèi)的域名解析記錄,最后篩選出其中僅在第二預(yù)定時(shí)間段中的第三預(yù)定時(shí)間段內(nèi)存在域名解析記錄的至少一個(gè)域名。

篩選出至少一個(gè)域名后,在步驟S460中,對(duì)于所篩選出的至少一個(gè)域名中的域名,獲取該域名對(duì)應(yīng)的網(wǎng)絡(luò)服務(wù)器的IP特征、域名特征、以及內(nèi)容特征。

根據(jù)本發(fā)明的一個(gè)實(shí)施方式,IP特征可以包括IP地址數(shù)量的倒數(shù),步驟S460可以包括:從域名服務(wù)器查詢?cè)撚蛎麑?duì)應(yīng)的至少一個(gè)IP地址,并根據(jù)至少一個(gè)IP地址確定網(wǎng)絡(luò)服務(wù)器的IP地址數(shù)量的倒數(shù)。

根據(jù)本發(fā)明的另一個(gè)實(shí)施方式,計(jì)算設(shè)備200可以與IP數(shù)據(jù)存儲(chǔ)設(shè)備相耦接,IP數(shù)據(jù)存儲(chǔ)設(shè)備存儲(chǔ)有已知的IP地址、該IP地址是否惡意、以及所屬的地區(qū)和運(yùn)營(yíng)商,IP特征還可以包括IP地址地區(qū)惡意比率。則步驟S460可以包括:對(duì)域名對(duì)應(yīng)的至少一個(gè)IP地址中的每一個(gè):從IP數(shù)據(jù)存儲(chǔ)設(shè)備獲取與該IP地址屬于同一地區(qū)和運(yùn)營(yíng)商的IP地址數(shù)量、以及其中的惡意IP地址數(shù)量,根據(jù)惡意IP地址數(shù)量與IP地址數(shù)量,計(jì)算該IP地址所屬地區(qū)和運(yùn)營(yíng)商的IP地址地區(qū)惡意比率,最后選取其中數(shù)值最大的一個(gè)作為網(wǎng)絡(luò)服務(wù)器的IP地址惡意比率。

根據(jù)本發(fā)明的另一個(gè)實(shí)施方式,IP特征還可以包括IP地址是否惡意,則步驟S460可以包括:判斷域名對(duì)應(yīng)的至少一個(gè)IP地址中的任意一個(gè)是否屬于所述IP數(shù)據(jù)存儲(chǔ)設(shè)備中的惡意IP地址,若是,則確定網(wǎng)絡(luò)服務(wù)器的IP地址是惡意,否則不是惡意。

根據(jù)本發(fā)明的另一個(gè)實(shí)施方式,計(jì)算設(shè)備200還可以與域名反查設(shè)備相耦接,域名反查設(shè)備存儲(chǔ)有已知的IP地址和與該IP地址相關(guān)聯(lián)的域名,計(jì)算設(shè)備200還可以與域名查詢?cè)O(shè)備相耦接,域名特征可以包括域名信息相似度,則步驟S460可以包括:從域名查詢?cè)O(shè)備獲取該域名的域名數(shù)據(jù),從域名反查設(shè)備獲取域名對(duì)應(yīng)的至少一個(gè)IP地址關(guān)聯(lián)的至少一個(gè)關(guān)聯(lián)域名,對(duì)至少一個(gè)關(guān)聯(lián)域名中除上述域名以外的每一個(gè):從域名查詢?cè)O(shè)備獲取該關(guān)聯(lián)域名的域名數(shù)據(jù),計(jì)算該關(guān)聯(lián)域名的域名數(shù)據(jù)中的每一項(xiàng)與域名的域名數(shù)據(jù)中的對(duì)應(yīng)項(xiàng)的相似度,根據(jù)每一項(xiàng)的相似度計(jì)算得到該關(guān)聯(lián)域名與上述域名的相似度,最后選擇其中數(shù)值最大的一個(gè)作為網(wǎng)絡(luò)服務(wù)器的域名信息相似度。其中域名數(shù)據(jù)包括域名、域名的注冊(cè)商、聯(lián)系人、聯(lián)系方式、更新時(shí)間、過(guò)期時(shí)間、公司名稱、域名服務(wù)器、DNS、狀態(tài)中的至少一個(gè)。

根據(jù)本發(fā)明的另一個(gè)實(shí)施方式,內(nèi)容特征可以包括內(nèi)容相似度,則步驟S460可以包括:利用網(wǎng)絡(luò)爬蟲獲取域名指向的網(wǎng)絡(luò)內(nèi)容,利用搜索引擎查詢?cè)摼W(wǎng)絡(luò)內(nèi)容的標(biāo)題,并獲取搜索結(jié)果中前第一預(yù)定數(shù)目條網(wǎng)絡(luò)內(nèi)容,對(duì)所獲取的每條網(wǎng)絡(luò)內(nèi)容,計(jì)算其與域名指向的網(wǎng)絡(luò)內(nèi)容的內(nèi)容相似度,最后選取其中數(shù)值最大的一個(gè)作為網(wǎng)絡(luò)服務(wù)器的內(nèi)容相似度。

其中,在獲取搜索結(jié)果中前第一預(yù)定數(shù)目條網(wǎng)絡(luò)內(nèi)容之后,還可以進(jìn)行進(jìn)一步的篩選:分別計(jì)算搜索出的每一條網(wǎng)絡(luò)內(nèi)容的標(biāo)題與所述域名指向的網(wǎng)絡(luò)內(nèi)容的標(biāo)題的相似度,獲取其中標(biāo)題相似度最大的第二預(yù)定數(shù)目條網(wǎng)絡(luò)內(nèi)容。

具體地,計(jì)算所獲取的每條網(wǎng)絡(luò)內(nèi)容與域名指向的網(wǎng)絡(luò)內(nèi)容的內(nèi)容相似度的步驟可以包括:將域名指向的網(wǎng)絡(luò)內(nèi)容、以及所獲取的網(wǎng)絡(luò)內(nèi)容解析為文檔對(duì)象模型樹(shù),根據(jù)所獲取的網(wǎng)絡(luò)內(nèi)容與域名指向的網(wǎng)絡(luò)內(nèi)容的文檔對(duì)象模型樹(shù)計(jì)算所獲取的網(wǎng)絡(luò)內(nèi)容與域名指向的網(wǎng)絡(luò)內(nèi)容的內(nèi)容相似度。

提取到上述特征之后,最后在步驟S470中,根據(jù)提取的特征,采用分類模型確定網(wǎng)絡(luò)服務(wù)器是否提供仿冒服務(wù)。其中,分類模型可以為邏輯回歸模型。

以上在結(jié)合圖1~圖3說(shuō)明確定提供仿冒服務(wù)的網(wǎng)絡(luò)服務(wù)器的設(shè)備300的原理的具體描述中已經(jīng)對(duì)各步驟的相應(yīng)處理進(jìn)行了詳細(xì)解釋,這里不再對(duì)重復(fù)內(nèi)容進(jìn)行贅述。

應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多特征。更確切地說(shuō),如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。

本領(lǐng)域那些技術(shù)人員應(yīng)當(dāng)理解在本文所公開(kāi)的示例中的設(shè)備的模塊或單元或組件可以布置在如該實(shí)施例中所描述的設(shè)備中,或者可替換地可以定位在與該示例中的設(shè)備不同的一個(gè)或多個(gè)設(shè)備中。前述示例中的模塊可以組合為一個(gè)模塊或者此外可以分成多個(gè)子模塊。

本發(fā)明還可以包括:A6、如A5所述的方法,其中,所述內(nèi)容特征包括內(nèi)容相似度,所述獲取該域名對(duì)應(yīng)的網(wǎng)絡(luò)服務(wù)器的內(nèi)容特征的步驟包括:利用網(wǎng)絡(luò)爬蟲獲取所述域名指向的網(wǎng)絡(luò)內(nèi)容;利用搜索引擎查詢?cè)摼W(wǎng)絡(luò)內(nèi)容的標(biāo)題,并獲取搜索結(jié)果中前第一預(yù)定數(shù)目條網(wǎng)絡(luò)內(nèi)容;對(duì)所獲取的每條網(wǎng)絡(luò)內(nèi)容,計(jì)算其與所述域名指向的網(wǎng)絡(luò)內(nèi)容的內(nèi)容相似度;以及選取其中數(shù)值最大的一個(gè)作為所述網(wǎng)絡(luò)服務(wù)器的內(nèi)容相似度。A7、如A5所述的方法,其中,所述獲取該域名對(duì)應(yīng)的網(wǎng)絡(luò)服務(wù)器的內(nèi)容特征的步驟包括:在獲取搜索結(jié)果中前第一預(yù)定數(shù)目條網(wǎng)絡(luò)內(nèi)容之后,分別計(jì)算搜索出的每一條網(wǎng)絡(luò)內(nèi)容的標(biāo)題與所述域名指向的網(wǎng)絡(luò)內(nèi)容的標(biāo)題的相似度;獲取其中標(biāo)題相似度最大的第二預(yù)定數(shù)目條網(wǎng)絡(luò)內(nèi)容。A8、如A6或7所述的方法,其中,所述計(jì)算所獲取的每條網(wǎng)絡(luò)內(nèi)容與域名指向的網(wǎng)絡(luò)內(nèi)容的內(nèi)容相似度的步驟包括:將所述域名指向的網(wǎng)絡(luò)內(nèi)容、以及所獲取的網(wǎng)絡(luò)內(nèi)容解析為文檔對(duì)象模型樹(shù);根據(jù)所獲取的網(wǎng)絡(luò)內(nèi)容與所述域名指向的網(wǎng)絡(luò)內(nèi)容的文檔對(duì)象模型樹(shù)計(jì)算所獲取的網(wǎng)絡(luò)內(nèi)容與域名指向的網(wǎng)絡(luò)內(nèi)容的內(nèi)容相似度。A9、如A5所述的方法,其中,所述域名數(shù)據(jù)包括域名、域名的注冊(cè)商、聯(lián)系人、聯(lián)系方式、更新時(shí)間、過(guò)期時(shí)間、公司名稱、域名服務(wù)器、DNS、狀態(tài)中的至少一個(gè)。A10、如A1-9中任一項(xiàng)所述的方法,其中,所述分類模型為邏輯回歸模型。

B15、如B14所述的設(shè)備,其中,所述設(shè)備與域名反查設(shè)備相耦接,所述域名反查設(shè)備存儲(chǔ)有已知的IP地址和與該IP地址相關(guān)聯(lián)的域名,所述設(shè)備還與所述域名查詢?cè)O(shè)備相耦接,所述域名特征包括域名信息相似度;所述特征提取模塊適于:從所述域名查詢?cè)O(shè)備獲取所述域名的域名數(shù)據(jù);從所述域名反查設(shè)備獲取所述域名對(duì)應(yīng)的至少一個(gè)IP地址關(guān)聯(lián)的至少一個(gè)關(guān)聯(lián)域名;對(duì)至少一個(gè)關(guān)聯(lián)域名中除所述域名以外的每一個(gè):從所述域名數(shù)據(jù)存儲(chǔ)設(shè)備獲取該關(guān)聯(lián)域名的域名數(shù)據(jù);計(jì)算該關(guān)聯(lián)域名的域名數(shù)據(jù)中的每一項(xiàng)與所述域名的域名數(shù)據(jù)中的對(duì)應(yīng)項(xiàng)的相似度;根據(jù)每一項(xiàng)的相似度計(jì)算得到該關(guān)聯(lián)域名與所述域名的相似度;選擇其中數(shù)值最大的一個(gè)作為所述網(wǎng)絡(luò)服務(wù)器的域名信息相似度。B16、如B15所述的設(shè)備,其中,所述內(nèi)容特征包括內(nèi)容相似度,所述特征提取模塊適于:利用網(wǎng)絡(luò)爬蟲獲取所述域名指向的網(wǎng)絡(luò)內(nèi)容;利用搜索引擎查詢?cè)摼W(wǎng)絡(luò)內(nèi)容的標(biāo)題,并獲取搜索結(jié)果中前第一預(yù)定數(shù)目條網(wǎng)絡(luò)內(nèi)容;對(duì)所獲取的每條網(wǎng)絡(luò)內(nèi)容,計(jì)算其與所述域名指向的網(wǎng)絡(luò)內(nèi)容的內(nèi)容相似度;以及選取其中數(shù)值最大的一個(gè)作為所述網(wǎng)絡(luò)服務(wù)器的內(nèi)容相似度。B17、如B16所述的設(shè)備,其中,所述特征提取模塊還適于:在獲取搜索結(jié)果中前第一預(yù)定數(shù)目條網(wǎng)絡(luò)內(nèi)容之后,分別計(jì)算搜索出的每一條網(wǎng)絡(luò)內(nèi)容的標(biāo)題與所述域名指向的網(wǎng)絡(luò)內(nèi)容的標(biāo)題的相似度;獲取其中標(biāo)題相似度最大的第二預(yù)定數(shù)目條網(wǎng)絡(luò)內(nèi)容。B18、如B16或17所述的設(shè)備,其中,所述特征提取模塊適于:將所述域名指向的網(wǎng)絡(luò)內(nèi)容、以及所獲取的網(wǎng)絡(luò)內(nèi)容解析為文檔對(duì)象模型樹(shù);根據(jù)所獲取的網(wǎng)絡(luò)內(nèi)容與所述域名指向的網(wǎng)絡(luò)內(nèi)容的文檔對(duì)象模型樹(shù)計(jì)算所獲取的網(wǎng)絡(luò)內(nèi)容與域名指向的網(wǎng)絡(luò)內(nèi)容的內(nèi)容相似度。B19、如B15所述的設(shè)備,其中,所述域名數(shù)據(jù)包括域名、域名的注冊(cè)商、聯(lián)系人、聯(lián)系方式、更新時(shí)間、過(guò)期時(shí)間、公司名稱、域名服務(wù)器、DNS、狀態(tài)中的至少一個(gè)。B20、如B11-19中任一項(xiàng)所述的設(shè)備,其中,所述分類模型為邏輯回歸模型。

本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。

此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。

此外,所述實(shí)施例中的一些在此被描述成可以由計(jì)算機(jī)系統(tǒng)的處理器或者由執(zhí)行所述功能的其它裝置實(shí)施的方法或方法元素的組合。因此,具有用于實(shí)施所述方法或方法元素的必要指令的處理器形成用于實(shí)施該方法或方法元素的裝置。此外,裝置實(shí)施例的在此所述的元素是如下裝置的例子:該裝置用于實(shí)施由為了實(shí)施該發(fā)明的目的的元素所執(zhí)行的功能。

如在此所使用的那樣,除非另行規(guī)定,使用序數(shù)詞“第一”、“第二”、“第三”等等來(lái)描述普通對(duì)象僅僅表示涉及類似對(duì)象的不同實(shí)例,并且并不意圖暗示這樣被描述的對(duì)象必須具有時(shí)間上、空間上、排序方面或者以任意其它方式的給定順序。

盡管根據(jù)有限數(shù)量的實(shí)施例描述了本發(fā)明,但是受益于上面的描述,本技術(shù)領(lǐng)域內(nèi)的技術(shù)人員明白,在由此描述的本發(fā)明的范圍內(nèi),可以設(shè)想其它實(shí)施例。此外,應(yīng)當(dāng)注意,本說(shuō)明書中使用的語(yǔ)言主要是為了可讀性和教導(dǎo)的目的而選擇的,而不是為了解釋或者限定本發(fā)明的主題而選擇的。因此,在不偏離所附權(quán)利要求書的范圍和精神的情況下,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)許多修改和變更都是顯而易見(jiàn)的。對(duì)于本發(fā)明的范圍,對(duì)本發(fā)明所做的公開(kāi)是說(shuō)明性的,而非限制性的,本發(fā)明的范圍由所附權(quán)利要求書限定。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1