本發(fā)明涉及計(jì)算機(jī)信息處理技術(shù)領(lǐng)域,具體是一種電子證據(jù)的提取和保全方法。
背景技術(shù):
隨著電子信息技術(shù)的發(fā)展,電子數(shù)據(jù)已經(jīng)滲透到人們工作生活的方方面面,每天數(shù)以十億計(jì)的人使用電腦、手機(jī)等電子設(shè)備進(jìn)行即時交流,收發(fā)電子郵件、存儲、管理、更新數(shù)據(jù)信息,使得電子數(shù)據(jù)成為當(dāng)今工作生活中不可或缺的組成部分,與此同時,電子數(shù)據(jù)對刑事犯罪也產(chǎn)生了深遠(yuǎn)的影響,不少犯罪分子直接利用電子信息技術(shù)實(shí)施犯罪,利用電子郵件詐騙,利用因特網(wǎng)散布色情照片,利用病毒進(jìn)行網(wǎng)絡(luò)攻擊。電子數(shù)據(jù)在刑事犯罪中的廣泛滲透給偵查活動提出了巨大的挑戰(zhàn)。
電子證據(jù)是基于計(jì)算機(jī)應(yīng)用、通信和現(xiàn)代管理技術(shù)等電子化技術(shù)手段形成包括文字、圖形符號、數(shù)字、字母等的客觀資料,包括電子郵件、電子數(shù)據(jù)交換、網(wǎng)上聊天記錄、博客、手機(jī)短信、電子簽名、域名等電子信息。當(dāng)今世界已步入信息化社會,計(jì)算機(jī)技術(shù)與互聯(lián)網(wǎng)、智能手機(jī)已經(jīng)深入到生活的方方面面。電子數(shù)據(jù)證據(jù)作為揭露犯罪事實(shí)的證據(jù)形式,在查辦案件過程中就顯得更加重要,掌握電子數(shù)據(jù)收集與固定的方法,對提高辦案能力具有重要意義。
自2016年10月1日起施行的最高人民法院最高人民檢察院公安部印發(fā)《關(guān)于辦理刑事案件收集提取和審查判斷電子數(shù)據(jù)若干問題的規(guī)定》中,對電子證據(jù)及電子證據(jù)的提取保存等作了相關(guān)規(guī)定,明確了電子證據(jù)所包含的類別等,在大數(shù)據(jù)時代要從海量的電子數(shù)據(jù)中提取與案件和犯罪嫌疑人相關(guān)聯(lián)的證據(jù)猶如大海撈針。并且由于電子證據(jù)的特殊性,必須保證提取的電子證據(jù)是客觀真實(shí)的,能證明事實(shí),才能對案件的偵破起到作用,才能在法庭上作為證據(jù)使用。
隨著計(jì)算機(jī)犯罪數(shù)字不斷上升和犯罪手段的數(shù)字化,搜集電子證據(jù)的工作成為提供重要線索及破案的關(guān)鍵?;謴?fù)已被破壞的計(jì)算機(jī)數(shù)據(jù)及提供相關(guān)的電子資料證據(jù)就是電子取證。為確保電子證據(jù)的原始性、真實(shí)性、合法性,在電子證據(jù)的收集時應(yīng)采用專業(yè)的數(shù)據(jù)復(fù)制備份設(shè)備將電子證據(jù)文件復(fù)制備份。電子證據(jù)的認(rèn)證也就是審查電子證據(jù)是否符合電子證據(jù)認(rèn)定的相關(guān)性、真實(shí)性、合法性等標(biāo)準(zhǔn)。在審查電子證據(jù)真實(shí)性過程中,首先必須嚴(yán)格審查電子證據(jù)的來源。在證據(jù)采信過程中,主要體現(xiàn)在如下幾個方面:第一,證據(jù)的來源必須是客觀存在的,第二,確定證據(jù)來源的真實(shí)可靠性,根據(jù)電子證據(jù)形成的時間、地點(diǎn)等情況,明確電子證據(jù)所反映的是否真實(shí)可靠。結(jié)合電子證據(jù)本身的技術(shù)含量及加密條件、加密方法,判斷電子證據(jù)是否真實(shí)、有無剪裁、拼湊、偽造、篡改等。由于電子證據(jù)容易被篡改,破壞和偽造而不易留痕,電子證據(jù)依附的計(jì)算機(jī)系統(tǒng)容易受到攻擊、篡改且不易發(fā)覺,也使電子證據(jù)面臨著被訴訟的問題,電子證據(jù)的完整性也變成了當(dāng)前法庭,偵查機(jī)關(guān)和被告極為關(guān)注的重要的問題。但電子證據(jù)完整性涉及到從電子證據(jù)源的固定、證據(jù)提取、分析推理、報(bào)告的生成中的每個方面,是一個復(fù)雜的技術(shù)過程。
用戶在使用計(jì)算機(jī)設(shè)備以及在網(wǎng)絡(luò)中傳輸?shù)倪^程中往往會留下使用痕跡,這些使用痕跡通常作為存儲在設(shè)備中的一部分?jǐn)?shù)據(jù)源被保存下來。在特定情況下,這些用戶的使用痕跡將被提取和分析,甚至可能會成為案件中具有重大意義的數(shù)字證據(jù)。在數(shù)字取證過程中,鑒定專家將根據(jù)案件的鑒定需求來制定取證策略,作為選用恰當(dāng)數(shù)字取證技術(shù)和取證工具的判斷依據(jù),從而對待取證設(shè)備進(jìn)行數(shù)據(jù)獲取與取證分析。
針對互聯(lián)網(wǎng)中的有必要成為電子證據(jù)(司法證據(jù))的電子數(shù)據(jù),如電子交易的關(guān)鍵信息、文本、圖片、音視頻、電子郵件、網(wǎng)頁內(nèi)容、聊天過程等,形成了真實(shí)的、唯一的、完整的數(shù)據(jù)鏈條,滿足了作為司法證據(jù)的客觀性、關(guān)聯(lián)性、合法性的要求。
發(fā)明專利“基于社交平臺的電子證據(jù)處理系統(tǒng)及處理方法”公開了一種基于社交平臺的電子證據(jù)處理系統(tǒng),包括取證服務(wù)器、數(shù)字簽名模塊、證據(jù)存儲模塊、出證模塊。取證服務(wù)器接收社交平臺服務(wù)器轉(zhuǎn)發(fā)來的源自社交平臺客戶端產(chǎn)生的取證請求,并根據(jù)該取證請求采集相應(yīng)的數(shù)據(jù)同時生成記錄文件;數(shù)字簽名模塊對記錄文件進(jìn)行數(shù)字簽名、時間戳簽名形成證據(jù);證據(jù)存儲模塊對經(jīng)過數(shù)字簽名模塊簽名的證據(jù)進(jìn)行存儲;出證模塊對證據(jù)存儲模塊中經(jīng)過簽名的證據(jù)進(jìn)行完整性驗(yàn)證,根據(jù)通過驗(yàn)證的證據(jù)所記錄的內(nèi)容出具相應(yīng)的報(bào)告;取證服務(wù)器、數(shù)字簽名模塊以及出證模塊均處于具備公信力的第三方監(jiān)控環(huán)境下。該系統(tǒng)實(shí)現(xiàn)了數(shù)據(jù)的取證、存儲及出證的全過程見證,可以對所取的網(wǎng)絡(luò)數(shù)據(jù)的真實(shí)性進(jìn)行還原,增加所取證數(shù)據(jù)的證據(jù)效力。申請?zhí)枮?01610315054.6的發(fā)明專利申請一種電子文件基因提取系統(tǒng),提供一種電子文件基因提取系統(tǒng),包括:防火墻、時頻服務(wù)器、交換機(jī)和服務(wù)器,所述服務(wù)器通過交換機(jī)分別連接時頻服務(wù)器和防火墻,在電子文件形成過程中或形成時,提取電子文件關(guān)鍵信息,通過哈希算法將文件關(guān)鍵信息配合第三方時效脈沖加密成一段唯一不可逆密碼;所述服務(wù)器包括依次串聯(lián)的電子保全系統(tǒng)服務(wù)器、簽名驗(yàn)證服務(wù)器和安全認(rèn)證網(wǎng)關(guān),所述電子保全系統(tǒng)服務(wù)器通過計(jì)算機(jī)接口連接交換機(jī)。該系統(tǒng)可為司法鑒定單位的電子證據(jù)指紋校對提供原始素材,可確保電子數(shù)據(jù)的原始性和客觀性。
現(xiàn)有技術(shù)的電子證據(jù)驗(yàn)證保全方法的基本原理是利用單向散列函數(shù)(Hash函數(shù))對發(fā)送信息進(jìn)行運(yùn)算,生成一串固定長度的數(shù)字摘要。將生成的數(shù)字摘要與源文件進(jìn)行對比,驗(yàn)證該數(shù)據(jù)是否被篡改。數(shù)字摘要用來判斷數(shù)據(jù)有沒有被竄改,從而保證了信息的完整性不被破壞。
上述現(xiàn)有技術(shù)只是在取證過程中對電子數(shù)據(jù)進(jìn)行完整性檢查,真假時間戳和數(shù)字簽名,以解決提取證據(jù)的真實(shí)性問題。但隨著計(jì)算信息技術(shù)的發(fā)展,大數(shù)據(jù)時代的到來,海量的電子數(shù)據(jù)存放在犯罪工具設(shè)備中、云平臺或者在網(wǎng)絡(luò)上傳播,要從海量的數(shù)據(jù)中提取出與案件相關(guān)聯(lián)的電子證據(jù),能夠滿足對證據(jù)關(guān)聯(lián)性的要求,并且在相關(guān)證據(jù)中對證據(jù)進(jìn)行分類,在對相關(guān)事實(shí)進(jìn)行證明時方便提取,并進(jìn)行分類保全,以方便取證專家及相關(guān)人員能夠快速準(zhǔn)確獲取完整有效的電子證據(jù),加強(qiáng)證明力。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是,針對現(xiàn)有技術(shù)電子證據(jù)提取過程中缺乏對證據(jù)類型進(jìn)行分類識別,難以在海量數(shù)據(jù)中快速準(zhǔn)確提取出相關(guān)聯(lián)的電子證據(jù),以及沒有對電子證據(jù)進(jìn)行相關(guān)分類等問題,本發(fā)明提出一種電子證據(jù)分類提取方法。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案是,提出一種電子證據(jù)分類提取方法,包括步驟:電子證據(jù)獲取模塊調(diào)用RDD序列化存儲函數(shù)讀取電子數(shù)據(jù),對電子數(shù)據(jù)進(jìn)行歸一化處理獲得標(biāo)稱電子數(shù)據(jù)集構(gòu)成測試集;為每個分區(qū)保存一個標(biāo)簽,分類訓(xùn)練模塊將訓(xùn)練集中的樣本數(shù)據(jù)轉(zhuǎn)化為樣本特征和標(biāo)簽,該樣本集中的所有樣本數(shù)據(jù)獲得標(biāo)簽,將獲得標(biāo)簽的樣本數(shù)據(jù)輸入基分類器進(jìn)行訓(xùn)練,獲得電子證據(jù)分類器;將測試集中的電子數(shù)據(jù)輸入電子證據(jù)分類器中進(jìn)行預(yù)測,為測試集中每個電子數(shù)據(jù)尋找對應(yīng)的標(biāo)簽,并分配到與其標(biāo)簽對應(yīng)的RDD分區(qū)中,對每個RDD分區(qū)進(jìn)行簇排序,得到不同層次結(jié)構(gòu)上的簇號,合并分區(qū),排除電子數(shù)據(jù)中的噪聲信息,輸出聚類的結(jié)果;模糊融合識別模塊對經(jīng)過聚類到各RDD分區(qū)的電子數(shù)據(jù)進(jìn)行模糊識別,獲得分類電子證據(jù);文檔層處理模塊從RDD各分區(qū)中拷貝分類電子證據(jù)形成目標(biāo)數(shù)據(jù),對目標(biāo)數(shù)據(jù)進(jìn)行文檔化處理,送入呈述層模塊,呈述層模塊對目標(biāo)數(shù)據(jù)進(jìn)行相關(guān)描述,自動生成描述型句子。
本發(fā)明的優(yōu)選實(shí)施例進(jìn)一步包括,所述將預(yù)測集中電子數(shù)據(jù)分配到對應(yīng)的RDD分區(qū)分區(qū)中具體包括,將標(biāo)稱電子數(shù)據(jù)集通過map鍵值對函數(shù)轉(zhuǎn)化為對應(yīng)的鍵值對的形式,根據(jù)鍵值對將標(biāo)稱數(shù)據(jù)集分配到一系列的RDD分區(qū)中。
本發(fā)明的優(yōu)選實(shí)施例進(jìn)一步包括,所述對每個RDD分區(qū)進(jìn)行簇排序進(jìn)一步具體包括:選擇一個電子數(shù)據(jù)樣本點(diǎn)放入全局鄰居數(shù)組,在全局鄰居數(shù)組中選擇第一個對象p進(jìn)行擴(kuò)張,判斷對象p是否為核心點(diǎn),如果p不是核心點(diǎn),從全局鄰居數(shù)組中刪除p;如果p是核心點(diǎn),對核心點(diǎn)p的鄰域內(nèi)任一未處理的鄰居點(diǎn)q計(jì)算歐式距離,如果q已在全局鄰居數(shù)組中且從p到q的可達(dá)距離小于此時q的歐式距離,更新q的可達(dá)距離為q的歐式距離,并根據(jù)更新的可達(dá)距離,調(diào)整q到全局鄰居數(shù)組中的相應(yīng)位置;如果q不在全局鄰居數(shù)組中,則根據(jù)p到q的可達(dá)距離將其插入有序隊(duì)列中,直到核心點(diǎn)p的所有鄰居點(diǎn)都插入隊(duì)列,獲得所有核心點(diǎn)的隊(duì)列即為分區(qū)的簇排序。
本發(fā)明的優(yōu)選實(shí)施例進(jìn)一步包括,所述所有電子證據(jù)獲得標(biāo)簽進(jìn)一步包括:將訓(xùn)練集中的樣本數(shù)據(jù)轉(zhuǎn)化為樣本特征和標(biāo)簽(1,featuress,labels)的形式,采用廣播變量的形式將樣本特征和標(biāo)簽進(jìn)行分離,對特征進(jìn)行廣播變量,將特征和標(biāo)簽(1,featuress,labels)轉(zhuǎn)化為特征(1,featuress),標(biāo)簽(1,1,label1),(1,2,label2),(1,3,label3),……(1,n*(n+1)/2,labeln*(n+1)/2),轉(zhuǎn)化獲得的標(biāo)簽分配到n*(n+1)/2個RDD分區(qū)分區(qū)中,為每個分區(qū)保存一個標(biāo)簽。
本發(fā)明的優(yōu)選實(shí)施例進(jìn)一步包括,所述模糊識別具體包括,模糊融合識別模塊將電子數(shù)據(jù)對比度值域區(qū)間非線性劃分,提取特征,利用模糊隸屬函數(shù)獲取待分類電子證據(jù)樣本特征隸屬于各類別的卡方距離,對卡方距離內(nèi)的各特征進(jìn)行權(quán)重融合,獲得分類結(jié)果。
本發(fā)明的優(yōu)選實(shí)施例進(jìn)一步包括,根據(jù)任意RDD分區(qū)的前邊界數(shù)據(jù)樣本和廣播變量的后邊界點(diǎn)獲得鍵值對map,根據(jù)map的方向向前合并簇號,所有RDD分區(qū)中的標(biāo)稱數(shù)據(jù)樣本點(diǎn)都根據(jù)鍵值對Map合并簇號,并輸出所有標(biāo)稱電子數(shù)據(jù)對應(yīng)的簇號,合并的簇號加入map中。
本發(fā)明的優(yōu)選實(shí)施例進(jìn)一步包括,如電子證據(jù)包括N種特征,包括c個證據(jù)類型,根據(jù)公式:將各特征的分類結(jié)果按權(quán)重進(jìn)行融合,使得融合值K取最大時的類別t就是最終的分類結(jié)果。
本發(fā)明還提供一種電子證據(jù)分類提取系統(tǒng),包括:電子證據(jù)獲取模塊、分類訓(xùn)練模塊、電子證據(jù)分類器、模糊融合識別模塊、文檔層處理模塊、呈述層模塊,其中,電子證據(jù)獲取模塊,用于調(diào)用RDD序列化存儲函數(shù)讀取電子數(shù)據(jù),對電子數(shù)據(jù)進(jìn)行歸一化處理獲得標(biāo)稱電子數(shù)據(jù)集構(gòu)成測試集;分類訓(xùn)練模塊,用于將訓(xùn)練集中的樣本數(shù)據(jù)轉(zhuǎn)化為樣本特征和標(biāo)簽,將獲得標(biāo)簽的樣本數(shù)據(jù)輸入基分類器進(jìn)行訓(xùn)練,獲得電子證據(jù)分類器;電子證據(jù)分類器,用于對測試集中的電子數(shù)據(jù)進(jìn)行預(yù)測,為測試集中每個電子數(shù)據(jù)尋找對應(yīng)的標(biāo)簽,并分配到與其標(biāo)簽對應(yīng)的RDD分區(qū)中,為每個RDD分區(qū)保存一個標(biāo)簽,對每個RDD分區(qū)進(jìn)行簇排序,得到不同層次結(jié)構(gòu)上的簇號,合并分區(qū),排除電子數(shù)據(jù)中的噪聲信息,對電子數(shù)據(jù)進(jìn)行聚類;模糊融合識別模塊,用于對經(jīng)過聚類到各RDD分區(qū)的電子數(shù)據(jù)進(jìn)行模糊識別,獲得分類電子證據(jù);文檔層處理模塊,用于從RDD各分區(qū)中拷貝分類電子證據(jù)形成目標(biāo)數(shù)據(jù),對目標(biāo)數(shù)據(jù)進(jìn)行文檔化處理,送入呈述層模塊;呈述層模塊,用于對目標(biāo)數(shù)據(jù)進(jìn)行相關(guān)描述,自動生成描述型句子。
本發(fā)明針對電子證據(jù)來源廣泛,數(shù)據(jù)量大,呈現(xiàn)方式多種多樣,能夠在多種數(shù)據(jù)來源,海量數(shù)據(jù)中快速準(zhǔn)確提取出相關(guān)聯(lián)的電子證據(jù),對電子證據(jù)進(jìn)行相關(guān)分類,與案件關(guān)鍵信息進(jìn)行關(guān)聯(lián),方便取證人員及辦案人員能夠快速準(zhǔn)確的獲取需要的相關(guān)電子證據(jù)。
附圖說明
圖1本發(fā)明所述電子證據(jù)分類提取流程圖。
具體實(shí)施方式
Spark是一個基于內(nèi)存的分布式計(jì)算系統(tǒng),Spark基于內(nèi)存計(jì)算,提高了在大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實(shí)時性,同時保證了高容錯性和高可伸縮性,允許用戶將Spark部署在大量廉價(jià)硬件紙上,形成集群。Spark將計(jì)算的中間結(jié)果數(shù)據(jù)持久地存儲在內(nèi)存中,通過減少磁盤I/O。使后續(xù)的數(shù)據(jù)運(yùn)算效率更高。Spark的這種架構(gòu)設(shè)計(jì)尤其適合于機(jī)器學(xué)習(xí)、交互式數(shù)據(jù)分析等應(yīng)用,這些應(yīng)用都需要重復(fù)地利用計(jì)算的中間數(shù)據(jù)。Spark是基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架。同時在上層支持圖計(jì)算、迭代式計(jì)算、流式計(jì)算等多種計(jì)算范式,具有通用性。為了支持在多次迭代計(jì)算過程中重復(fù)利用內(nèi)存數(shù)據(jù)集,Spark提出了一種新的數(shù)據(jù)抽象模型可分區(qū)的內(nèi)存分布式數(shù)據(jù)集RDD(resilient distributed dataset),可以一部分或者全部緩存在集群內(nèi)存中,以便在多次計(jì)算過程中重用。用戶可以顯式控制RDD的分區(qū)、緩存策略等,RDD是一種分布式的內(nèi)存抽象,表示只讀的、分區(qū)記錄的集合,它只能通過在穩(wěn)定物理存儲中的數(shù)據(jù)集或其它已有的RDD上執(zhí)行一些確定性操作來創(chuàng)建。結(jié)果返回一個普通的類型值或?qū)DD中的數(shù)據(jù)輸出到存儲系統(tǒng)中。
本發(fā)明基于內(nèi)存分布式數(shù)據(jù)集RDD對提取的電子證據(jù)進(jìn)行聚類處理,通過點(diǎn)排序識別聚類結(jié)構(gòu)處理大批量的數(shù)據(jù)集,并在極短的時間內(nèi)得到簇排序,對聚類電子數(shù)據(jù)根據(jù)電子證據(jù)來源及類型進(jìn)行分類并標(biāo)引,在不同層次導(dǎo)出內(nèi)在的聚類結(jié)構(gòu)。
圖1所示為電子證據(jù)提取流程示意圖。
包括,電子證據(jù)獲取模塊、分類訓(xùn)練模塊、電子證據(jù)分類器、模糊融合識別模塊、文檔層處理模塊、呈述層模塊。電子證據(jù)獲取模塊調(diào)用RDD序列化存儲函數(shù)讀取數(shù)據(jù)集,轉(zhuǎn)化為分布式數(shù)據(jù)集RDD,對數(shù)據(jù)集進(jìn)行歸一化處理獲得標(biāo)稱數(shù)據(jù)集。把分布式數(shù)據(jù)集RDD中的每一個標(biāo)稱數(shù)據(jù)集都通過map鍵值對函數(shù)轉(zhuǎn)化為對應(yīng)的鍵值對的形式,根據(jù)鍵值對將標(biāo)稱數(shù)據(jù)集分配到一系列的RDD分區(qū)中。
電子證據(jù)獲取模塊,獲取數(shù)據(jù)、將非標(biāo)稱數(shù)據(jù)轉(zhuǎn)化為標(biāo)稱數(shù)據(jù),進(jìn)行歸一化處理;創(chuàng)建一個接口對象SparkContext(當(dāng)SparkContext是Spark的對外接口,負(fù)責(zé)向調(diào)用提供Spark的各種功能,當(dāng)SparkContext是Spark的入口,負(fù)責(zé)連接Spark集群);調(diào)用RDD序列化存儲函數(shù)textFile讀取數(shù)據(jù)集,將獲取的證據(jù)數(shù)據(jù)轉(zhuǎn)化為Spark大數(shù)據(jù)平臺的分布式數(shù)據(jù)集RDD;
對獲取的電子數(shù)據(jù)進(jìn)行特征處理,建立標(biāo)稱數(shù)據(jù)集,如果數(shù)據(jù)集中的某些鍵值對不是標(biāo)稱的數(shù)據(jù)集,進(jìn)行標(biāo)稱化處理,對于有缺失值的數(shù)據(jù),可采用中位值和眾數(shù)的方式處理有缺失值的數(shù)據(jù),將所有的標(biāo)稱數(shù)據(jù)進(jìn)行歸一化處理,將特征數(shù)據(jù)轉(zhuǎn)化到[0,1]區(qū)間內(nèi)。
把分布式數(shù)據(jù)集RDD中的每一個標(biāo)稱數(shù)據(jù)集都通過map鍵值對函數(shù)轉(zhuǎn)化為對應(yīng)的鍵值對(key關(guān)鍵值,value值)的形式,根據(jù)鍵值對將標(biāo)稱電子數(shù)據(jù)分配到一系列的RDD分區(qū)中。根據(jù)任意RDD分區(qū)的前邊界數(shù)據(jù)樣本和廣播變量的后邊界點(diǎn)獲得鍵值對map,根據(jù)map的方向由后指向前,向前合并簇號,合并的簇號加入map中,所有RDD分區(qū)中的標(biāo)稱數(shù)據(jù)樣本點(diǎn)都根據(jù)鍵值對Map合并簇號,并輸出所有標(biāo)稱電子數(shù)據(jù)對應(yīng)的簇號。
分類訓(xùn)練模塊根據(jù)不同類別對電子證據(jù)樣本進(jìn)行標(biāo)引,獲得標(biāo)引的電子證據(jù)樣本集,該樣本集中的所有數(shù)據(jù)獲得標(biāo)簽。采用并行方式進(jìn)行基分類器的訓(xùn)練,將獲得標(biāo)簽的樣本數(shù)據(jù)輸入基分類器進(jìn)行訓(xùn)練,采用迭代的形式不斷優(yōu)化基分類器參數(shù),得到訓(xùn)練好的基分類器,直到基分類器的指標(biāo)能夠達(dá)到分類的要求,獲得電子證據(jù)分類器。
有標(biāo)簽的數(shù)據(jù)樣本組成訓(xùn)練集,經(jīng)過分簇并初始分類的電子數(shù)據(jù)樣本作為預(yù)測集。將訓(xùn)練集中的樣本數(shù)據(jù)轉(zhuǎn)化為樣本特征和標(biāo)簽(1,featuress,labels)的形式。采用廣播變量的形式將訓(xùn)練集的樣本特征和標(biāo)簽進(jìn)行分離。對特征進(jìn)行廣播變量,將特征和標(biāo)簽(1,featuress,labels)轉(zhuǎn)化為特征(1,featuress),標(biāo)簽(1,1,label1),(1,2,label2),(1,3,label3),……(1,n*(n+1)/2,labeln*(n+1)/2),轉(zhuǎn)化獲得的標(biāo)簽分配到n*(n+1)/2個RDD分區(qū)分區(qū)中,為每個分區(qū)保存一個標(biāo)簽。,其中,features表示某個樣本所有的特征,labels表示某個樣本所有的標(biāo)簽,labeli表示某個樣本的第i個標(biāo)簽,n表示標(biāo)簽的維數(shù)。
將預(yù)測集中的電子證據(jù)輸入訓(xùn)練好的電子證據(jù)分類器中進(jìn)行預(yù)測,通過預(yù)測為每個電子證據(jù)樣本尋找對應(yīng)的標(biāo)簽,將預(yù)測集中的電子證據(jù)分配到與其標(biāo)簽對應(yīng)的RDD分區(qū)分區(qū)中。
如果每個數(shù)據(jù)樣本對應(yīng)多個標(biāo)簽,采用投票的方式選取統(tǒng)計(jì)數(shù)量多的一種結(jié)果,如果統(tǒng)計(jì)結(jié)果相同,采用多標(biāo)簽算法CLR對統(tǒng)計(jì)結(jié)果進(jìn)行選取,每個數(shù)據(jù)樣本獲得唯一對應(yīng)的標(biāo)簽。
對每個RDD分區(qū)進(jìn)行簇排序,得到不同層次結(jié)構(gòu)上的簇號,然后進(jìn)行合并分區(qū),排除電子證據(jù)中的噪聲信息,輸出聚類結(jié)果。
每個分區(qū)的樣本并行執(zhí)行點(diǎn)排序識別聚類結(jié)構(gòu)OPTICS聚類算法,各自得到各個分區(qū)所有樣本點(diǎn)的可達(dá)距離形成分區(qū)可達(dá)序列,獲得RDD分區(qū)中所有核心點(diǎn)的隊(duì)列即為RDD分區(qū)的簇排序,把每個分區(qū)的簇排序保存到分布式文件系統(tǒng)HDFS。具體采用如下方法:選擇一個電子數(shù)據(jù)樣本點(diǎn)放入全局鄰居數(shù)組;在全局鄰居數(shù)組中選擇第一個對象p進(jìn)行擴(kuò)張,判斷對象p是否為核心點(diǎn),如果p不是核心點(diǎn),從全局鄰居數(shù)組中刪除p;如果p是核心點(diǎn),對核心點(diǎn)p的鄰域內(nèi)任一未處理的鄰居點(diǎn)q計(jì)算歐式距離,如果q已在全局鄰居數(shù)組中且從p到q的可達(dá)距離小于此時q的歐式距離,更新q的可達(dá)距離為q的歐式距離,并根據(jù)更新的可達(dá)距離,調(diào)整q到全局鄰居數(shù)組中的相應(yīng)位置,以保證隊(duì)列的有序性;如果q不在全局鄰居數(shù)組中,則根據(jù)p到q的可達(dá)距離將其插入有序隊(duì)列中,直到核心點(diǎn)p的所有鄰居點(diǎn)都插入隊(duì)列。獲得所有核心點(diǎn)的隊(duì)列即為分區(qū)的簇排序,把每個分區(qū)的簇排序保存到分布式文件系統(tǒng)HDFS。
從每個分區(qū)的簇排序中按順序提取標(biāo)稱電子數(shù)據(jù)樣本,獲取該樣本的可達(dá)距離,如果該樣本的可達(dá)距離不大于預(yù)定距離B,則把樣本所屬的類別屬性標(biāo)記為當(dāng)前類別,簇號即為類別號,如果標(biāo)稱電子數(shù)據(jù)樣本可達(dá)距離大于B并且距離核心點(diǎn)距離小于B,則把樣本點(diǎn)所屬的類別屬性標(biāo)記下一個新的類別,將其類別標(biāo)記為下一個簇號。如果標(biāo)稱電子數(shù)據(jù)樣本的可達(dá)距離大于預(yù)定距離B并且距離核心點(diǎn)的距離大于B,則把標(biāo)稱電子數(shù)據(jù)樣本點(diǎn)所屬的類的類別屬性標(biāo)記噪聲。剔除與電子證據(jù)類型不相關(guān)的數(shù)據(jù)(噪聲),將各分區(qū)數(shù)據(jù)集RDD中的標(biāo)稱電子數(shù)據(jù)簇號分配到不同的簇,調(diào)用map()函數(shù),留下每個數(shù)據(jù)集分區(qū)的前后邊界點(diǎn)的分布式數(shù)據(jù)集,調(diào)用數(shù)組轉(zhuǎn)換函數(shù)把前后邊界點(diǎn)的分布式數(shù)據(jù)集轉(zhuǎn)換為數(shù)組并廣播,然后,前后邊界點(diǎn)的分布式數(shù)據(jù)集與廣播變量進(jìn)行全局合并獲得鍵值對形式map。每個分區(qū)所有樣本點(diǎn)都根據(jù)Map(鍵值對形式)合并簇號,并輸出所有電子證據(jù)樣本點(diǎn)的最終簇號,相同簇號的電子數(shù)據(jù)放在一個文件包中輸出。
電子證據(jù)通常包括以下內(nèi)容,網(wǎng)頁、博客、微博客、朋友圈、貼吧、網(wǎng)盤等網(wǎng)絡(luò)平臺發(fā)布的網(wǎng)絡(luò)信息;手機(jī)短信、電子郵件、即時通信、通訊群組等網(wǎng)絡(luò)應(yīng)用服務(wù)的通信信息;用戶注冊信息、身份認(rèn)證信息、電子交易記錄、通信記錄、登錄日志等日志信息;文檔、圖片、音視頻、數(shù)字證書、計(jì)算機(jī)程序等電子文件。
根據(jù)以上聚類結(jié)果,對簇中的電子數(shù)據(jù)再進(jìn)一步進(jìn)行分類識別,方便取證人員識別是文本、圖片、音視頻、電子郵件、網(wǎng)頁等相關(guān)的數(shù)據(jù)。
模糊融合識別模塊對分配到各RDD分區(qū)的電子數(shù)據(jù)進(jìn)行模糊識別,獲得分類結(jié)果。
根據(jù)最高人民法院的司法解釋電子證據(jù)包括:網(wǎng)絡(luò)信息、通信信息、日志信息、文件信息。其中,網(wǎng)絡(luò)信息包括的類型有網(wǎng)頁、博客、微博客、朋友圈、貼吧、網(wǎng)盤等網(wǎng)絡(luò)平臺發(fā)布的信息類別;通信信息包括的類型手機(jī)短信、電子郵件、即時通信、通訊群組等;日志信息包括的類型有用戶注冊信息、身份認(rèn)證信息、電子交易記錄、通信記錄、登錄日志等類別;文件信息包括的類型文檔、圖片、音視頻、數(shù)字證書、計(jì)算機(jī)程序等類別。將電子數(shù)據(jù)對比度值域區(qū)間非線性劃分,提取特征,利用模糊隸屬函數(shù)獲取待分類電子證據(jù)樣本特征隸屬于各類別的卡方距離,對卡方距離內(nèi)的各特征進(jìn)行權(quán)重融合,獲得分類結(jié)果。如電子數(shù)據(jù)包括N種特征,包括t類證據(jù),根據(jù)公式:將各特征的分類結(jié)果按權(quán)重進(jìn)行融合,使得K取最大的t就是最終的分類結(jié)果,即待識別電子證據(jù)樣本被判定為第t類。其中,表示第N種特征模糊隸屬于第c類的程度,c表示所有的電子證據(jù)類別數(shù),WNt表示第N種特征模糊隸屬于第t類時的融合權(quán)重,可以通過信息熵計(jì)算等方式獲取??筛鶕?jù)公式計(jì)算融合權(quán)重,其中,為第t類電子證據(jù)樣本第N種特征的信息熵平均值。利用信息熵求得特征信息的準(zhǔn)確量。
因?yàn)樵磾?shù)據(jù)是唯一的,一般在電子證據(jù)取證中不對源數(shù)據(jù)進(jìn)行直接操作,在不改變源數(shù)據(jù)的情況下對源數(shù)據(jù)完整的一一的拷貝形成目標(biāo)數(shù)據(jù),因此目標(biāo)數(shù)據(jù)是整個電子證據(jù)的來源,需要保護(hù)目標(biāo)數(shù)據(jù)層模塊的完整性;文檔層處理模塊,在電子證據(jù)文檔化過程中,采用如單項(xiàng)函數(shù)、數(shù)字簽名等技術(shù)進(jìn)行電子證據(jù)完整性的保護(hù),可以有效地解決電子證據(jù)完整性的部分需求。
文檔層處理模塊從RDD各分區(qū)中將經(jīng)過分類的電子證據(jù)拷貝形成目標(biāo)數(shù)據(jù),對目標(biāo)數(shù)據(jù)進(jìn)行文檔化處理,如進(jìn)行電子簽名、加上時間戳,調(diào)用哈希函數(shù)對目標(biāo)數(shù)據(jù)的完成性進(jìn)行驗(yàn)證等處理,然后與證據(jù)相關(guān)特征(如當(dāng)事人姓名特征、身份信息、案件性質(zhì)、案件關(guān)鍵證據(jù)類型等)進(jìn)行關(guān)聯(lián),送入呈述層模塊。
要從關(guān)系錯綜復(fù)雜、眾多的電子證據(jù)中,選取確定性級別高、完整程度高的證據(jù)根據(jù)案件的關(guān)鍵因素進(jìn)行關(guān)聯(lián)推理而保證證據(jù)的可靠性和關(guān)聯(lián)性,以保證和檢驗(yàn)在推理分析過程中杜絕取證人員偶然或惡意地修改和偽造電子證據(jù)而影響報(bào)告結(jié)論等。
呈述層模塊對經(jīng)過分類的電子證據(jù)進(jìn)行相關(guān)描述,自動生成描述型句子。從關(guān)系錯綜復(fù)雜、眾多的電子證據(jù)中,選取確定性級別高、完整性程度高的電子證據(jù)根據(jù)關(guān)鍵因素進(jìn)行訓(xùn)練并關(guān)聯(lián)推理而保證證據(jù)的可靠性和關(guān)聯(lián)性。
呈述層模塊對存儲在各分類區(qū)域的電子證據(jù)進(jìn)行預(yù)處理,提取特征信息,根據(jù)特征信息進(jìn)行完整性檢查,獲取完整性程度高的電子證據(jù),根據(jù)經(jīng)過完整性檢查的特征信息生成固定長度的特征向量,利用投影矩陣將特征向量對應(yīng)描述句子中的詞映射到相同的特征空間獲得詞序列特征向量;利用電子證據(jù)特征向量和對應(yīng)的詞序列特征向量作為訓(xùn)練樣本對訓(xùn)練長短期記憶模型生成語言模型,將經(jīng)過分類的電子證據(jù)輸入語言模型,自動生成描述型句子,方便取證人員及法庭相關(guān)人員閱讀和理解。