CAC反垃圾分類(lèi)系統(tǒng)是Coremail的后端反垃圾引擎。垃圾郵件經(jīng)過(guò)前端反垃圾GT網(wǎng)關(guān)引擎評(píng)分判斷之后,大部分的垃圾郵件都被過(guò)濾到垃圾箱,正常郵件投遞到收件箱,少部分郵件(在一定分值范圍內(nèi))進(jìn)入了可疑郵件隊(duì)列。進(jìn)入隊(duì)列的郵件再經(jīng)過(guò)CAC郵件分類(lèi)系統(tǒng)過(guò)濾,將郵件分類(lèi)成:正常郵件、訂閱郵件、廣告郵件、垃圾郵件四大類(lèi)型。其中正常郵件和訂閱郵件將會(huì)投遞到用戶的收件箱,而廣告郵件和垃圾郵件將會(huì)投遞到用戶的垃圾箱。
反垃圾郵件服務(wù)運(yùn)營(yíng)中心反垃圾分類(lèi)系統(tǒng),對(duì)可疑郵件進(jìn)行智能分析,并進(jìn)行人工判定。 在反垃圾GT網(wǎng)關(guān)的基礎(chǔ)上,進(jìn)一步降低了郵件的漏判率。
n基本原理如下圖所示:
n判定過(guò)程:
n郵件進(jìn)入CAC分類(lèi)系統(tǒng)后,先將相似的郵件聚類(lèi)到一起,然后進(jìn)入分類(lèi)引擎對(duì)郵件進(jìn)行分類(lèi),將郵件標(biāo)記為正常郵件,訂閱郵件,廣告郵件,垃圾郵件四者之一,并將郵件標(biāo)記和分類(lèi)結(jié)果置信度返回給客戶端,由客戶端做后續(xù)的處理,對(duì)于置信度小于指定區(qū)間或重復(fù)次數(shù)過(guò)多的郵件,將會(huì)要求人工確認(rèn)此郵件的分類(lèi)。
n學(xué)習(xí)過(guò)程:
n反垃圾郵件服務(wù)運(yùn)營(yíng)中心郵件分類(lèi)系統(tǒng)后臺(tái)會(huì)定時(shí)啟動(dòng)學(xué)習(xí)模塊,學(xué)習(xí)過(guò)去n天的分類(lèi)系統(tǒng)處理結(jié)果,來(lái)不斷的進(jìn)化和處理新垃圾郵件類(lèi)型。
反垃圾郵件服務(wù)運(yùn)營(yíng)中心(CAC)應(yīng)用幾十種世界先進(jìn)的反垃圾技術(shù),根據(jù)反垃圾技術(shù)潮流的發(fā)展,不斷對(duì)技術(shù)進(jìn)行創(chuàng)新,為客戶提供獨(dú)特而實(shí)用的反垃圾運(yùn)營(yíng)服務(wù)。
n國(guó)內(nèi)最好的中文垃圾郵件過(guò)濾算法
n傳統(tǒng)的文件比較方法,提取最重要的特征分詞,會(huì)導(dǎo)致某些次重要的特征分詞被丟棄,會(huì)影響分類(lèi)器的準(zhǔn)確性。CAC郵件分類(lèi)系統(tǒng)對(duì)于中文分詞不依賴中文字典,而是通過(guò)排列組合窮舉所有可能的分詞形式,然后通過(guò)統(tǒng)計(jì)來(lái)確認(rèn)哪些分詞比較重要,并針對(duì)html文檔和html tag進(jìn)行特殊處理。
n郵件評(píng)分技術(shù)
n反垃圾郵件服務(wù)運(yùn)營(yíng)中心(CAC)使用多條評(píng)判垃圾郵件的規(guī)則,對(duì)郵件的發(fā)信IP,發(fā)信人地址,信件內(nèi)容等部分進(jìn)行評(píng)分。將總分與系統(tǒng)及用戶設(shè)置的閾值作比較,決定郵件是否評(píng)為垃圾郵件。使用郵件評(píng)分技術(shù)使得反垃圾郵件系統(tǒng)可以更靈活地組合各種過(guò)濾規(guī)則,系統(tǒng)管理員可以設(shè)定劃分垃圾郵件的系統(tǒng)過(guò)濾閾值參數(shù),從而動(dòng)態(tài)調(diào)整系統(tǒng)對(duì)垃圾郵件的過(guò)濾強(qiáng)度。
n二次學(xué)習(xí)機(jī)制
n反垃圾郵件服務(wù)運(yùn)營(yíng)中心(CAC)聚類(lèi)服務(wù)器使用半人工的分類(lèi)器對(duì)未知郵件樣本進(jìn)行分類(lèi),SVM生成第一次分類(lèi)結(jié)果之后,將所有學(xué)習(xí)樣本都投入分類(lèi)器,抽取部分點(diǎn)讓人工再做一次糾偏,最終將糾偏之后的信息傳遞給分類(lèi)器進(jìn)行訓(xùn)練,再學(xué)習(xí)一次,由此形成一個(gè)正向循環(huán),讓學(xué)習(xí)結(jié)果準(zhǔn)確性提高。
[1]反垃圾郵件服務(wù)運(yùn)營(yíng)中心(CAC)為超過(guò)50個(gè)VIP客戶、140個(gè)IP提供RBL監(jiān)控和移除處理服務(wù)。CAC監(jiān)控的RBL組織包括9個(gè)國(guó)際著名反垃圾組織,第一時(shí)間監(jiān)控用戶IP是否被列入RBL,并幫助客戶提交相關(guān)信息,申請(qǐng)移除。
n截至2012年,CAC反垃圾中心已為70多個(gè)客戶移除RBL共208個(gè)。
針對(duì)企業(yè)的郵件類(lèi)型,CAC可提供個(gè)性化的反垃圾算分服務(wù)。經(jīng)過(guò)算分后,能獲取到某一企業(yè)內(nèi)郵件的特征,從而調(diào)整判斷規(guī)則的分值,有效地解決郵件誤判和漏判的問(wèn)題。