客戶背景
通信發(fā)展伴生的弊端
移動通信技術(shù)的不斷發(fā)展之下,短信已經(jīng)成為人們生活中不可或缺的工具之一,但伴隨而來的垃圾短信泛濫,不但占用了電信運營商寶貴的網(wǎng)絡(luò)資源,而且給人們的生活、工作帶來了無盡的煩惱。如何對垃圾短信進(jìn)行智能識別與實時監(jiān)測,從而提高客戶滿意度與服務(wù)質(zhì)量,成為了當(dāng)前電信行業(yè)亟待解決的問題。
不斷加劇的垃圾短信問題
在通訊信息技術(shù)不斷發(fā)達(dá)的當(dāng)今社會,短信作為一種直達(dá)用戶,成本低廉的方式,不但被越來越多的商業(yè)公司用于促銷或宣傳目的,甚至成為不法分子實施詐騙的重要手段。中國信息產(chǎn)業(yè)部報告顯示,2014年,全國移動短信業(yè)務(wù)量7630.5億條,而垃圾短信的數(shù)量就占了1/4左右,這些造成了對用戶的騷擾甚至財產(chǎn)損失的垃圾短信問題正在變得越來越嚴(yán)重。
面臨挑戰(zhàn)
增強垃圾短信檢測手段:挖掘垃圾短信的隱藏信息,利用更新的技術(shù)手段,提升垃圾短信防范效率。
提高垃圾短信檢測精度:傳統(tǒng)單純以字符串匹配過濾垃圾短信的方法誤檢率較高,而且事后增加關(guān)鍵詞的手段存在滯后性。
實時監(jiān)測:對短信實時監(jiān)測并完成垃圾短信的過濾,不斷降低垃圾短信到達(dá)率,提高用戶滿意度。
解決方案
部署垃圾短信實時監(jiān)測平臺:基于分布式消息隊列Kafka和流處理引擎實現(xiàn)實時的垃圾短信判斷和預(yù)警。同時,結(jié)合人工確認(rèn)垃圾短信數(shù)據(jù),加入訓(xùn)練集用于機(jī)器自動學(xué)習(xí),垃圾短信判斷準(zhǔn)確率99.9%以上。
垃圾短信實時監(jiān)測平臺,實現(xiàn)垃圾短信的實時過濾:針對短信數(shù)據(jù)24小時不間斷產(chǎn)生、大規(guī)模、高并發(fā)等特點,星環(huán)科技基于Transwarp Stream流處理計算框架研發(fā)垃圾短信實時監(jiān)測平臺,短信數(shù)據(jù)通過實時消息隊列進(jìn)入計算集群,利用事先訓(xùn)練好的模型完成數(shù)據(jù)轉(zhuǎn)換、特征提取、分析及實時判斷預(yù)警等復(fù)雜計算。模型判斷出的垃圾短信會通過人工確認(rèn),人工判斷確實為垃圾短信的數(shù)據(jù)會加入訓(xùn)練集用于模型的迭代訓(xùn)練。
星環(huán)科技垃圾短信實時監(jiān)測平臺流程圖
流計算引擎實現(xiàn)實時垃圾短信過濾:測試員模擬典型的短信發(fā)送場景,對10萬條短信數(shù)據(jù)集連續(xù)測試兩小時。測試結(jié)果顯示,每服務(wù)器節(jié)點每秒鐘可對1000-3000條短信實施過濾計算,正常短信和垃圾短信的識別率均在99.9%以上。
星環(huán)科技工程師程大偉說:“在垃圾短信實時監(jiān)測平臺中,網(wǎng)絡(luò)適配器不但是短信數(shù)據(jù)傳輸至流處理引擎的通道,而且是影響整個平臺性能的瓶頸,需要在90%以上高負(fù)荷的情況下保持?jǐn)?shù)據(jù)傳輸?shù)姆€(wěn)定性?!?/p>
部署垃圾短信實時監(jiān)測平臺后,垃圾短信在到達(dá)用戶之前即被實時過濾,而機(jī)器學(xué)習(xí)的機(jī)制可以不斷根據(jù)短信內(nèi)容調(diào)整或更新訓(xùn)練模型?!帮@然,垃圾短信到達(dá)率的降低將幫助運營商提高用戶的滿意度。此外,運營商可以根據(jù)短信規(guī)模靈活調(diào)整計算集群的服務(wù)器數(shù)量滿足過濾需求,更重要的是,運營商原來被垃圾短信占用的網(wǎng)絡(luò)資源被釋放,運營商可借此改進(jìn)業(yè)務(wù)運營?!背檀髠パa充到。
實施效果
提高用戶滿意度:99.9%以上的垃圾短信被自動過濾,通信公司的用戶對垃圾短信的抱怨和投訴率顯著降低,提高其用戶滿意度。
提升網(wǎng)絡(luò)資源利用率:運營商將垃圾短信占用的網(wǎng)絡(luò)資源用于其它短信業(yè)務(wù),改進(jìn)短信業(yè)務(wù)市場運營。
實時垃圾短信監(jiān)控:通過對垃圾短信的實時監(jiān)控和持續(xù)的機(jī)器自動學(xué)習(xí)手段,不斷滿足越來越復(fù)雜的垃圾短信管理和過濾需求。
提高垃圾短信過濾效率和精度:電信運營商根據(jù)垃圾短信的內(nèi)容整理出特定的關(guān)鍵詞,在短信到達(dá)用戶前,利用字符串匹配的方式在數(shù)據(jù)中心實施計算和過濾。
“這種基于字符串匹配的手段存在明顯的不足。首先是滯后性,運營商只能在事后整理關(guān)鍵詞,然而發(fā)送垃圾短信的用戶會不斷的測試關(guān)鍵詞并調(diào)整短信內(nèi)容,例如:加入特殊符號、利用同音漢字等等,這使得依靠整理和分析關(guān)鍵詞的方式實現(xiàn)垃圾短信過濾效果越來越差?!背檀髠フf:“其次,伴隨關(guān)鍵詞的數(shù)量不斷增加,服務(wù)器的計算性能對垃圾短信過濾效率影響越來越大?!?/p>
此外,對于電信運營商而言,這些垃圾短信的傳送占用和浪費了大量寶貴的網(wǎng)絡(luò)資源。
電信運營商急需利用更新的技術(shù)手段對海量短信數(shù)據(jù)實現(xiàn)實時運算和分析,挖掘出有價值的垃圾短信參考依據(jù),形成機(jī)器學(xué)習(xí)的機(jī)制,實現(xiàn)自動化的垃圾短信過濾,從而充分利用網(wǎng)絡(luò)資源,并提高用戶滿意度。
星環(huán)科技流處理引擎提供強大的流計算表達(dá)能力,支持在流數(shù)據(jù)上進(jìn)行實時事件檢測和批處理、機(jī)器學(xué)習(xí)等復(fù)雜的計算邏輯,是電信運營商提高垃圾短信防范的理想工具。
目標(biāo)與展望
下一步,星環(huán)科技將和電信運營商深入合作,繼續(xù)挖掘短信發(fā)送用戶和接受用戶之間的關(guān)系,利用圖的方法進(jìn)一步提升垃圾短信過濾效率和質(zhì)量。