客戶背景
通信發(fā)展伴生的弊端
移動通信技術的不斷發(fā)展之下,短信已經成為人們生活中不可或缺的工具之一,但伴隨而來的垃圾短信泛濫,不但占用了電信運營商寶貴的網絡資源,而且給人們的生活、工作帶來了無盡的煩惱。如何對垃圾短信進行智能識別與實時監(jiān)測,從而提高客戶滿意度與服務質量,成為了當前電信行業(yè)亟待解決的問題。
不斷加劇的垃圾短信問題
在通訊信息技術不斷發(fā)達的當今社會,短信作為一種直達用戶,成本低廉的方式,不但被越來越多的商業(yè)公司用于促銷或宣傳目的,甚至成為不法分子實施詐騙的重要手段。中國信息產業(yè)部報告顯示,2014年,全國移動短信業(yè)務量7630.5億條,而垃圾短信的數量就占了1/4左右,這些造成了對用戶的騷擾甚至財產損失的垃圾短信問題正在變得越來越嚴重。
面臨挑戰(zhàn)
增強垃圾短信檢測手段:挖掘垃圾短信的隱藏信息,利用更新的技術手段,提升垃圾短信防范效率。
提高垃圾短信檢測精度:傳統(tǒng)單純以字符串匹配過濾垃圾短信的方法誤檢率較高,而且事后增加關鍵詞的手段存在滯后性。
實時監(jiān)測:對短信實時監(jiān)測并完成垃圾短信的過濾,不斷降低垃圾短信到達率,提高用戶滿意度。
解決方案
部署垃圾短信實時監(jiān)測平臺:基于分布式消息隊列Kafka和流處理引擎實現實時的垃圾短信判斷和預警。同時,結合人工確認垃圾短信數據,加入訓練集用于機器自動學習,垃圾短信判斷準確率99.9%以上。
垃圾短信實時監(jiān)測平臺,實現垃圾短信的實時過濾:針對短信數據24小時不間斷產生、大規(guī)模、高并發(fā)等特點,星環(huán)科技基于Transwarp Stream流處理計算框架研發(fā)垃圾短信實時監(jiān)測平臺,短信數據通過實時消息隊列進入計算集群,利用事先訓練好的模型完成數據轉換、特征提取、分析及實時判斷預警等復雜計算。模型判斷出的垃圾短信會通過人工確認,人工判斷確實為垃圾短信的數據會加入訓練集用于模型的迭代訓練。
星環(huán)科技垃圾短信實時監(jiān)測平臺流程圖
流計算引擎實現實時垃圾短信過濾:測試員模擬典型的短信發(fā)送場景,對10萬條短信數據集連續(xù)測試兩小時。測試結果顯示,每服務器節(jié)點每秒鐘可對1000-3000條短信實施過濾計算,正常短信和垃圾短信的識別率均在99.9%以上。
星環(huán)科技工程師程大偉說:“在垃圾短信實時監(jiān)測平臺中,網絡適配器不但是短信數據傳輸至流處理引擎的通道,而且是影響整個平臺性能的瓶頸,需要在90%以上高負荷的情況下保持數據傳輸的穩(wěn)定性。”
部署垃圾短信實時監(jiān)測平臺后,垃圾短信在到達用戶之前即被實時過濾,而機器學習的機制可以不斷根據短信內容調整或更新訓練模型?!帮@然,垃圾短信到達率的降低將幫助運營商提高用戶的滿意度。此外,運營商可以根據短信規(guī)模靈活調整計算集群的服務器數量滿足過濾需求,更重要的是,運營商原來被垃圾短信占用的網絡資源被釋放,運營商可借此改進業(yè)務運營?!背檀髠パa充到。
實施效果
提高用戶滿意度:99.9%以上的垃圾短信被自動過濾,通信公司的用戶對垃圾短信的抱怨和投訴率顯著降低,提高其用戶滿意度。
提升網絡資源利用率:運營商將垃圾短信占用的網絡資源用于其它短信業(yè)務,改進短信業(yè)務市場運營。
實時垃圾短信監(jiān)控:通過對垃圾短信的實時監(jiān)控和持續(xù)的機器自動學習手段,不斷滿足越來越復雜的垃圾短信管理和過濾需求。
提高垃圾短信過濾效率和精度:電信運營商根據垃圾短信的內容整理出特定的關鍵詞,在短信到達用戶前,利用字符串匹配的方式在數據中心實施計算和過濾。
“這種基于字符串匹配的手段存在明顯的不足。首先是滯后性,運營商只能在事后整理關鍵詞,然而發(fā)送垃圾短信的用戶會不斷的測試關鍵詞并調整短信內容,例如:加入特殊符號、利用同音漢字等等,這使得依靠整理和分析關鍵詞的方式實現垃圾短信過濾效果越來越差。”程大偉說:“其次,伴隨關鍵詞的數量不斷增加,服務器的計算性能對垃圾短信過濾效率影響越來越大。”
此外,對于電信運營商而言,這些垃圾短信的傳送占用和浪費了大量寶貴的網絡資源。
電信運營商急需利用更新的技術手段對海量短信數據實現實時運算和分析,挖掘出有價值的垃圾短信參考依據,形成機器學習的機制,實現自動化的垃圾短信過濾,從而充分利用網絡資源,并提高用戶滿意度。
星環(huán)科技流處理引擎提供強大的流計算表達能力,支持在流數據上進行實時事件檢測和批處理、機器學習等復雜的計算邏輯,是電信運營商提高垃圾短信防范的理想工具。
目標與展望
下一步,星環(huán)科技將和電信運營商深入合作,繼續(xù)挖掘短信發(fā)送用戶和接受用戶之間的關系,利用圖的方法進一步提升垃圾短信過濾效率和質量。