引 言
本次研究從實戰理念出發,大數遞業從基礎工作做起,運用先進的大數據技術對現有寄遞行業數據進行整合,構建新的大數據應用系統。該系統建設包含本地快遞數據以及其他相關數據的數據中心,并在此數據中心基礎上與其他各地實現全國聯網、異地協作等功能的郵路偵控信息化平臺,通過該系統可與其他地市進行數據交換。通過該系統的建設,將極大豐富行動技術部門的信息資源,形成可甄別特定信息,查除異端快件信息的監控網絡 [1]。
1 系統整體設計
系統針對寄遞行業特點,結合基礎資料進行機主信息分析、寬帶信息分析、逃犯信息分析,同時可在大數據中進行人員關系分析、號碼關系分析、物品關系分析。分析的結果可保存在中間庫,并進行信息共享,方便用戶使用。系統設計如圖 1 所示。
結合寄遞公司基本功能要求,系統以可擴展結構實現多種數據的接入。針對不同的數據源可定制專屬的數據抓取工具,實現自動化數據抓取,系統中需要附帶專業的數據抓取工具。應對不同的數據格式,實現可動態配置的數據格式化工具,數據格式化由數據格式化軟件負責,數據格式化軟件運行在格式化機上,主要功能包括將各種來源的數據快速、準確地轉換為統一格式,同時進行數據整理和標準化處理,以便于后續的處理工作。抓取的源數據其來源與格式千差萬別,具有數據量大、實時性要求高等特點,是本系統處理的重點。數據格式化在進行數據標準化處理時,需要進行解壓、解析、數據標準化整理、預警等過程,具有統一的查詢平臺和查詢接口,統一的預警體系和預警接口等 [2-3]。
2 大數據挖掘與應用
系統支持普通查詢和綜合查詢。對于普通查詢而言,可以針對某個字段,如號碼、基站代碼、機身碼進行查詢,在普通查詢時可以輸入多個條件進行批量查詢。為了提高工作效率,這些條件既可人工輸入,也可以從其他文件中導入。綜合查詢時操作員可根據需要設置各種查詢條件,這些條件用“與”“或”邏輯關系組合起來 [4]。
2.1 大數據挖掘
大數據使用計算機進行分析處理。針對海量數據,人腦的處理速度遠遠不比計算機處理速度快、效率高。比如對不同的粗糙粒度進行全維度分析,就需借助人機綜合系統,而這就是科技發展帶來的優勢 [5]。
當產生了抽象模型,可以針對每一個人積累的數據進行模式匹配和模式識別,從而進行針對某種特定需求的操作判斷。比如一家銷售化妝品的公司可以對積累的海量用戶消費數據進行篩選,根據模型識別匹配出目標客戶群,從而找到目標客戶群,并進行有針對性的營銷,不同用戶群接觸的媒體類型不同,尋找每個人的媒體接觸習慣與接觸時間,甚至能夠預測下一次將在什么地方接觸到,方便定向推廣預定信息,做到有的放矢,提高命中率。
大數據的挖掘運用越來越向定制化、個性化方向發展。個性化才能收到最佳效果,而個性化來自于精準的判斷,精準的判斷來自于豐富的模型和經驗。因此只有挖掘出有價值的信息,才能使應用更廣泛 [6-7]。
2.2 大數據應用
系統運用大數據挖掘技術,使用預先建立的數據模型進行大數據分析。系統的主要功能包括名址查詢、快速查詢、組合查詢、全文檢索、查詢模板、結果再處理、專題數據、城市信息查詢、歸屬地查詢、重點庫查詢、從業人員查詢、服務結果、審批查詢、日志查詢等。通過上述操作可以現實以下功能。
(1) 通過號碼(姓名、地址)等分析多個號碼(姓名、地址)間是否有快遞聯系,可在后臺執行。從資料庫或中間庫中找出一組號碼中存在的記錄,或該組號碼不存在的記錄。根據聯系人、姓名、地址不變的原則,以原號碼為基礎,找出某兩段時間內同一姓名地址使用與原號碼不同的通訊工具, 該通訊工具基本可判定為同一人使用。
(2) 通過關系網分析,集合號碼查詢關系人或者關系人的關系人等多層次聯系對象的話單。該模型是聯系圈模型及多層次聯系對象現場比對分析等模型的基礎。以號碼為第一層號碼對其聯系對象進行統計 ;以第一層號碼的聯系對象為第二層、以第二層的聯系對象為第三層,依次類推,直到指定層次,組成一個關系集合。
(3) 根據人與群分的特性,多個嫌疑人可能有共同聯絡人,輸入一批嫌疑號碼,找出與他們有共同聯系的人,這些人也帶有一定的嫌疑性。
(4) 根據特定號碼收發郵件的時間來分析特定號碼的活動規律,是白天在家,還是晚上在家 ;是工作日在家,還是周末在家等。
(5) 找出郵遞頻率比較高的記錄,分析其發送郵包的內容,查驗是否包含違禁品。
(6) 系統找出一個電話采用不同地址收發郵件的記錄或找出收發雙方采用不同快遞收發郵件的信息,查驗是否具有涉嫌零散組裝貨物,逃避檢查的嫌疑。
(7) 通過歸屬地與地址不符分析,找出手機歸屬地與收件地址不符的信息,進一步排除。
(8) 以物品為中心,按時間、地區、網點、人員、號碼等分析出特定物品的流動特性。如突發性地在一個月內有大量筆記本電腦從 A地發往 B地,這樣的信息極其可疑 [8-10]。
3 結 語
本系統建立本地數據庫并從各渠道實時或定時獲取數據,可以有效提供數據規范化系統需要的靈活的數據規范化工具,以幫助進行數據規范化工作,加快行業標準化運營發展。
系統實現數據比對,對業務數據、知識庫內的信息進行數據關聯規則和比對策略設置,實現定時或即時分析與比對, 當滿足條件后,自動通報比對結果。在變化的數據入庫后執行相關數據比對工作,細致詳盡規劃查詢信息,快遞收件人姓名、收件人手機號、收件人地址的真實程度越高,越有助于查詢異常和重點關注快件,可以提取出這類信息建立一個實時準確的人員信息庫。
利用寄遞行業數據真實程度高這一特性,結合已知的犯罪行為模式進行數據挖掘,可以類比出異常數據發現犯罪。后期在條件允許的情況下可以和各個公司進行聯網實時取得數據,并進行預警,有助于公安系統維護社會和諧,打擊犯罪活動。