在未來的暗數據的18至24個月內,越來越多的分析CIO、商業領袖和數據科學家將開始嘗試“暗數據分析”:集中探索大量的關注非結構化數據和“暗”數據,以期總結出更細致的暗數據商業、客戶和運營洞察。分析其中的關注“暗”數據是指那些未被發掘或理解的數據,暗數據分析主要是暗數據針對文本形式的原始數據,如文本信息、分析文件、關注電子郵件、暗數據音頻視頻文件以及靜態圖像等,分析有時也會對深網,關注即沒有被搜索引擎索引的暗數據網絡信息進行暗數據分析。暗數據分析通常關注三個維度:
(一)現有的分析未開發數據許多組織的大量結構化和非結構化數據都處于閑置狀態。結構化數據之所以閑置,關注通常是因為不同數據集之間難以建立聯系。“傳統的”非結構化數據多為文字信息,而且都儲存在企業內部,開發程度很低。如果把這些非結構化數據資產加以挖掘,會得到很多關于定價、客戶行為和競爭對手的寶貴信息。預估計,當前80%%-90%%的數據為非結構化數據。
(二)非傳統的非結構化數據這類數據無法用傳統的報告和分析技術進行挖掘,如音頻、視頻文件和靜態圖像等,可以利用計算機視覺、高級模式識別及視頻和聲音分析等技術,以更深入地理解顧客、雇員、運營和市場。如分析錄像中顧客的姿勢、表情和手勢,零售商就可以更好地理解顧客的心情和意圖。
(三)深網數據深網中包含的未開發信息可能比任何其他網絡都多,但是搜索難度也最大。目前,想要得到有用的信息,只能對那些定義明確的目標進行數據挖掘,如私人組織名下那些授權可使用的信息。
責任編輯:徐恒