在未來的暗數(shù)據(jù)的18至24個月內(nèi),越來越多的分析CIO、商業(yè)領(lǐng)袖和數(shù)據(jù)科學(xué)家將開始嘗試“暗數(shù)據(jù)分析”:集中探索大量的關(guān)注非結(jié)構(gòu)化數(shù)據(jù)和“暗”數(shù)據(jù),以期總結(jié)出更細(xì)致的暗數(shù)據(jù)商業(yè)、客戶和運(yùn)營洞察。分析其中的關(guān)注“暗”數(shù)據(jù)是指那些未被發(fā)掘或理解的數(shù)據(jù),暗數(shù)據(jù)分析主要是暗數(shù)據(jù)針對文本形式的原始數(shù)據(jù),如文本信息、分析文件、關(guān)注電子郵件、暗數(shù)據(jù)音頻視頻文件以及靜態(tài)圖像等,分析有時也會對深網(wǎng),關(guān)注即沒有被搜索引擎索引的暗數(shù)據(jù)網(wǎng)絡(luò)信息進(jìn)行暗數(shù)據(jù)分析。暗數(shù)據(jù)分析通常關(guān)注三個維度:
(一)現(xiàn)有的分析未開發(fā)數(shù)據(jù)許多組織的大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都處于閑置狀態(tài)。結(jié)構(gòu)化數(shù)據(jù)之所以閑置,關(guān)注通常是因?yàn)椴煌瑪?shù)據(jù)集之間難以建立聯(lián)系。“傳統(tǒng)的”非結(jié)構(gòu)化數(shù)據(jù)多為文字信息,而且都儲存在企業(yè)內(nèi)部,開發(fā)程度很低。如果把這些非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)加以挖掘,會得到很多關(guān)于定價、客戶行為和競爭對手的寶貴信息。預(yù)估計,當(dāng)前80%%-90%%的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)。
(二)非傳統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)這類數(shù)據(jù)無法用傳統(tǒng)的報告和分析技術(shù)進(jìn)行挖掘,如音頻、視頻文件和靜態(tài)圖像等,可以利用計算機(jī)視覺、高級模式識別及視頻和聲音分析等技術(shù),以更深入地理解顧客、雇員、運(yùn)營和市場。如分析錄像中顧客的姿勢、表情和手勢,零售商就可以更好地理解顧客的心情和意圖。
(三)深網(wǎng)數(shù)據(jù)深網(wǎng)中包含的未開發(fā)信息可能比任何其他網(wǎng)絡(luò)都多,但是搜索難度也最大。目前,想要得到有用的信息,只能對那些定義明確的目標(biāo)進(jìn)行數(shù)據(jù)挖掘,如私人組織名下那些授權(quán)可使用的信息。
責(zé)任編輯:徐恒