The following two tabs change content below.

by 薛怡青

Photo from Flickr CC by MIKI Yoshihito
試讀連結

你知道我們每天使用的Facebook、YouTube、Twitter,可以產生多少的資料量嗎?根據聯合國「全球脈動」(UN Global Pulse)研究計劃,社群媒體網站每天產生2.5艾位元組(EB)的資料。也許你無法想像資料量的龐大,簡單用DVD容量來解釋,1EB約等於2億5400萬張的DVD光碟的容量,如此就能夠了解,其實我們已進入資訊爆炸的時代。

《雲端時代的殺手級應用:Big Data 海量資料分析》這本書講述得是在資訊爆炸的時代裡,以往那些無法處理的半結構或非結構化資料,如何被分析成有用的資訊,並進一步應用。這不是一本講述技術的書,而更著重在各產業的應用層面。

有程式設計概念的讀者,想必對於結構化資料與非結構化資料應很熟悉,簡言之,結構化資料就是那些能被放進資料庫欄位裡的固定格式,大多是數字、英文字母等。非結構化資料,就好比部落格裡的文章、與客戶來往的e-mail、YouTube上的影音檔等,沒有固定格式的資料。如此一來,便能很快速簡單的理解,其實大部分產生出來的資料是非結構化的。

也許你仍感覺不到自己每天其實是海量資料的製造者之一,舉幾個本書中的數據也許能較明白。「一分鐘之內,Facebook可以產生超過68萬條內容、一分鐘之內,全球有超過27萬美元的網路購物交易、一分鐘之內,Flickr用戶分享了3125張照片……」。依照這些數據,我開始回想自己一天的開始,到底產生的多少資料量?包括在公車上看「臉書」按個讚、透過App訂電影票、進辦公室前打開電腦收發電子郵件、在MSN上回覆客戶的訊息、到Twitter祝賀好友生日。原來,這些看似日常生活的瑣事,其實每一個動作都在不斷的產生新的資料量。

我們不斷的製造大量的資料,而這些資料能為我們做什麼?能幫助我們什麼?作者胡世忠在這本書裡收集了各式各樣產業應用層面,例如:有效挖掘資料、分析資料可以降低美國紐約市的犯罪率?透過分析手機SIM卡訊號,可以提高救災難的援效率?這些都是分析龐大資料所帶來的效益。

善用Big Data 能預測犯罪、營收提高、即時救援

舉例來說,書中提到,美國紐約市警局透過收集在全紐約76個警區電話和傳真的數據資料,進行系統分析後,將最新案件標示在各轄區地圖上的位置與代表的意義,再發布給全紐約的警局指揮官,去進行未來因應對策及警力的調配模擬,如此隔年就使得兇殺案下降了25%,車輛竊盜案下降了24%。

澳洲老牌維吉醬為了能再創品牌新生命,透過分析10.5億條社群媒體的訊息、以及47.9萬條在論壇與討論區的資訊,找到使用者最愛的新吃法,而成功讓銷量大增,還促使澳洲媽媽一次購買2罐維吉醬。

分析海量數據不但能找到目標客戶群,還能精準行銷。甚至幫助即時救援,書中提及,在2010年海地大地震,聯合國就追蹤海地人所持手機內部的SIM卡,分析出60萬名海地人逃離太子港之後的目的地,以達到即時救援,後來也是再次透過SIM卡追蹤,把藥品投放到正確地點,成功的阻止了疫情的蔓延。

海量資料 數位監控?還是社會助益?

原來我們每天按讚、PO照片、貼文等行為,都可以被拿來分析。其實寫到這裡,不禁讓我想起《全民公敵》的電影情節,在資訊時代裡,我們的一舉一動都不斷因產生資料而被記錄著,舉凡信用卡刷卡金額、購物的品項、瀏覽網頁的記錄、朋友分享的照片等。也正如書中最終提出的反思,海量資料是否如喬治歐威爾在《一九八四》科幻小說裡所描述的「老大哥」那樣,監控著人們、毫無隱私可言?

雖然作者在書中坦言,政府或企業若運用海量資料不當,稍一不慎的確與老大哥只有一步之差,但也不能因此而忽略了海量資料可能為醫療、公共安全領域帶來的社會益處。即使可能會產生「數位監控」的疑慮,作者仍勇敢的提出其觀點,作者無非是要主張,科技在人類文明演化過程裡的助益,海量資料其實是幫助國家、社會、企業尋找新價值,並以「科技中立」的論調作為本書之結尾。

本文同步刊登於《數位時代》週末書介專欄

  • 用Line傳送