文/Jasmine

9月底香港所爆發的罷課與佔中社會運動,再次引起全球媒體的關注,看著電視台轉播,擠滿香港街頭的人群的畫面,總讓人想起今年台灣318太陽花學運當時,在立法院附近靜坐抗議的學生與民眾、330凱道遊行中有50萬人站出來。媒體每天在追補的就是數字的量,「量」代表這場運動的能量與能耐,也代表這個社會運動是才剛開始?還是已準備進入尾聲?

談到「量」,很容易讓人聯想起,這幾年一直被大家提到的一個名詞「巨量資料」(Big Data)。大約從2005年以後,全球所生產出的資料量就開始飛躍式的成長,各種資料隨著網路、社群、數位化等等各種形式與設備的演進,大量產生、大量累積。《大數據》的作者麥爾荀伯格(Viktor Mayer-Schönberger),就曾說:「如今大數據已經從量變產生質變,甚至也會改變人們思考事情的脈絡與研究方法。」

談巨量資料、大數據的專業書籍,從技術到趨勢比比皆是,關鍵評論網特別將網站上探討大數據的數篇文章集結成這本《大數據與太陽花》電子書,讓大家了解巨量資料有哪些應用。無論是在教育學習、疾病預測、甚至太陽花學運都可應用巨量資料分析,了解參與行為背後所代表的社會現象、價值觀。

例如,透過研究分析Google關鍵字可以預測流感下一個出現的地區,透過收集早產兒心跳數據,加以分析,可以即早用藥治療預防早產兒受到感染。大數據除了對疾病有預測、預防的功效之外,也對促進購買有助益,例如亞馬遜(Amazon.com)網路書店透過分析顧客購買商品的模式(patterns)與喜好,當顧客挑選某商品後,在下方透過「推薦購買」功能的方式,讓客戶願意再多放幾筆商品進入購物車。在成堆的資料裡,怎麼用數據去分析、去預測?麥爾荀伯格說:這就是透過巨量資料找到「相關性」。

巨量資料彼此之間的「關聯性」,比起過往我們習慣用「因果關係」來解釋事情,也許更具有對事件洞察透澈的面向。

例如,本書裡有一篇是台北大學社會系在太陽花學運期間,在立院四週進行問卷調查計畫,試圖想描繪出參與靜坐的人口圖像。透過四天的抽樣調查,共回收989份問卷,了解哪些人(學生或社會人士的比重)支持這場學運、以及澄清或回答某些人對運動參與者錯誤的想像。

例如,有人認為參與者通常不是來自自然領域的學生,這樣的說法在調查結果看來是稍稍偏離事實的,因為參與靜坐的有來自全國一百多所大專院校各科系的學生,包括:人文學門、工程學門、商管、藝術、醫藥等各科系,其餘參與的社會人士也是來自各行各業,並非只屬於某些領域。

巨量資料只是顯示「變化」,但不能告訴我們如何應對變化。如何在量的變化之間,找到關聯性,並加以利用,才能讓巨量資料發揮巨大的效能,並告訴我們資料背後所隱藏的秘密。

就像中研院歷史語言研究所研究員黃銘崇在本書中提到:巨量資料不僅只是看量大,還要包括資料的完整性,包括你和誰在一起、在哪一條街靜坐、待了幾小時、拍了哪些照片或影片、有什麼感想等。每一個個體的故事集合起來,就有數十萬個故事,而形塑了太陽花運動的歷史學巨量資料。在這些量與資料的背後,也許可以整理與分析出更多趨勢或現象,讓我們能更理解彼此。

Photo from Flickr CC by alcuin lai

《大數據與太陽花》(零元免費領取!)

  • 用Line傳送