"Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it." -Dan Ariely
這句話實在是說的太貼切了,為了要了解大家都在談論的"Big Data",買了這本書來看一下吧!
不知道大家會不會有和我一樣,害怕"大家都知道只有自己不知道"的這種感覺
大概是我有迫害妄想症吧XD
所以為了要讓自己在各個領域都能插上一嘴,只好盡我所能的多吸收各式各樣的知識囉!
大數據,一個大家都在說,卻沒幾個人了解的東西,就讓我們來一窺究竟吧!
大數據的作者是Viktor Mayer-Schonberger 和 Kenneth Cukier
Viktor是牛津大學網路研究所的教授,並且擔任微軟和世界經濟論壇等的顧問,公認為是大數據領域的權威
Kenneth是經濟學人的編輯,也是大數據思潮的評論員,經常於各期刊發表文章
本書的架構如下,首先解釋巨量資料與舊有資料的差異、接著分析巨量資料的應用和價值、最後談到巨量資料的風險和管控
CH.1~4
本書的前面四章提出了三個大數據的顛覆: 1. 樣本=母體 2. 資料的雜亂 3. 相關性比因果關係重要
Big Data 大數據,又稱為巨量資料,然而巨量指的不是資料的數量,而是資料的完整性。在以前,一般都是用隨機抽樣的方式收集資料,然而現在因為電腦處理各項數據的能力已經大為進步,我們已經可以駕馭大量資料,所以巨量資料最簡單的定義就是,樣本=母體 的資料。
傳統的抽樣分析專家在蒐集資料的時候會致力於降低錯誤率,並且在公布結果之前還會再測試樣本避免偏差,而這樣的精確度要求使得成本也變得相對高昂。在巨量資料的世界裡,資料的數量比資料的品質更重要。以語言翻譯為例,IBM是製作翻譯機的先驅,IBM投入大筆資金,並且著力於翻譯的正確性,但進展卻不大,最終IBM只好放棄,直到2006年Google進入翻譯領域。IBM當初的系統用的是三百個精心翻譯的句子,而Google用的是數十億個翻譯的網頁,品質高低不一,然而,雖然這些資料有些雜亂,但Google的服務效果卻是好得出奇。
所以說,當我們對於誤差值的容忍度越高,我們就能獲得更多的資料。資料的雜亂可分為三大部分:1.資料的正確性、2.資料的相容性、3.資料的格式,由於這些的改變,使得現在資料庫軟體的設計也有了一個新的革命,由於現在科技的進步,我們的資料庫已經得以處理和分析這些雜亂的資料!
巨量資料其中一個核心概念就是"我們不需要為何如此,只要知道正是如此就好了"。想知道因果關係,必須要做許多實驗才能證明,但是相關性只需要數學模型,相關性的分析比因果分析更快速又節省成本。2009年爆發H1N1危機的時候,在美國,疾病管制局要求醫生一碰到新流感病例就必須馬上通報,即便如此,通報的速度還是比病毒慢一步,畢竟當民眾身體不舒服之後,通常會過幾天才就醫,而層層通報到疾管局也需要時間,但是面對迅速蔓延的疫情,即便只是一兩個星期也像是拖了一個世紀。然而在當時,Google有一群研究人員挑出美國人最常使用的前五千個搜尋字眼,再與美國疾管局在2003-2008年間的流感傳播資料作比對。Google的想法是希望藉由民眾在網路上搜尋的關鍵字找出那些感染了流感的人。他們總共用上了高達四億五仟萬種不同的數學模型,針對搜尋字眼的搜尋頻率,找出和流感傳播的時間和地區的相關性。他們最後找出一組共45個搜尋字眼,預測結果和官方公布的全美真實資料完全符合,於是他們就像及管局一樣能掌握疫情,但可不是一、兩個星期之後的事,而是幾近即時同步!
CH.5: 資料化:當一切成為資料,用途無窮無盡
#資料化不等於數位化。要將某個現象資料化,指的是將他以量化格式呈現,以便整理分析;而數位化指的是將類比資訊轉為二進位的0與1,在1990年代我們數位化的內容多半是文字,而最近連圖片、影片等也可以數位化了。
#文字資料化。像是Google利用了書籍掃描專案所取得的資料化文本,改善了他們的機器翻譯成效,利用電腦來計算,找出A語言和B語言之間的最佳字詞。
#位置資料化。舉例來說,UPS以多方面的使用地理位置資訊,在每台公司車上都有感測器、無線電和GPS,靠著過去送貨的資料數據,能找出最佳送貨路線,UPS在2011年時的送貨里程大幅減少了4800公里,相當於省下了300萬加侖的油料!
#人際關係資料化。賓州大學的生物學家和軟體工程師分析推特推文,發現民眾對於接種疫苗的態度與他們實際接種流感疫苗的可能性相符,發現未接種疫苗的人可能會構成具有獨特模式的子群體,而這樣的情感分析能夠預測健康的行為。
CH.6~7: 巨量資料的價值和蘊含:不在乎擁有,只在乎充分運用
資料的選項價值: 1.重複使用資料(同一份資料可用於不同用途)2.重新組合資料(在巨量資料時代,整體資料比部分資料有價值;結合多個資料集的最終價值也會大於原本分散的各個資料集)3.讓資料買一送一(在蒐集資料的一開始就加入可延伸的設計,像是有些店家會調整監視器角度,一方面可以抓小偷,另一方面可以觀察消費者的消費行為)
資料廢氣也有價值,像是當用戶告訴語音辨識它出錯了,其實就是在訓練這個系統不段改進。
資料價值鏈的三大環節就是:1.資料持有人(這些人可能不是最初蒐集資料的人,但現在握有資料存取權) 2.資料專家(這些個人或公司擁有相關專業知識或技術,能夠進行複雜的分析) 3.有巨量資料思維者 (這些人的長處在於他們能比別人早一步看到機會,他們看的是可能性,而不會受到可行性的限制)
CH.8: 巨量資料的風險
#麻痺的隱私保護:在巨量資料的情境中,過去已經成為標準作法的"通知用戶、取得同意",現在已經變得不是太嚴格,無法挖掘資料的潛在價值;就是太空泛,無法保護個人隱私。
#去人性化的武器:賓州大學統計暨犯罪學教授的方法可以預測某個犯人獲得假釋後是否會涉及凶殺案,他這個預測正確率高達75%。但是這樣一來就是從根本上推翻了無罪推定的原則,而大正式法律制度和公平正義的基礎。如果我們要民眾為那些預測會作但實際未做的是負責,等於否定了人類有道德選擇的能力。
#眼中只有數字的官僚:1950年代初期,福特汽車的高層由分析數據中看出舊車款的零件庫存金額太高,所以下了一道指示,要求必須先將舊車款的零件用完,才能開始製造新車款,這讓生產線經理非常不滿,決定把所有多餘零件全部倒入河裡解決。接著領班把這數據拿給公司高層,高層看到舊零件果然沒了,十分滿意...
#資料獨裁:資料獨裁指的是任由資料來管控我們,造成的傷害絕不下於資料帶來的好處。
CH.9:巨量資料的風險管控
這章節提出了三大管控策略:
1.由資料使用者負起個資保護責任:將個資法的內涵從"個人同意制" 改成 "使用責任制"
2.保障每個人的能動性:就是個人能夠、也應該位其行為負責,但不用位過去的習性、或資料預測的習性負責。這就是為了要確保政府對人民的判斷是基於實際的行動,而非巨量資料分析的預測。
3.培養演算學家
#外部的演算學家:這些人的身分就是公正的審計官、稽核師,在政府要求的時候要出面負責審查巨量資料是否準確有效。
#內部的演算學家:這些受僱於企業的員工要維護公司利益,也要維護那些受到巨量資料分析影響的人,如果任何人覺得因為該企業的巨量資料預測而受到影響,也是先和這些內部演算學家聯絡。
CH.10: 未來
巨量資料是資源、是工具、也是一種思維,雖然巨量資料能夠帶給我們前所未有的發現,但我們仍需培養人性特質:直覺與創造力,並且不過分依賴巨量資料,因為他只是目前夠好的最佳選擇,使用工具的同時勿忘謙卑與人性。
看完這本書之後有兩個很深的感受:
1. 還好我有看這本書,不然都不知道原來自己每天的行為都被這些大企業紀錄著、使用著。雖然也許自己也無法作任何改變來避免自己的行為被紀錄、被預測,但我想至少"了解"是一件很重要的事!
2. 很佩服本書的兩位作者,因為他們非常深入淺出的介紹了大數據,藉由和傳統的數據資料的比較和舉例,讓我更了解什麼是大數據,而更重要的,作者也不是單單推廣大數據的重要,最後也花了很多的篇幅告訴讀者大數據的風險和該如何保護民眾。
大數據不只是一個資料應用的方法,也是一個思維,不只是研究人員或商業人士需要了解,每天都受到巨量資料影響的我們,當然也要知道!看完這本書讓我重新審視自己看待事情和判斷事情的方式。
