大數據 Big Data:A Revolution That Will Transform How We Live, Work, and Think

樣本=總體 / 允許不精確 / 「是什麼」比「為什麼」還重要 / 大數據時代的商業變革 / 全息社會

cover

最近,Big Data這個詞相當的紅,但是對於這個詞我們還是有很多的誤會,一個常見的疑問是,究竟多大才可以稱得上是大數據呢?事實上,我接下來要介紹的這本書告訴你,大數據多「大」不是重點,重點是你怎麼看待和處理數據。

大數據」這本書分為三個部分,在第一個部分,作者為讀者介紹大數據的三大思維變革,包括:採用全體數據取代抽樣數據、容忍資料的混雜特性、「是什麼」比「為什麼」還重要,第二部分則在講述大數據如何改變了商業、市場和社會的本質。第三部分在探討大數據會對人類產生什麼不好的影響,而我們如何去避免。本篇我主要著墨於第一部分和第二部分。

樣本=總體

大數據是指不採用統計「隨機採樣」這樣的捷徑,而直接處理所有的數據。

在資料分析中,如果要研究的對象(母群體)非常的龐大、資料量非常大,我們通常會採取「隨機採樣」來處理,這條捷徑在處理特定問題非常成功,也因此它成為現代社會、現代測量領域的主要路數,但這方式存在著一些缺陷。

「隨機採樣」的缺陷之一是無法瞭解更深層次的細節。在宏觀領域起作用的方法在微觀領域失去了作用。隨機採樣就像印象派的畫作一樣,遠看很不錯,可以看見整個整體趨勢,但是一旦聚焦於某一點,就會變得模糊不清。

另外,「隨機採樣」還有一個缺陷是缺乏延展性,人們只能從採樣數據中得出事先設計好的問題的結果——千萬不要奢求採樣的數據還能回答你突然意識到的其他問題,也就是調查得出的數據不能夠重新分析以實現計劃之外的目的。

不過,在目前這個技術和資訊爆炸的時代,我們訊息量的增長速度比世界經濟的增長速度快4倍,而電腦數據處理能力的增長速度則比世界經濟的增長速度快9倍,也因此我們有更充沛的資料和處理資料的能力,所以是時候應該丟棄以往的「隨機採樣」,而直接採用「樣本=總體」的方式。

Xoom是一個專門從事跨境匯款業務的公司。2011年,它注意到用「發現卡」從新紐澤西州匯款的交易量比正常情況多一些,系統於是啟動警報。Xoom公司的CEO John Kunze(約翰·孔澤) 解釋說:「這個系統關注的是不應該出現的情況。」單獨來看,每筆交易都是合法的,但是事實證明這是一個犯罪集團在試圖詐騙。而要能發現異常的唯一方法是,需要檢查所有的數據,找出「隨機採樣」分析法所獲取不到的訊息。

另外一個例子,Lytro相機,它把大數據運用到了基本的攝影中。與傳統相機只可以記錄一束光不同,Lytro相機可以記錄整個光場裡所有的光,可以達到1100萬束之多。具體生成什麼樣的照片則可以在拍攝之後再依照需要決定。用戶沒必要在一開始就聚焦,因為該相機可以捕捉到所有的數據,所以之後可以選擇聚焦圖像中的任一一點。

大數據所謂的「大」,並不是指數據量有多大,而是指如何處理數據的方法,直接處理「樣本=總體」,而非傳統的「隨機採樣」,我們將得到更多的細節,做更多的事。

允許不精確

對於採取隨機取樣的小數據而言,保證每筆資料的質量是相當重要的,為了使結果更加準確,很多科學家都致力於優化測量工具。不過,面對大數據的時候,我們可能增加不少不正確的資料,正因為我們無法逐一的檢查,甚至在資料的格式上也難以統一,因此大數據本身就具有混雜的特性。

不過這混雜所造成的不準確也可以因為數據量大而彌補,事實上,大數據的簡單演算法比小數據的複雜演算法更為有效,舉個例子,在冷戰時期,美國掌握了大量關於蘇聯的各種資料,但缺少翻譯這些資料的人手。所以,計算機翻譯也成了急需解決的問題。那個時候的科學家想藉由結合文法規則和字典來創造一個翻譯機器, 最後卻失敗了,他們發現機器翻譯不能只是讓電腦熟悉常用規則,還必須教會電腦處理「特殊的」語言情況。畢竟,翻譯不僅僅只是記憶和複述,也涉及選詞,而明確地教會電腦這些是非常困難的。

時間拉回到現代,Google翻譯則採取另外一種方式,Google翻譯系統不由程式設計師直接告訴計算機要怎麼做,而是靠著資料來訓練計算機學習怎麼做,計算機會盡量吸收它能找到的所有翻譯文本,從各式各樣語言的公司網站上尋找對譯的文檔,還會去尋找聯合國和歐盟這些國際組織發佈的官方文件和報告的譯本,藉由這大量的數據去預測對譯詞語應該是什麼,然而儘管其輸入來源很混亂,但相較於其他翻譯系統而言,Google的翻譯質量相對而言還是最好的

要想獲得大規模數據帶來的好處,混亂應該是一種標準途徑,而不應該去竭力避免,不過數據量一旦大,這些混亂所帶來的不精確將被彌補。

「是什麼」比「為什麼」還重要

大數據利用數值方法,他可以看到人類不容易看出來的相關性,兩件事雖然擁有相關性,但並不代表他們擁有因果關係,但是在大部分時間裡,相關性比因果關係更為重要。

美國折扣零售商塔吉特(Target)使用大數據的相關性分析已經有很多年了。《紐約時報》的記者杜西格(Charles Duhigg)就在一份報道中闡述了塔吉特公司怎樣在完全不和准媽媽對話的前提下預測一個女性會在什麼時候懷孕。塔吉特公司注意到,資料上的婦女會在懷孕大概第三個月的時候買很多無香乳液。幾個月之後,她們會買一些營養品,比如鎂、鈣、鋅。公司最終找出了大概20多種關聯項目,這些關聯項目可以給顧客進行「懷孕趨勢」評分。杜西格在《習慣的力量》(The Power of Habit)一書中講到了接下來發生的事情。一天,一個男人衝進了一家位於明尼阿波利斯市郊的塔吉特商店,要求經理出來見他。他氣憤地說:「我女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優惠券,你們是在鼓勵她懷孕嗎?」而當幾天後,經理打電話向這個男人致歉時,這個男人的語氣變得平和起來。他說:「我跟我的女兒談過了,她的預產期是8月份,是我完全沒有意識到這個事情的發生,應該說抱歉的人是我。」

在上述的例子,我們雖然不見得可以找出這20項關聯項和懷孕之間的因果關係,不過他們確實相關,所以我們可以用來預測。有些時候我們只需要知道「是什麼」就夠了,沒必要知道「為什麼」。

大數據時代的商業變革

Matthew Fontaine Maury是一位前途看好的美國海軍軍官,1839年,卻意外的出了車禍,使得他無法繼續在海上工作,不過危機就是轉機,在近三年的休養,美國海軍將他安排進辦公室,讓他負責修復陳舊的圖表和儀器,他在其中挖到了寶,那是一批航海日記,日記裡頭詳細的記載了特定時間在特定地點的風、水和天氣狀況,Maury意識到如果把這些資料整理起來,將會呈現一張全新的航海圖,這些數據將會比大家口耳相傳的經驗還有用,後來也證明Maury是對的,這資料幫助船長們省去了三分之一左右的航程,後來全世界第一條跨越大西洋的電報電纜也是建基在這個基礎之上。

數據就像是一座鑽石礦,透過分析我們可以將其中的鑽石給掏出,事實上這金礦無所不在,數據可能藏於書籍或網路文本、數據可能藏於方位、數據可能藏於溝通網絡、數據可能藏於微型運動感測器,仔細留意,數據幾乎無所不在,什麼都可以量化,有了大數據的思維,我們不會再把世界看成只有單純是自然現象或是社會現象,我們會意識到世界的本質就是由眾多信息所構成的,而這會帶來的是一場商業上的變革。

作者認為大數據時代,依照提供價值不同,分別會出現三類的大數據公司,第一種是擁有大量數據的公司,第二種是擁有技能挖掘數據的公司,最後一種是提供嶄新大數據思維的公司,能從數據中創造出意想不到的價值,第三種是作者最為推崇的,作者列了幾種數據創新的方法。

作者提了五種數據創新方法,第一種是數據再利用,有許多數據因為儲存成本低而被保存下來,不過沒有被充分的利用,數據科學家稱之為「數據墳場」,從這墳場中我們可以盜到很多的寶,就像Maury從航海日記撈出了許多有用的資訊一樣。

第二種是數據間的整合,丹麥同時擁有從1985年起的手機用戶數據庫和該國所有癌症患者的資訊,有人想到如果整合這兩者資訊,研究人員可以研究手機用戶是不是比非手機用戶顯示出更容易得癌症,最後,研究結果沒有發現這兩者存在著相關性。

隨著大數據的出現,數據的總和比部分更有價值。當我們將多個數據集的總和重組在一起時,重組總和本身的價值也比單個總和更大

第三種是具可擴張性的數據,要使得數據可以一再的利用,我們必須在一開始就設計好他的可擴張性,也就是要盡可能的一次蒐集所有資料齊全,舉個知名的例子,Google街景拍攝,其備受爭議的街景汽車不僅僅拍攝房屋和道路的照片,他還同時採集了每個位置的GPS數據,甚至還加入了無線網路名稱的蒐集,一輛Google街景車每時每刻都在累積大量的各方面的數據,而這些資訊可能在目前用不到,不過未來的某天可能會用到,花一次的錢可以得到更多的好處。

第四種是必須考慮數據的折舊,譬如你在亞馬遜十年前買一本書的資訊,一定不會比昨天剛購買的資訊重要,所以資料還必須考慮它隨時間下降的重要程度。

第五種是數據廢氣能回收再利用,什麼是數據廢氣呢?

一個用來描述人們在網上留下的數字軌跡的藝術詞彙出現了,這就是「數據廢氣」。它是用戶在線交互的副產品,包括瀏覽了哪些頁面、停留了多久、滑鼠光標停留的位置、輸入了什麼信息等。許多公司因此對系統進行了設計,使自己能夠得到數據廢氣並循環利用,以改善現有的服務或開發新服務。

Google就是這方面的高手,例如錯誤拼寫校正,Google擁有世界上最完整的拼寫檢查器,基本上涵蓋了各種語言,而且Google幾乎免費的獲得這種能力,它依據每天處理的30億個錯誤拼寫的查詢,一個巧妙的反饋系統可以讓用戶告訴Google他其實是想輸入什麼字,當搜尋頁面頂部顯示「你要找的是不是:流行病學」時,如果是的話,你將會點選並讓Google了解你真正想查的字詞,原本輸入錯誤這樣的數據廢氣卻被巧妙的回收再利用來優化它的系統。

全息社會

大數據正在慢慢影響這個社會,包括我們的知識取得方式,包括我們的社交活動,甚至在未來會決定人類很多的決策,大至公司策略發展,小至個人理財規劃,確實,大數據和機器學習的引入可能會取代掉許多目前的工作,不過也同時會創造更多新的工作內容,讓人類可以盡情發揮潛能,把更多的精力放在創造之上,如果亨利·福特問大數據他的顧客想要的是什麼,大數據將會回答,「一匹更快的馬。」在全息社會中,包括創意、直覺、冒險精神和知識野心在內的人類特性的培養顯得尤為重要,人類的進步正是源自我們的獨創性。