由於近年人工智慧受到關注,對數學、統計、電機和人工智慧相關學科畢業生的需求也愈來愈多,不少大學紛紛設立「數據科學與人工智慧」(Data Science and Artificial Intelligence)之類的雙主修課程。比如新加坡的南洋理工大學最近就預計投入400萬美元進行相關教育與研究,而計算機科學與工程學院在未來5年內,更會增聘4成的教職員。
我認為,大數據的確有潛在商機,產業與大學因應供求而動員改革也不是壞事。以下想討論的是:為何偏偏大數據會被看上,用來號召學生、學校、企業組織和政府推動?也想分享研究者如何討論大數據的可能價值與潛在風險。
從資料中來,從資料中去
暢銷書《大數據》一書的兩位作者,麥爾荀伯格(Viktor Mayer-Schönberger)是牛津大學網路研究所教授、庫基耶(Kenneth Cukier)則是《經濟學人》雜誌資料編輯,他們說明:世界上的資料正在急速增長,數量超過機器所能處理。巨量資料需要達到足夠規模才可成事,從科學與社會帶來改變,然後會改變我們的生活、互動與思考方式。
以往的統計學要求隨機抽樣,但大數據不再需要抽樣,而資料數量比品質重要。即使雜亂無章、重複廢棄的資料,也能用來分析。拼字軟體便是這樣起家的。書中「ReCaptcha」這個例子便說明,每個人的文字輸入,都是無償在為科技企業認字。而Google「彷彿有一條數位生產線,一端輸入原始資料、一端輸出經過處理的資訊,資料儼然成為新的生產要素之一」,其核心業務就是從資料中來的。
按該書分析,資料持有人、資料專家、巨量資料思維者可有不同立場,並從中獲得不同的價值。資料持有人比如ITA和MasterCard,他們坐擁大量的機票和信用資訊,大可蒐集資料、出售數據分析。書中認為,巨量資料的價值在於使用而非擁有,因此鼓勵授權給第三方,將資料開放供人汲取最大價值。原始資料則要保留,以後可以合併、重組,規模愈大,企業就愈強。
新技術改變,商業模式也得改變配合,這便是未來經濟動力之所在。利用層層疊疊的大數據為典範指引,以往的科學、經營和生產模式都會有所不同。產業當然想要更佳的經營環境和更便利的政策,而個別企業亦想透過從引進或開發產品來增加銷售額。

大數據發展的潛在風險
大數據以新科技號召創新,可是個人的就業收入和生活水準不一定受保障,而且社會運作既需要光明願景,亦需要良善的規則。光有大數據並不足以照亮所有人,相反的,可能只會將光環交給手拿令牌的少數人。大數據背面的風險,依舊需要我們關注。
第一,大數據技術可能侵害隱私。雖然大數據分析大多試圖匿名化,將姓名、地址、信用卡號碼、出生日期、身份證號碼刪去,而且要獲得同意才會徵集資訊,有必要時可以選擇退出。但是由於數據量巨大,重新識別身分亦不難,包括從社交圖譜中的連結來找出線索等等。當然,麥爾荀伯格和庫基耶不完全信奉大數據至上,他們亦認為大數據會改變隱私界線,現時的法律可能失守,而需要按時代調整,以面對大數據帶來的隱私問題。
第二,大數據技術可能損害個人自主。大數據支持下的經濟會發展出另一套經營方式,來提供交易與產銷合作。未來許多事情可能未必是按照個人判斷,而是聽從大數據、物聯網、智慧網路等安排。當生活和工作由技術來主導,個人很可能因此降低了自主空間。
第三,大數據技術可能帶來權力過度集中。數據主義(dataism)之下,機器學習形成前所未見的複雜系統,更進一步鼓勵引入數據,以演算法持續控制資料。人類也可能面對數據監控和預測未來,而使得自由、平等受到威脅。如同歷史學家哈拉瑞(Yuval Noah Harari) 所說,數據主義可能成為我們的新神明(Dataism is Our New God)。而人類學家斯科特(James Scott)在《國家的視角》一書中,也從歷史中發現國家使用資料可強化權力,但是資料獨裁也有其危險之處。
第四,大數據技術可能加速氣候變化。前文討論人工智慧與環境、權力和正義攸關,其實現時科技巨鯨的利潤是從搾取公共資助、自然資源和人工勞動而來,大數據所依賴的科技亦如是。現時大型語言系統對電腦硬體已是挑戰,未來對電腦規格的要求只會愈來愈高,並加速開採稀土資源與環境破壞。
因此,研發大數據或許得益甚豐,可以帶來新的未知價值,只是我們仍不知道這背後的代價是什麼,以及同樣未知的潛在風險。比如以為運用大數據能改善生產,卻沒想到可能會破壞環境、造成勞動力過剩。我們需要正確認識大數據的正反兩面,在大數據口號下登場的培訓教材、認證考試、學位和就業機會愈來愈普及之時,不可忽略其技術對世界萬事萬物的影響。
分享圖文請註明出處,未經本站同意不得轉載
瀏覽次數:1668