5億4,100萬年前的寒武紀大爆發（Cambrian Explosion），物種大量出現，幾乎所有動物的祖先都在這時期現身，分類學中的動物門從3個快速增加到38個。有一派學者認為驅動寒武紀大爆發的原因是「眼睛」誕生，基於這個形成圖像的器官，讓動物得以解讀與應用這些圖像！現在，到了人工智慧時代，驅動著科技應用浪潮未來的電腦視覺突破，不僅將各種感知智慧的應用推向高峰，也預言了人類文明演革的下一個未來。

當人類的眼睛、耳朵，不再是唯一可思考和探索世界的工具

這是『第一次』，人類的眼睛不是唯一可以用來思考和探索世界的工具。」Google雲端人工智慧暨機器學習首席科學家李飛飛說。寒武紀大爆發（Cambrian Explosion）是動物演化史中的劃時代事件，在5億4,100萬年前至4億8,500萬年前，其間動物種類大量出現，幾乎所有動物的祖先都在這時期現身。寒武紀大爆發的原因成為科學的謎團，一派學者認為是因為眼睛——這個形成圖像的器官所驅動的。久遠之後，另一個劃時代來臨：沒有生命的機器也可以看到甚至理解這個世界。

近60年來，電腦視覺（Computer Vision，CV）科學家一直努力讓機器具備與人類相同的視覺，教導機器像人一樣理解所見之物，如辨識物品、辨認人臉、推論物體幾何形態，進而理解其中的關聯、情緒、動作及意圖，如1963年麻省理工學院研究生羅伯茲（Lawrence Roberts）的博士論文概述了電腦如何將3D物體分解成簡單的2D圖形，是現代電腦視覺研究先驅；1970年代晚期，麻省理工學院教授馬爾（David Marr）結合神經生理學和電腦科學後，提出電腦視覺的理論架構，又讓電腦視覺發展向前邁進一步。在應用端，電腦視覺最先被應用在「工業影像檢測」上，做機械或標籤檢測，幫助產業自動化，後來到延伸到車牌、指紋以及人臉辨識，但是，「過去半世紀從最初的『規則式專家系統』到近年『統計機器學習』，電腦辨識能力雖有長足進步，卻仍比不上可分辨貓狗的三歲孩童。」台大資工系教授林守德在〈深度學習的深度〉一文中指出。

真正讓電腦視覺領域有了大躍進，能力超越孩童的是深度學習（Deep Learning）技術，其中深度學習演算法： 2 卷積神經網絡（Convolutional Neural Network，CNN）（p.60）讓電腦辨識研究更上一層樓。有了新技術的加持，這些沒有生命的機器不僅可以看到世界、分辨貓狗，甚至還超越了人類的視覺能力，2015年微軟研究團隊在圖像辨識系統測試標竿4 ImageNet（p.61）中系統錯誤率已降低至4.94%，超越人類視覺能力，此前同樣的實驗中，人眼辨識的錯誤率約為5.1%。

自駕車、安防監控與醫學影像等「視覺＋X」領域正熱

「電腦視覺的下一個發展重點，我認為是『視覺 + X』，不論是生物學可視化也好，還是醫療圖像等，視覺在這裡面都有巨大機會。」李飛飛說。在醫療領域，IBM 9 Watson Health（p.66）正努力成為放射科醫師的助手，給予醫師最後的診斷建議。在自駕車領域，電腦視覺技術成為自駕車之眼，2017年3月Intel以153億美元併購以色列公司10 Mobileye（p.68），Mobileye就是以電腦視覺技術聞名，從8 ADAS系統（Advanced Driver-Assistance Systems）（p.65）切入自駕車系統，Intel執行長柯再奇（Brian Krzanich）就直言，「收購Mobileye真正意義在於電腦視覺技術，其技術不僅可用在汽車，也可用在直升機、高端無人機與機器人等設備。」

而在安防監控領域，人臉辨識成為重心。中國的人工智慧獨角獸11 曠視科技（p.69），也是從電腦視覺技術起家，應用在5 1：N（p.61）的人臉辨識技術中，協助中國警方過濾人潮抓逃犯，目前估值超過20億美元。而影音內容辨識層面，台灣新創公司14 創意引晴（p.72）贏得騰訊與搜狐等平台信賴，幫助平台搜尋非結構化的影音內容。

人們會忘記不能和機器對話的時代

除了電腦視覺領域，聽聲辨語的語音辨識以及閱讀並翻譯文字的自然語言處理（Natur alLanguage Process，NLP）也是非常活躍的1 感知智慧（p.58）領域。自然語言處理主要是讓電腦能夠妥善處理文字、語言，最終讓電腦可以理解自然語言。「再過幾年，使用語音與機器對話將成為非常自然的事情，人們甚至會忘記不能和機器對話的時代。」接受《華爾街日報》專訪的前百度首席科學家、現任Deeplearning.AI創辦人吳恩達指出。

而智慧語音助理成為兵家必爭之地，自從亞馬遜以語音服務6 Alexa Voice Service（p.62）後為核心，推出智慧音箱Echo後，Google與微軟等大廠也紛紛起而效尤，台灣15 威盛（p.73）也推出中文語音平台歐拉蜜。甫被微軟併購的加拿大公司12 Maluuba（p.70）則把觸角延伸到機器閱讀，要讓電腦也能像十歲孩童般讀懂《哈利波特》。除了科技巨頭，中國科大訊飛與美國Nuance在語音辨識領域表現優異，台灣則有13賽微科技（p.71）。

翻譯是自然語言處理的重要應用領域。2016年11月，G o o gl e藉由導入神經機器翻譯技術（Google Neural Machine Translation），讓7Google翻譯（p.64）僅需要一套系統就能完成多元語言翻譯，簡化了過去需要建構多個不同翻譯系統造成可觀的運算成本，Google翻譯產品經理卡蒂奧（Julie Cattiau）強調「神經機器翻譯降低相對誤差，讓機器翻譯的品質更接近譯者。」

不用擔心泡沫化，人工智慧已創造真正的市場價值

不過，就在語音與視覺等人工智慧應用欣欣向榮之際，市場傳出泡沫論。

趨勢科技全球資深研發副總暨人工智慧加速計畫主持人周存貹就指出，「AI領域的確出現投資過熱的吹捧現象，泡沫一定會發生。」台大電機系教授暨AI新創優拓資訊共同創辦人黃鐘揚也這麼指出，「兩年內AI產業可能會泡沫化，這是全球市場性的。」

在技術層面上來看，先討論語音領域，由於人類對於語音不僅有辨識需求而已，更有語言理解需求，但機器在語言理解的進展，還不夠聰明，無法像真人般對話，因此，在商業應用發展上速度沒有圖像領域來得迅速。舉例來說，現行人工智慧在語音互動層面，還沒有辦法突破3 雞尾酒會效應（Cocktail Party Eff ect）（p.60）等挑戰，不像人類在吵雜的雞尾酒會中，還是可以將注意力集中在某個音樂或與某人的談話上。而電腦視覺目前進展最大的是辨識層面，但要理解圖像的關聯，甚至是情緒、動作或意圖也還有一段路要走。而在投資層面，在中國與美國都出現團隊估值過高的現象。

不過，我們不用擔心這次的泡沫化來臨，因為人工智慧已經創造真正的價值，和2000年的網際網路泡沫化有很大差異，而過去人工智慧雖然也經歷兩次泡沫階段，這次的應用爆發和過去兩次也明顯不同。「前兩次人工智慧熱潮是學術研究主導的，這次是現實商業需求主導的；前兩次多是市場宣傳層面的，這次是商業模式層面的；前兩次是學術界遊說政府和投資人投錢，這次是多是投資人主動向學術和創業專案投錢；前兩次熱潮多是提出問題，這次更多是解決問題。」創新工場董事長李開復在《人工智慧來了》一書的論述就是最好的註解…返回商管雜誌網頁

快讀

AI定義新時代【封面故事-數位時代】

當人類的眼睛、耳朵，不再是唯一可思考和探索世界的工具

本文摘錄自‎

AI定義新時代

數位時代

2017/7月第278期

相關

當人類的眼睛、耳朵，不再是唯一可思考和探索世界的工具

本文摘錄自‎

AI定義新時代

數位時代

2017/7月 第278期

相關

相關文章

2017/7月第278期