
當人類的眼睛、耳朵,不再是唯一可思考和探索世界的工具
這 是『第一次』,人類的眼睛不是唯一可以用來思考和探索世界的工具。」Google雲端人工智慧暨機器學習首席科學家李飛飛說。寒武紀大爆發(Cambrian Explosion)是動物演化史中的劃時代事件,在5億4,100萬年前至4億8,500萬年前,其間動物種類大量出現,幾乎所有動物的祖先都在這時期現身。寒武紀大爆發的原因成為科學的謎團,一派學者認為是因為眼睛——這個形成圖像的器官所驅動的。久遠之後,另一個劃時代來臨:沒有生命的機器也可以看到甚至理解這個世界。



「電腦視覺的下一個發展重點,我認為是『視覺 + X』,不論是生物學可視化也好,還是醫療圖像等,視覺在這裡面都有巨大機會。」李飛飛說。在醫療領域,IBM 9 Watson Health(p.66)正努力成為放射科醫師的助手,給予醫師最後的診斷建議。在自駕車領域,電腦視覺技術成為自駕車之眼,2017年3月Intel以153億美元併購以色列公司10 Mobileye(p.68),Mobileye就是以電腦視覺技術聞名,從8 ADAS系統(Advanced Driver-Assistance Systems)(p.65)切入自駕車系統,Intel執行長柯再奇(Brian Krzanich)就直言,「收購Mobileye真正意義在於電腦視覺技術,其技術不僅可用在汽車,也可用在直升機、高端無人機與機器人等設備。」
而在安防監控領域,人臉辨識成為重心。中國的人工智慧獨角獸11 曠視科技(p.69),也是從電腦視覺技術起家,應用在5 1:N(p.61)的人臉辨識技術中,協助中國警方過濾人潮抓逃犯,目前估值超過20億美元。而影音內容辨識層面,台灣新創公司14 創意引晴(p.72)贏得騰訊與搜狐等平台信賴,幫助平台搜尋非結構化的影音內容。

除了電腦視覺領域,聽聲辨語的語音辨識以及閱讀並翻譯文字的自然語言處理(Natur alLanguage Process,NLP)也是非常活躍的1 感知智慧(p.58)領域。自然語言處理主要是讓電腦能夠妥善處理文字、語言,最終讓電腦可以理解自然語言。「再過幾年,使用語音與機器對話將成為非常自然的事情,人們甚至會忘記不能和機器對話的時代。」接受《華爾街日報》專訪的前百度首席科學家、現任Deeplearning.AI創辦人吳恩達指出。
而智慧語音助理成為兵家必爭之地,自從亞馬遜以語音服務6 Alexa Voice Service(p.62)後為核心,推出智慧音箱Echo後,Google與微軟等大廠也紛紛起而效尤,台灣15 威盛(p.73)也推出中文語音平台歐拉蜜。甫被微軟併購的加拿大公司12 Maluuba(p.70)則把觸角延伸到機器閱讀,要讓電腦也能像十歲孩童般讀懂《哈利波特》。除了科技巨頭,中國科大訊飛與美國Nuance在語音辨識領域表現優異,台灣則有13賽微科技(p.71)。


不過,就在語音與視覺等人工智慧應用欣欣向榮之際,市場傳出泡沫論。
趨勢科技全球資深研發副總暨人工智慧加速計畫主持人周存貹就指出,「AI領域的確出現投資過熱的吹捧現象,泡沫一定會發生。」台大電機系教授暨AI新創優拓資訊共同創辦人黃鐘揚也這麼指出,「兩年內AI產業可能會泡沫化,這是全球市場性的。」
在技術層面上來看,先討論語音領域,由於人類對於語音不僅有辨識需求而已,更有語言理解需求,但機器在語言理解的進展,還不夠聰明,無法像真人般對話,因此,在商業應用發展上速度沒有圖像領域來得迅速。舉例來說,現行人工智慧在語音互動層面,還沒有辦法突破3 雞尾酒會效應(Cocktail Party Eff ect)(p.60)等挑戰,不像人類在吵雜的雞尾酒會中,還是可以將注意力集中在某個音樂或與某人的談話上。而電腦視覺目前進展最大的是辨識層面,但要理解圖像的關聯,甚至是情緒、動作或意圖也還有一段路要走。而在投資層面,在中國與美國都出現團隊估值過高的現象。
