一套台語語料庫、三萬小時鄉土劇 助攻臉書AI翻譯
當Meta全力衝刺元宇宙的過程中,一個研發成果意外讓台灣躍上國際版面。由Meta執行長親自示範、美國人也能開口說閩南語的系統,這背後是如何借助台灣的科技人才做到的?
撰文‧譚偉晟
你能想像臉書創辦人、現為Meta執行長的祖克柏(Mark Zuckerberg),能聽講台語(閩南語)嗎?十月十九日,他透過一段影片,向全球秀了一段堪稱是「軍火展示」的技術,讓這位在美國土生土長的企業家,能在對話的當下,不僅能聽懂閩南語,甚至透過電腦說出「遮實在是真讚」(這真的是很讚)。
這則後來在十天累積二十萬次觀看、近三萬次分享的影片,讓多數人驚豔Meta在語音辨識的技術,已進步到閩南語這種全球僅千分之三人口使用的小眾語言;然而,鮮少人知道這項技術的背後,是靠著三位台灣人。
這個讓臉書能英語、閩南語雙向翻譯的起心動念,源自於Meta一直在追求更多人使用它的社群網站,打破語言的屏障,讓用戶自由使用自己的母語,就是它的手段。於是,它在二○二○年投入翻譯AI(人工智慧),特別是少數語言, 與缺乏文字的語言,「 例如富拉語(Fula),這個在西非和中非使用的語言。」祖克柏表示。
在祖克柏「秀台語」影片中,與他對話的Meta軟體工程師陳鵬仁,就是這個翻譯團隊的成員。他在十月二十六日告訴台灣媒體,當時在眾多語言中選擇閩南語,是因為團隊中有不少台灣人,可以針對閩南語翻譯結果快速調整,「對開發速度會有很多幫助,這就是我們選擇閩南語的原因!」
▲陳鵬仁提供
《Profile》陳鵬仁
出生:1984年
現職:Meta軟體工程師
學歷:台灣大學資訊工程學系碩士
技術到位 就缺語料訓練AI
高中讀建國中學,後來進入台灣大學攻讀資訊工程學系,一路拿到碩士學位的陳鵬仁,在一二年就飛去美國,加入Meta這家當時還叫做臉書(Facebook)的公司。一開始,他的工作就是負責你經常在臉書PO文用到的功能,譬如打卡,「(系統)要推薦哪些地點,這都需要用到(AI)機器學習的模型。」
他在臉書工作到二○年,Meta開始籌備罕用語言的翻譯計畫,讓陳鵬仁有了出頭的機會。當年,本身對AI充滿熱情,並會說閩南語的他,與十名同事被公司內部選中,針對閩南語AI翻譯進行開發。
關於陳鵬仁對AI的熱情,他的碩士論文指導老師、台大資工系教授林智仁說,雖然陳鵬仁畢業多年,不過至今仍會與他請益AI,而AI看似是一項酷炫的科技,但開發過程其實非常需要耐心, 而這點,也是陳鵬仁的特質。林智仁回憶陳鵬仁還是研究生時,「面對複雜的數學推導,他都非常有耐心完成。」
▲廖元甫提供
《Profile》廖元甫
出生:1968年
現職:陽明交通大學智能系統研究所教授
經歷:飛利浦資深研發工程師、工研院資訊與通訊研究所技術顧問、台北科技大學電子工程學系教授
學歷:交通大學電信博士
▲李宏毅提供
《Profile》李宏毅
出生:1986年
現職:台灣大學電機工程學系副教授
經歷:中央研究院資創中心博士後研究員、MIT 電腦科學暨人工智慧實驗室客座科學家
學歷:台灣大學電信工程學研究所博士
有台語語料庫助攻 一年完工
然而,即使對AI有滿腔熱血,並不代表不會遇到困難。開發初期,陳鵬仁很快就發現,Meta雖然有滿手的技術,卻一直無法開發出閩南語AI,原因就在於訓練AI用的數據,也就是閩南語語料,在美國當地難以取得。
為了解決陳鵬仁口中的「第一大難題」,他與他的團隊,開始把腦筋動到美國以外的國家,並且看到了台灣。個中關鍵,不只是台灣是說閩南語的人口最密集國家,更重要的是,台灣還擁有一個內容完整,且能合法授權的台語語料庫。
這件事情,就與另一人有關,他就是讓「臉書說閩南語」的第二個台灣人——陽明交通大學智能系統研究所教授廖元甫。
二一年七月,Meta團隊找上廖元甫,希望能使用由其團隊耗時超過三年、語音總時長達三百小時的台語語料庫,「當時我收到一位(Meta)高小姐的信,說對我們的語料庫有興趣,並問我台灣還有哪些較大型的台語語料庫。」廖元甫向《今周刊》表示,後來雙方的合作,從該年十一月正式啟動。
這個被Meta看中的台語語料庫,是廖元甫從一八年十月起建立,目標要收集人數達六百位台灣人所說的台語語料庫。他說,做這個資料庫的初心,是為了拯救台語,因為他在當時注意到,台語雖是最多台灣人說的第二種語言,竟然完全沒有資料庫保留下來。
「很多語言承載的是先民的智慧與經驗,當(語言)斷掉後,這些經驗就沒了。」於是他發現,台語就處於這種即將斷根、走向凋零的狀態,「 有句話是這樣講的,『台語在住院,客語在加護病房……。』」尤其,台語在台灣的使用人口已經低於三分之一,「二十歲以下幾乎找不到(會說台語的人)。」
廖元甫為了留下台語,開始接觸各大專院校的台語專家, 尋找熟悉台語的民眾,並邀請這些人到各校錄音室錄音;不僅如此,為了完整收集聲音資料,「要用六支麥克風去錄,模擬對著手機、電腦、智慧音箱講話的方式。」他說。
這個計畫困難之處,不只是要找到會說台語的人,廖元甫說,更需要花心力的是如何把錄到的聲音,與逐字稿一字一句做對應並標記,「(錄音的時候)不見得都會念對,必須要重念,或是改文字。」因此,他的團隊用逾一年時間完成錄音後,再花了兩年多的日子做資料整理,直到在今年五月才完成。
這個資料庫等同工程師編寫AI的基礎建設,「有了資料,AI才能做起來,所以像Meta進來後,一年就開發出來(台語AI)。」廖元甫說。
▲在Meta的閩南語AI翻譯系統展示影片中,陳鵬仁用閩南語和Meta執行長祖克柏展開對話,該影片獲得近3萬次的分享。取自Mark Zuckerberg臉書
非督導學習 加速辨識效率
不過,台灣提供不只是基礎建設,Meta在語音AI的訓練效率提升,台灣也出了一份力,而背後的關鍵人物,同時也是讓臉書說閩南語的第三位台灣人,就是今年初與Meta展開合作的台大電機工程學系副教授李宏毅。
「Meta研究人員說在電視上看到我,我在裡面有講語音辨識……。」同時也是台灣AI界知名YouTuber李宏毅口中說的「電視」,就是才剛拿下金鐘獎的科普影片《下一步,AI。NEXT,愛》。
事實上,李宏毅在台灣可說是台語AI的先驅,不僅他所主持的台大語音處理實驗室,是最早投入語音辨識的研究機構之一,早在五年前,他即著手開發台灣第一套台語AI辨識系統。
這套系統,其實是李宏毅本來要拿來角逐科技部主辦的「 科技大擂台」競賽,但比賽細則出來後,卻沒有台語AI的比賽項目,「反正是我們想要做的項目,我們就繼續進行。」最後在競賽結束後的交流活動上,他首次展示台語轉中文的AI翻譯系統,這成為台語翻譯系統發展的一個起點。
「後來我的實驗室成員出去,也有人繼續把語音辨識做起來,像是『雅婷逐字稿』就能翻譯台語。」李宏毅說。
一八年,李宏毅注意到新的AI訓練技術——使用無標記數據的方法崛起。他解釋,過去因為每項資料都要標記,導致AI訓練時程冗長且繁瑣,有了新技術後,就能夠省去大量的時間,「就像教小孩一樣,讓機器看三萬個小時連續劇,沒有人告訴它裡面台詞的意思,但它可以有很好的理解。」
這個新的訓練方式,讓李宏毅帶領台大語音實驗室,開發出世界上第一個「非督導式」學習的語音辨識,並在今年初吸引Meta與他合作,成為前者開發語音AI技術的重要基礎。
在Meta的閩南語AI翻譯系統,李宏毅的團隊也協助蒐集總時長高達三萬個小時的鄉土劇語料,「這當中有些有字幕、有些只有聲音。」
「 我們跟台大李宏毅教授、陽明交大廖元甫教授合作,他們的語料庫,對這次(Meta的閩南語AI翻譯系統)有很大的幫助。」陳鵬仁在提到開發過程的經歷時,多次感謝來自台灣的助力。
靠著三位台灣人,Meta最終成功打造閩南語AI翻譯系統。陳鵬仁指出,這不只是展示任何語言都有可能做即時翻譯的潛力,更重要的,是其他使用者逐漸減少的地方方言,未來都能透過AI獲得保存的機會。
閱讀完整內容
本文摘錄自
祖克柏「秀台語」 背後靠這三位台灣人
今周刊
2022/11月 第1350期
相關