連「母湯」也懂 台版GPT爭國際話語權

AI軍備競賽來了,各國搶進「大型語言模型」


什麼是「台版GPT」?這代表台灣不再只有硬體供應鏈,更開始全力發展「大型語言模型」,以期在AI實力決定國家競爭力的世界,取得一席之地。

採訪/陳品融、曾子軒 文/陳品融

打開對話框、輸入提示詞(prompt),AI便洋洋灑灑生成一篇文章出來,ChatGPT等工具問世一年半來,這已成許多人日常中的光景。但AI不總是聽話,有時理解錯誤、甚至顛倒是非。這一點,法律科技新創Lawsnote資深後端工程師戴函昱很有感。

Lawsnote以法學資料搜尋引擎起家,如今產品結合生成式AI,讓客戶用來審查契約。但戴函昱在過去的測試階段中,卻不只一次遇到表現飄忽不定的AI。比如,有次他請AI合給予審核建議,AI卻回應該以中國法律為基準,並將仲裁地設在北京。


「這明明是一份台灣的合約,如果跳出這種東西給客戶看,他們難道不會很傻眼嗎?」戴函昱略帶無奈說道,「如果它(基礎模型)有其他語言的訓練資料,就等於潛藏了一個『人格』在裡面,你不知道它什麼時候會跳出來,這是有很大影響的。」

不只戴函昱有此經歷,去年10月,中研院詞庫小組釋出的「大型語言模型」(LLM),因為稱國慶日為10月1日,在社會上引發軒然大波。這除了說明現階段語言模型的局限性,更凸顯在生成式AI應用蓬勃發展的此刻,一款具備在地知識、能精準生成繁體中文的底層基礎模型,有其存在的重要性。

換句話說,我們需要「台版GPT」。

而事實上,這正是台灣各界過去一年半來努力的方向,並在近期陸續展示初步成果。4月份,國科會正式釋出具70億參數的大型語言模型「TAIDE-LX-7B」,供產學研使用。

無獨有偶,IC設計大廠聯發科旗下創新基地,也推出表現超越GPT-3.5的繁中模型「BreeXe」;其他如華碩旗下台灣智慧雲端服務(台智雲)、面板廠群創、台大資工系Taiwan-LLM(台灣LLM)團隊等,也紛紛搶入此領域。

儘管這些稱不上是百分之百本土的大語言模型,卻已是台灣在AI領域向前邁進的重要一大步。

語言模型體現文化、主權
各國投入軍備競賽


話說從頭,台灣為什麼非得投入資源打造本土語言模型不可?關鍵之一,是文化與主權的展現。

「語言不是字串的轉換,它背後有很多『文化』,是很微妙的。」台大語言所、台大人工智慧與機器人研究中心教授謝舒凱舉例,「老家」一詞很可能被AI直接翻譯為「old home」,從而抹滅背後更深層的情懷,也讓使用者缺乏「文化信賴感」。因此儘管技術上可將國外資料集翻成中文,但拿來訓練模型的表現,仍和使用符合在地脈絡的繁中資料有落差。

專替客戶導入AI應用的新創亞太智能機器創辦人吳柏翰則從應用端指出,如法律、醫療等領域,客戶都極度重視具備在地脈絡的文字,尤其不可能接受中國資訊,「因為這樣,我們得要做繁體中文的LLM出來。」

雖然實務上可透過關鍵字或同義詞比對,讓「守門員」擋下有問題的內容,或是透過檢索增強生成(Retrieval-AugmentedGeneration, RAG)技術,直接從準備好的答案中挑選,但吳柏翰以親身經歷分享,通常連續問五次後就會被破解。若希望有長期且穩定的生成品質,還是需要經過繁中資料微調後的模型。

延伸來看,這更是一種主權的展現,以避免話語權被美國科技大廠壟斷。

台灣人工智慧實驗室創辦人杜奕瑾,近期每週幾乎都有國際級會議,他分享,如今包括法國、日本、新加坡、馬來西亞等地,AI圈最熱議的話題,就是「主權式的基礎模型」。

「大家都意識到,這是一場軍備競賽,即使表面上說不會參與的,私底下也都會參與。」杜奕瑾說。

但各國畢竟比不上美國科技大廠擁有豐厚資料及運算能力,杜奕瑾觀察,部分地區初期多由政府扮演領頭角色,再以「公私協作」的方式,鼓勵業界投入打造模型。長遠來說,此模式能否運作得當,將決定各國的AI競爭力。

台灣政府帶頭發展
重在累積經驗、培育人才


而台灣,如今試圖依此模式慢慢發展,國科會的「TAIDE」計畫正是第一步。

2023年4月,ChatGPT問世後不久,國科會就集結各界AI人才、投入兩億餘元經費,正式啟動打造「可信任生成式AI對話引擎」(Trustworthy AI Dialogue Engine,TAIDE)。TAIDE以Meta發布的開源模型Llama為訓練基底,再透過繁中資料進行微調(f inetuning),可執行中文對答、文章摘要、中英翻譯等任務。

「這是國家必要的投資,更重要的是,要讓台灣人有機會經歷做大型語言模型會遇到的一切,」端坐在靜謐的中研院辦公室裡,TAIDE計畫負責人、中研院資通安全專題中心執行長李育杰,笑著形容現階段TAIDE還「很矮」,只能「站在巨人肩膀上」,卻是產業走向成熟的必經之路。

李育杰舉例,深度學習(DeepLearning)在2012年能爆紅,仰賴其背後的類神經網路技術長達30年的發展;又如DeepMind在打造「圍棋王」AlphaGo之後,儘管沒持續應用在圍棋界,卻轉往意義更重大的醫療領域發展。同理,台灣如今有能力教模型中文,就該從現在起開始累積。

累積實力的同時,也將是培育人才的搖籃。

台大資工系博士生、Taiwan-LLM團隊成員林彥廷指出,台灣就連有處理八張GPU(圖形處理器)以上硬體問題經驗的人都少之又少,能做語言模型的人更幾乎是真空狀態,如今TAIDE計畫投錢建基礎設施、讓教授帶學生進來參與,對培育即戰力人才很有幫助。

AI專家吳恩達接受《遠見》獨家專訪時,更直言TAIDE的發展,有助於提升台灣文化價值在全球的能見度,「擁有一個能反映台灣價值觀和對民主信念的模型非常重要,是一項非常棒的努力。」


業界積極搶進
瞄準「專用市場」商機


鏡頭拉到另一端,台灣投入打造語言模型的關鍵之二,是出於商業考量。華碩旗下台智雲,堪稱此領域的先驅。

去年5月,台智雲推出基於開源模型Bloom打造、專服務企業客戶的「福爾摩沙大模型」,而後陸續增添以繁中資料優化、改用Llama為基底的多款模型,也因為AI加持,帶動台智雲2023營收年增三位數。

推出服務近一年,台智雲總經理吳漢章如今提出「A I 新4P」(People, Process, Product,Position)的說法。他說明,最基礎的People,意指企業都會鼓勵員工使用AI。基本上,透過ChatGPT等工具就能達成,但近期開始有愈來愈多客戶,注意到真正能改善整體營運流程的AI應用。

「Process(流程)這個層次的AI價值很高,而且絕對沒辦法仰賴通用模型。」吳漢章說。

言下之意,台灣不該和OpenAI等大企業比拚通用模型,而是在「專用」市場深耕,協助客戶導入企業資料,得以優化、複製營運流程。

而台智雲的角色就像諮詢者,得深入了解各個垂直場域,依客戶需求持續打磨模型。去年底至今,台智雲在此已累計兩位數客戶,尤以製造業為多。

不只台智雲,聯發科也積極搶進。聯發科旗下聯發研究創新基地早期在總監許大山帶領下,投入增強學習(ReinforcementLearning)研究。2020年左右,許大山看準大語言模型趨勢,將資源全部轉向此,並在2023年3月推出首款十億參數的開源繁中大模型,一年後的現在,最新「BreeXe」表現已超越GPT-3.5。

BreeXe除了表現非常「台」,經實測能精準解釋「母湯」(不行)、「ㄎㄧㄤ」(無厘頭)等流行網路用語的意涵之外,與法國開源模型Mixtral相比,生成回答的速度更直接快了一倍。

「我們的速度提升一倍、成本下降一半,對企業來說,成本考量非常重要。」聯發創新基地資深技術經理陳宜昌強調。許大山也指出,當客戶需要在全封閉的地端環境下使用AI,雲端模型便無法滿足需求,這正是聯發科的大好機會。

台灣掌握發展優勢
獲國際探詢


儘管時至今日,仍有不少聲音質疑台灣發展大語言模型的效益及必要性,但看在杜奕瑾眼裡,台灣有超級電腦及晶片的製造優勢、有高品質人才,資料治理能力在國際也相對成熟,早已站在相當好的起跑點。

吳漢章也深有所感。因為早在2017年,當時的科技部長陳良基,堅持攜手業界投入打造超級電腦「台灣杉二號」,並一舉拿下全球20強,才逼出台灣算力實力,為今日埋下種子。

「我們早走了三、四年,其他國家正在複製我們的路,」吳漢章分享,年初越南、馬來西亞企業都率隊前來拜訪,請教如何做好硬體建置及商業化,可見台灣AI實力在國際上確有其地位。可以說,大語言模型之於台灣,命題不再是「要不要做」,而是「怎麼做更好」。儘管現在起步尚早、挑戰重重,但前方仍機會無窮,「國際都會往這一塊走,」杜奕瑾再三強調,「所以現在就該搶進,這是一個很關鍵的時間點。」 閱讀完整內容
遠見雜誌2024/5月 第455期

本文摘錄自‎

連「母湯」也懂 台版GPT爭國際話語權

遠見雜誌

2024/5月 第455期