排除風險,獲得生成式AI 的效益

用對方法,讓生成式AI為你效勞


生成式AI的影響力將在數年內擴及整個經濟領域,但它帶來的風險也不容忽視。如何發揮它的最大效益並抑制風險,可依循本文介紹的具體方法。
企業領導人正苦苦設法去了解,究竟應該多認真看待人工智慧(AI)領域的最新現象:生成式AI(generative AI)。一方面,它已經展現驚人的能力,可以創造新的內容,例如音樂、語音、文本、圖像和影片,而目前它的用途包括編寫軟體、轉錄醫師與病患的互動,並讓員工能與顧客關係管理系統對話。另一方面,它一點也不完美:有時會產出扭曲或完全捏造的輸出結果,而且可能沒有察覺隱私和著作權的問題。

生成式AI的重要性是否被誇大?與潛在的報酬相比,它的風險是否值得?企業如何找出它的最佳應用環境?企業的第一步應該是什麼?為了提供指南,本文取材自我們的研究,包括對於特定生成式AI專案的研究,以及對於這項科技將如何影響整體經濟內各項任務和工作的廣泛分析。

我們其中一位作者(艾瑞克)與麻省理工學院(MIT)的琳賽.雷蒙(Lindsey Raymond)和丹妮爾.李(Danielle Li)共同研究一家大型企業軟體公司,這份研究清楚展現了,有一些方法既能獲得生成式AI的效益,又能抑制它的風險。這家公司的客服人員透過線上對話為人們提供協助,他們面臨一項共同的挑戰:新進員工需要幾個月的時間,才能學會如何回答技術問題和應對困惑的顧客,但許多人在熟練之前就離職了。公司把生成式AI視為解決方法。它委請生成式AI新創公司Cresta執行2套AI(艾瑞克為這家公司提供諮詢服務)。第一套AI是大型語言模型(large language model,LLM),專門設計來理解人類,並用人類自己的話來回應人類。它負責「監聽」聊天內容。經過微調,它能夠辨識在各種情況下帶來良好客服效果的片語。不過,它具有「虛構」(confabulation)的風險,也就是聽起來合理但其實並不正確的回應,因此這套系統還使用一種稱為「內脈絡學習」(in-context learning)的機器學習技術,從相關的使用者手冊和文件取得答案。

那套LLM會監測線上聊天的內容,尋找特定片語,當其中一個片語出現時,它會根據內脈絡學習系統中的資訊做出回應。它的功能是額外的保護措施,因此不會直接回應顧客提出的請求。相反地,真人客服可以自由運用自己的常識,來決定要使用或忽略LLM的建議。

經過7週的試行,公司推出這套系統給1,500多名客服人員使用。兩個月內就展現出許多效益。平均每小時解決的問題數量,以及客服人員可以同時處理的聊天數量,增加將近15%;平均聊天時間減少將近10%;而聊天紀錄的分析則顯示,新系統實施後,顧客滿意度立即獲得改善。例如,更少顧客表示感到挫折,也更少顧客全部輸入的內容都是大寫字母(編按:全部大寫字母表達強烈的情緒)。

特別有趣的是,技能最低的客服人員(通常也是最新的人員)受益最多。例如在採用新系統之前,速度最慢的20%客服人員,平均每小時解決問題的數量增加了35%。(而速度最快的20%客服人員,他們的解決率並未改變。)這套生成式AI系統是一種成效快速的技能提升科技。之前有些知識只能透過經驗或訓練取得,但這套系統讓所有客服人員都能取得這些知識。而且,客服人員的流動率也下降了,尤其是那些經驗不滿6個月的人員——也許原因在於,員工若是擁有強大的工具可幫助他們把工作做得更好,就更有可能留下來。

由於生成式AI有潛力改善許多其他職能的生產力(的確,任何涉及認知任務的職能都可以改善),稱它具有革命性並不誇張。企業領導人應該將它視為一種通用科技,類似於電力、蒸汽機和網際網路。可是,儘管其他這些科技經過幾十年才發揮所有潛力,但生成式AI對整體經濟內的績效和競爭所造成的影響,在短短幾年內就會清楚顯現。

這是因為過去的通用科技需要大量相輔相成的實體基礎設施(電力線、新型馬達和電器、重新設計的工廠等等),以及新的技能和商業流程。但生成式AI的情況並非如此。許多必要的基礎設施已經就位:雲端、軟體即服務(software-as-aservice)、應用程式介面(application programming interface)、應用程式商店和其他的進展,這些都不斷減少取得和開始使用新資訊系統所需的時間、努力、專業知識和費用。因此,不論是哪一種數位科技,企業都愈來愈容易部署。這是ChatGPT的使用者數量從0到1億只花60天的重要原因。隨著微軟(Microsoft)、Google和其他科技供應商,將生成式AI工具整合到自家的辦公室套裝軟體、電子郵件客戶端,及其他的應用程式中,數十億使用者將會迅速取用這類工具,成為他們日常工作的一部分。

生成式AI將會迅速得到部署的另一個原因,是人們與這些系統的互動方式就是對它們說話,很像是對另一個人說話一樣。這會降低某些工作類型的進入門檻(想像一下你編寫軟體的方式,就是用日常說話方式向LLM說明,你想完成什麼)。此外,這些系統不一定需要企業改變整個商業流程;它們一開始只會應用在個別任務上,因此更容易得到人們的採用。例如,運用科技重新設計公司與顧客互動的所有層面,是一項大工程;運用科技向客服人員建議更好的聊天回應則不然。然而,經過一段時間,生成式AI將會大幅深入改變公司執行最重要工作的方式。

因此,企業領導人不應該袖手旁觀生成式AI的使用情況如何發展。他們承擔不起讓競爭對手搶得先機的後果。

稱生成式AI具有革命性並不誇張。企業領導人應該將它視為一種通用科技,類似於電力、蒸汽機和網際網路。
生成式AI將如何影響你公司的工作?

生成式AI將會取代哪些工作類型和多少工作數量,相關的預測汗牛充棟。但更有助益的做法,其實是思考這項科技可以執行或協助執行哪些認知任務。

我們其中一位作者(丹尼爾)、OpenResearch的山姆.曼寧(Sam Manning)、OpenAI的蒂納.伊蘭道(Tyna Eloundou)和潘蜜拉.密希金(Pamela Mishkin)共同進行的研究,便採取這種方法。他們的起點是ONET數據庫,美國政府從1998年就持續維護和更新這個數據庫。ONET包括將近1,000種職業,並將每種職業分拆為一些基本的任務——通常包含20到30項任務。例如,根據ONET,放射科醫師有30項獨特的任務,包括「執行診斷用造影程序或解釋該結果」,以及「為放射科病患制定治療計畫」。

研究人員在OpenAI挑選的人員協助下處理兩個問題:在O
NET的每一種工作中,有哪些任務能夠在生成式AI的協助下以至少兩倍的速度完成,而品質沒有明顯下滑?以及,在這些「受到影響」的任務中,有哪些任務除了生成式AI外,至少還需要一套系統才能提高生產力?此外,研究團隊也向OpenAI的GPT-4 LLM詢問這兩個問題,並將它的回答與真人的回答進行比較。結果雙方的回答十分相似。

這項研究顯示,80%的美國勞工至少有10%的任務可能會受到生成式AI的影響,而19%的勞工則有一半以上的任務可能會受到影響。但「會受到影響」並不表示這些任務會被自動化,或是應該被自動化。在許多情況下,生成式AI的最佳用途會是提高人類勞工的生產力或創造力,而不是取代他們。程式設計師就是一個好例子。他們已經大量使用GitHub Copilot這類LLM來編寫程式碼的初稿,但他們仍然需要修正錯誤;徵詢主管、工程和技術人員的意見,以釐清程式的意圖;訓練部屬;以及執行其他許多不適合使用生成式AI的任務。隨著LLM愈來愈擅長編寫程式碼,程式設計師將有更多時間和精力可投入其他任務。〔有關生成式AI如何幫助而非取代勞工,請參閱本刊2023年7月號文章〈生成式AI,升級你的創造力〉(How Generative AI Can Augment Human Creativity)〕 。
領導人可以採用這個研究方法的某種版本,來了解生成式AI應用於組織的何處可能最有成效。每個董事會都應該要求執行長制定一項可行的對策。這個做法是一個3階段的流程。

首先,大略盤點一下知識型工作:你的員工有多少人主要以寫作為生?你有多少位數據分析師、經理人、程式設計師、客服人員等等?

接下來,針對每個職位提出兩個問題。第一個是:「擔任這個職位的員工,如果有一位有能力但欠缺經驗的助理(擅長程式設計、寫作、準備數據,或摘要資訊,但對我們公司一無所知)那會獲益多少?」目前一般人皆可使用的LLM就類似這種助理。例如,它們可以編寫程式碼,但不知道你的軟體開發或系統整合的需求是什麼。它們可以擬定專案計畫或批評現有的專案計畫,但不知道你在進行哪些專案。

第二個問題是:「擔任這個職位的員工如果有一位經驗豐富的助理(在公司待得夠久,足以吸收公司的專業知識)那會獲益多少?」本文開頭描述的軟體公司不需要欠缺經驗的客服人員;它需要的客服人員應該要知道公司產品出現哪幾類問題,並能與顧客一起有效解決這些問題。正因如此,這家公司將面向顧客的LLM與內脈絡學習系統結合起來。正如這個例子所顯示,公司需要取用自家特有的內部知識時,通常必須將「現成可用的」生成式AI與另一套系統結合起來。

最後,一旦你盤點了公司的知識型工作職位,也回答了這兩個問題,就可以優先考慮最有希望的生成式AI做法。這項任務相當直截了當:選擇效益成本比最高的做法。要估算效益,就要檢視公司為每個職位支付的總薪酬。這麼做的目的不是找出要淘汰哪些職位,而是要找出有哪些機會能大幅改善生產力——新的數位助理在這些地方會最有價值。

如同其他數位轉型的做法,生成式AI專案的成本也結合了金錢、時間和失去的機會——所謂失去的機會,指的是你因為生成式AI有更高的優先順序而不去執行的專案。現成可用的LLM做法相對便宜且快速,但專案如果需要將生成式AI與另一套系統整合起來,就需要更長的時間,也更加昂貴(雖然並不比許多其他IT耗費更多時間和經費)。

目前,大多數生成式AI專案都聚焦於改善特定的任務。這麼做是合適的,因為確實有許多機會可以用這種方式運用生成式AI。不過,隨著這種技術的成熟,以及公司累積相關使用經驗,生成式AI的做法將會涵蓋整個商業流程,而不僅針對個別任務。例如,它們將用來改變公司與顧客互動的所有層面,而不只是改善為了排除故障而進行的線上聊天。生成式AI仍然是一項剛起步的科技,我們無法準確預測未來它將如何發揮作用。但我們可以有信心地預測,它將在成功企業的數位策略上扮演重要的角色。

本文觀念精粹

困境
剛起步的生成式AI系統擁有龐大潛力,但也容易編造答案、侵犯隱私和違反智慧財產權。考慮到這些風險,領導人是否最好抱持觀望態度?

為什麼要下定決心
這項新科技類似於蒸汽機、電力和網際網路,但有一點很大的差異:這些通用科技需要數十年才能對競爭和經濟產生重大影響,可是生成式AI只需要幾年就能做到。

如何進行
盤點你的知識型工作。找出哪些職位最能受益於這項科技的協助。優先考慮效益成本比最高的專案。善用可用的方法來節制生成式AI的風險。使用敏捷法來開發應用程式。 閱讀完整內容
哈佛商業評論2023/11月 第207期

本文摘錄自‎

排除風險,獲得生成式AI 的效益

哈佛商業評論

2023/11月 第207期