Sora文字生成60秒影片太威 好萊塢人人自危

未推出先爆恐慌!OpenAI讓拍電影無需龐大劇組


推出ChatGPT震撼全球的OpenAI又有新突破!影片生成模型Sora,只需一段自然語言文本,就能將想法轉化為栩栩如生的短片。這會是人機協作的燈塔,還是影音產業的喪鐘?

文/傅莞淇

最近,社群平台議論紛紛:「超乎想像」「改變遊戲規則」,甚至出現「真的令人害怕」⋯⋯。不只如此,還有影業大亨暫停耗資八億美元的工作室擴建計畫,以及學者提出技術恐遭濫用、左右民主大選的警告。

是出現了什麼殺手級應用?答案是可以文字生成影片的AI模型Sora,它甚至還沒正式開放大眾使用。

2月中旬,因ChatGPT一戰成名的OpenAI,釋出由Sora生成的一系列短片,瞬間引爆輿論。之前,Runway、Pika等前輩,已將AI生成內容,從文字、圖像,拓展到影片,並具備一定程度的微調力。

但Sora更進一步,將影片生成戰役提升至前所未見的層級。先前亮相的模型,大多只能生成3∼4秒,至10多秒的影片;但Sora可據單次指令,生成長達60秒的短片。而畫面更細緻、仿真,人物動作也更流暢。簡單來說,Sora生成的影片更像從真實世界取景,人眼幾乎無法鑑別出是AI模型生成的內容。

這個能生成一分鐘短片的Sora,會如何衝擊影音產業,甚至是我們的未來?

AI讓娛樂產業別玩了?

Sora源自日文「天空」,有創造潛力無窮的含意。它能以文字指令、單張圖像或影片為基礎,生成複雜場景與其中的動態角色。OpenAI表示,結合大語言模型與擴散模型的Sora,「不僅理解使用者的指令內容,也理解這些事物在物理世界中存在的狀況。」

這或許是Sora生成內容如此真實的原因。現實世界的物體運動有延續性,人類自實際經驗學習到物理定律。例如,陽光能穿透玻璃,但不會穿過水泥牆壁。在池塘拍打水面,漣漪會持續往外推送、但逐漸變得微弱。Sora的神經網路,也從觀看非常大量的影片中,學習到現實世界的運作方式。

因此,它能仿真生成「穿過東京郊區的火車車窗上的倒影」,也能生成「海洋生物優游於沉入水中的紐約市區」這類虛構場景。

不難想像,影片創作者將受到何等心理衝擊。Sora預覽發布不滿一週,好萊塢知名製片及導演派瑞(Tyler Perry)在訪談中透露,已中止籌備四年的工作室擴張計畫。他指出,有這樣的AI生成力,搭建場景,甚至是出外景,可能都不再必要,這對娛樂產業的就業市場,將帶來廣泛影響。

派瑞對《好萊塢報導》(THR)表示,當他看著Sora生成的內容時,「立刻想到產業中每個會因此受影響的人⋯⋯,我想影響會遍及產業的每個角落。」他甚至進一步建議,應有某些保護娛樂產業的規範,「否則我看不出來我們有存活的可能。」

AI在影音產業中的應用,是2023年好萊塢勞資糾紛的核心議題之一。編劇及演員最終與製片方達成協議,限制AI使用範圍。長達數個月的罷工結束,被認為是工會的勝利典範,但仍有人擔心,創作者獲得的保護不足。


▲OpenAI公開「世界模擬器」Sora生成的影片,維妙維肖的程度引起大規模議論。取自OpenAI

藝術家淪「AI作品優化師」?

同樣感到憂心的,是概念藝術家與動畫師。在Midjourney等圖像生成模型協助下,客戶可自行生成上百張草稿或完稿,再雇用專業藝術家做最後階段的人為編修。這大幅縮減了藝術家的工作時數及工作機會。

根據美國概念藝術協會與動畫協會在2023年底委託進行的一項普查,全美娛樂產業接受訪談的300位主管,認為未來三年將有20萬個工作受到AI衝擊。其中視覺特效與後製工作可能最受威脅,但音效工程師、配音員也會受到影響。超過九成受訪者認為,生成式AI在娛樂產業中的角色將日益吃重。

Sora尚未公布的其中一個原因,是OpenAI還在徵詢設計師、製片人等業界人士回饋,以了解Sora可以如何輔助、賦能數位內容製作工作。

樂觀者認為,Sora這類AI工具,讓影音內容創作權不再把持於少數擁有大筆資金的工作室手中,加速藝術創作的民主化。

這個想法絕非過分樂觀,想想美國導演西恩.貝克(Sean Baker),就曾使用iPhone 5S,拍出廣受好評的長片《夜晚還年輕》(Tangerine)。

而且,以目前能力有限的影片生成模型,就有一群充滿熱情與實驗精神的藝術家善加利用,以零元預算,將50段AI生成影片,拼接成一部完整長片《Our T2 Remake》。這戲仿《魔鬼終結者2》(Terminator 2: Judgment Day)的作品,每隔2∼3分鐘就會過渡到另一種影像風格,但敘事線仍保持一致。


首波造福線上內容創作者

從文字、圖片、語音、配樂到影片,這波生成式AI工具的一大受益者,是資源較有限的獨立網路內容生產者。無論是YouTuber、TikToker或Instagram創作者,都能以極低成本操作生成式AI工具,填補自己的技能缺口,並提升作品品質。

為線上創作者打造的學習平台Creator Now,2023年9月針對2000多名創作者的普查顯示,高達97%受訪者已在創作過程中使用AI。近六成創作者會與ChatGPT等AI機器人激盪創意靈感,44%受訪者肯定AI提升了生產力。

但影片生成模型絕不僅止於造福線上創作者。Sora展示影片公開後不久,北京大學與深圳AI公司兔展便聯合發起「Open-Sora」計畫,打算透過開源社群力量,複製出Sora模型。

兔展執行長董少靈直言,該計畫的目標,不是為了讓人人都能以低成本生成高品質影片。抖音上的娛樂短片「不是我們的所思所想」,他解釋,「我們希望深植中國產業,賦能中國產業升級。」

軟體及網站開發公司竑盛科技創辦人康程泰觀察,AI生成影片的商業性應用,在台灣尚屬萌芽階段,但社群平台上已相當盛行。從寫程式到做簡報,竑盛的工作流程也引入多種AI工具,「大家已非常習慣用AI工具做輔助。」

康程泰表示,目前,軟體與數位內容產業對這些AI生成力特別有感,但只要是涉及電腦作業的任務,實則都在影響範圍內。「以前『會』與『不會』是兩件事。未來,這兩者的差距會變得非常小。」康程泰指出,「當每個人都『會』,你要怎麼做出差異性?」

乍看下近乎完美的Sora內容,依然有不少缺陷與錯誤。例如,行駛在路上的車輛會突然變色,被牛腳踩到的瓷杯沒有破碎,手指過多的問題也沒有完全解決。仔細觀察,影片中人物的肢體動作依然有些奇怪,不像真人活動的樣態。

但許多人不會如此細心審視在網路上隨手滑到的影片,更不會費心檢查影片真實性。因此,就算有數位浮水印等標示機制,許多學者仍憂心假政見、假醜聞影片會輕易流竄,左右選舉,包括11月將登場的美國總統大選。

OpenAI技術長穆拉蒂(Mira Murati)承認,降低Sora遭濫用的風險,也是延遲發布模型的原因之一。目前團隊還在研擬限制生成的規範,並設法降低生成成本。預計2024年可對大眾釋出。

如果2023年是影片生成模型嶄露頭角的一年,2024年可能是競爭白熱化的一年。矽谷知名創投a16z在AI領域的投資伙伴摩爾(Justine Moore)盤點,2023年初,還沒有任何文字轉影片的模型存在。到年末時,已有超過20個公開產品。摩爾認為,這般進展顯示,我們正處於大規模轉型的早期階段。


▲美國導演西恩貝克在未使用昂貴專業設備的情況下,以手機拍出具有自然、真實質感的好評長片。達志影像

理解及模擬真實世界能力

但訓練影片生成模型究竟有何意義?在OpenAI向世界公布Sora的文章中,最後一句話寫著:「Sora作為能理解並模擬真實世界的模型基礎,我們相信,這個能力是邁向通用人工智慧(AGI)的重要里程碑。」

Sora令人驚豔之處,在於它生成的內容十分仿真,因為訓練這個模型的目的,正是要模擬真實世界。當它理解世界如何運作,就能協助人類完成真實世界中的任務。例如,拿起一顆蘋果、收拾桌上的紙屑,或是將杯盤收回置物架裡。OpenAI與機器人公司Figure在3月發表的影片中,內載視覺語言模型的人型機器人Figure 01,看似已能即時與人類對話,完成上述任務。

當ChatGPT橫空出世,能流暢生成、編修文字內容時,編劇與文案作者感到威脅。接著,是插畫師、導演與配音員,以及迎接首個AI工程師Devin的軟體開發界,紛紛遭受AI衝擊。但早在2016年,南韓圍棋棋王李世乭已比絕大多數人更早親身體會AI威力。

在五戰四敗不敵AlphaGo後,李世乭於三年後宣布退休。他對媒體表示,引退的一大原因,是他了解無論多麼努力勝過其他棋士,依然不是世界最強,因為「有一個東西是無法被擊敗的」。

Sora可生成高度真實的影片,已經夠讓人震撼了。但繼續發展下去,未來能做的事,可望比現在多上許多。也許在不久的將來,各行各業的專業人士,都會有李世乭當年在圍棋賽局上的感受。 閱讀完整內容
遠見雜誌2024/4月 第454期

本文摘錄自‎

Sora文字生成60秒影片太威 好萊塢人人自危

遠見雜誌

2024/4月 第454期