當(dāng)前位置：首頁(yè) >人工智能 >一句話生成60秒逼真視頻，OpenAI文生視頻模型Sora刷屏，原來(lái)可以這樣玩

一句話生成60秒逼真視頻，OpenAI文生視頻模型Sora刷屏，原來(lái)可以這樣玩

發(fā)布時(shí)間：2024-03-05 19:54:54 瀏覽量：112次

風(fēng)口財(cái)經(jīng)記者劉建

開(kāi)發(fā)出熱門(mén)聊天機(jī)器人ChatGPT后，OpenAI繼續(xù)在生成式人工智能上翻新花樣。2月16日，OpenAI推出新的AI大模型Sora，該文生視頻大模型可通過(guò)快速文本提示創(chuàng)建“逼真”和“富有想象力”的60秒視頻?！拔纳曨l”模型Sora包含高度詳細(xì)的場(chǎng)景、復(fù)雜的攝像機(jī)運(yùn)動(dòng)以及充滿活力的情感的多個(gè)角色，也可以根據(jù)靜態(tài)圖像制作動(dòng)畫(huà)。Sora不僅了解用戶在提示中提出的要求，還了解這些東西在物理世界中的存在方式。

文本生成視頻，效果逼真

目前OpenAI官網(wǎng)上Sora相關(guān)的信息有限，“我們正在教AI理解和模擬運(yùn)動(dòng)中的物理世界，目的是訓(xùn)練模型，幫助人們解決需要真實(shí)世界交互的問(wèn)題。”并稱(chēng)Sora能夠從文本說(shuō)明中生成長(zhǎng)達(dá)60秒的視頻，Sora還能在一個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭，體現(xiàn)人物和視覺(jué)風(fēng)格。

Sora可以一次性生成整個(gè)視頻，也可以擴(kuò)展生成的視頻，使其更長(zhǎng)。OpenAI表示：通過(guò)讓模型一次生成多幀畫(huà)面，我們解決了一個(gè)具有挑戰(zhàn)性的問(wèn)題，即：即使生成的主體暫時(shí)離開(kāi)視線內(nèi)，也能確保主體不變。

OpenAI表示，Sora建立在過(guò)去對(duì)DALL-E和GPT模型的研究基礎(chǔ)之上。它采用了DALL·E 3的技術(shù)，能夠在生成的視頻中更忠實(shí)地遵循用戶的文字說(shuō)明。除了能夠文生視頻外，該模型還能根據(jù)現(xiàn)有的靜態(tài)圖像生成視頻，并能準(zhǔn)確、細(xì)致地對(duì)圖像內(nèi)容進(jìn)行動(dòng)畫(huà)處理。該模型還能提取現(xiàn)有視頻，并對(duì)其進(jìn)行擴(kuò)展或填充缺失的幀。

目前OpenAI官網(wǎng)上已經(jīng)更新了48個(gè)Sora生成的視頻demo，色彩艷麗，效果逼真。

來(lái)自O(shè)penAI Sora的AI生成視頻圖像：猛犸象在雪地中行走

以上截圖的視頻文字提示如下：幾頭巨大的長(zhǎng)毛猛犸象踏著雪地走來(lái)，它們長(zhǎng)長(zhǎng)的毛發(fā)隨風(fēng)輕揚(yáng)，遠(yuǎn)處是白雪覆蓋的樹(shù)木和壯觀的雪山，午后的光線伴著飄渺的云朵和遠(yuǎn)處高懸的太陽(yáng)，營(yíng)造出溫暖的光暈，低機(jī)位拍攝的景象令人驚嘆，捕捉到了大型毛茸茸的哺乳動(dòng)物，攝影和景深都非常漂亮。

動(dòng)態(tài)的光影表現(xiàn)也有印象深刻的案例，如一位女性在東京路燈的霓虹燈下行走的視頻，以及阿馬爾菲海岸教堂的鳥(niǎo)瞰圖，以及一個(gè)卡通怪物好奇地跪在融化的蠟燭前等。

來(lái)自O(shè)penAI Sora的AI生成視頻圖像：一位女性在東京路燈的霓虹燈下行走

以上截圖的視頻文字提示如下：一位時(shí)尚女性走在東京的街道上，街道上到處都是溫暖的霓虹燈和動(dòng)畫(huà)城市標(biāo)志。她身穿黑色皮夾克、紅色長(zhǎng)裙和黑色靴子，手拿黑色錢(qián)包。她戴著太陽(yáng)鏡，涂著紅色唇膏。她走起路來(lái)自信而隨意。街道潮濕而反光，與五顏六色的燈光形成鏡面效果。許多行人走來(lái)走去。

在部分場(chǎng)景中，Sora的效果足以“以假亂真”，一段8秒的東京地鐵車(chē)廂窗戶視頻中，除了行車(chē)過(guò)程中，列車(chē)窗戶上的反射外，視頻中間人物倒影也非常逼真。

網(wǎng)友直呼game over

Sora公布后，OpenAICEO山姆-奧特曼請(qǐng)社交媒體用戶在線發(fā)送文字提示的創(chuàng)意內(nèi)容。

如一位來(lái)自新罕布什爾州的自由攝影師在X上給出的提示：“由一位祖母級(jí)社交媒體博主進(jìn)行的自制意式團(tuán)子烹飪指導(dǎo)課，場(chǎng)景設(shè)置在鄉(xiāng)村風(fēng)格的托斯卡納鄉(xiāng)下廚房，并配有電影級(jí)燈光?！盇ltman在約一小時(shí)后回復(fù)了一個(gè)逼真的視頻。

奧特曼此舉，對(duì)外展示了Sora模型即時(shí)生成視頻的能力。

東吳證券觀點(diǎn)此前表示，近年視覺(jué)算法在泛化性、可提示性、生成質(zhì)量和穩(wěn)定性等方面突破將推動(dòng)技術(shù)拐點(diǎn)到來(lái)以及爆款應(yīng)用出現(xiàn)。3D資產(chǎn)生成、視頻生成等領(lǐng)域受益于擴(kuò)散算法成熟，但數(shù)據(jù)與算法難點(diǎn)多于圖像生成，考慮到LLM對(duì)AI各領(lǐng)域的加速作用以及已出現(xiàn)較好的開(kāi)源模型，2024年行業(yè)或取得更大的發(fā)展。

2023年末至2024年初，Pika、HeyGen等AI文生視頻應(yīng)用陸續(xù)出圈，驗(yàn)證了多模態(tài)技術(shù)的不斷進(jìn)步與成熟。剛剛公布的的Sora模型無(wú)疑加劇了這一賽道的激烈競(jìng)爭(zhēng)。

網(wǎng)友直呼game over，工作要丟了：

甚至有人已經(jīng)開(kāi)始“悼念”一整個(gè)行業(yè)：

還有網(wǎng)友表示，電影業(yè)要徹底顛覆了。以后只要能寫(xiě)劇本就能直接拍電影了，不是“拍”電影，而是“生成”電影。以后從導(dǎo)演到演員再到攝影，都要失業(yè)了。

一位YouTube博主Paddy Galloway發(fā)表了對(duì)Sora的感想，他表示內(nèi)容創(chuàng)作行業(yè)已經(jīng)永遠(yuǎn)改變了，并且毫不夸張?！拔疫M(jìn)入YouTube世界已經(jīng)15年時(shí)間，但OpenAI剛剛的展示讓我無(wú)言…動(dòng)畫(huà)師/3D藝術(shù)家們有麻煩了，素材網(wǎng)站將變得無(wú)關(guān)緊要，任何人都可以無(wú)壁壘獲得難以置信的產(chǎn)品，內(nèi)容背后的‘想法’和故事將變得更加重要?！?/p>

Sora仍有較大改善空間

Sora視頻一出，立刻震驚業(yè)界。盡管這不是首個(gè)AI視頻，其他企業(yè)也有類(lèi)似文本生成視頻的AI模型，谷歌正在測(cè)試名為L(zhǎng)umiere的模型，Meta則有名為Emu的模型，還有人工智能初創(chuàng)企業(yè)Runway也在開(kāi)發(fā)相應(yīng)產(chǎn)品來(lái)幫助制作視頻，但外媒指出，人工智能專(zhuān)家和分析師表示，Sora 視頻的長(zhǎng)度和質(zhì)量超出了迄今為止所見(jiàn)的水平。

一位硅谷AI公司的從業(yè)者表示，根據(jù)她的使用體驗(yàn)，Sora在演示視頻中展現(xiàn)的能力遠(yuǎn)遠(yuǎn)超Pika和Runway，“Pika只能生成3-15秒的視頻，Sora能直接生成一分鐘的視頻。從畫(huà)面效果和時(shí)長(zhǎng)來(lái)看，Sora肯定是一個(gè)重要突破。”

美國(guó)有線電視新聞網(wǎng)(CNN)援引市場(chǎng)研究公司ABI research的高級(jí)分析師海登的話報(bào)道稱(chēng)，“Sora”可能會(huì)對(duì)數(shù)字娛樂(lè)市場(chǎng)產(chǎn)生重大影響，因?yàn)樾碌膫€(gè)性化內(nèi)容將在各個(gè)渠道上傳播。

Sora有時(shí)會(huì)生成不合情理的動(dòng)作，譬如在跑步機(jī)上倒著跑步

但目前的Sora仍然有很多需要完善的地方。OpenAI提示：當(dāng)前的Sora模型也有弱點(diǎn)，它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景中的物理現(xiàn)象，也可能無(wú)法理解具體的因果關(guān)系。

Sora在提示空間細(xì)節(jié)方面會(huì)混淆左右，也無(wú)法理解因果關(guān)系的具體實(shí)例，比如制作了一個(gè)視頻，視頻中有人咬了一口餅干，但之后餅干上沒(méi)有咬痕。

Sora生成的視頻：五只小狼在一條礫石路上嬉戲追逐，周?chē)L(zhǎng)滿了草

Sora生成的視頻中，動(dòng)物或人會(huì)憑空出現(xiàn)，特別是在包含許多實(shí)體的場(chǎng)景中。此外，Sora難以精確描述隨時(shí)間推移發(fā)生的事件，例如跟蹤攝像機(jī)的特定軌跡。

Sora生成的視頻：一把普通的塑料椅子在沙漠中被發(fā)現(xiàn)，人們小心翼翼地挖掘并撣去沙子。在這個(gè)例子中，Sora沒(méi)有將椅子建模為一個(gè)剛性物體，導(dǎo)致不準(zhǔn)確的物理交互。

OpenAI表示，計(jì)劃與一個(gè)專(zhuān)家團(tuán)隊(duì)合作測(cè)試最新模型，密切關(guān)注錯(cuò)誤信息、仇恨內(nèi)容和偏見(jiàn)等。OpenAI還表示正在開(kāi)發(fā)幫助檢測(cè)誤導(dǎo)性信息的工具，比如檢測(cè)分類(lèi)器可以判斷視頻是何時(shí)由Sora生成的。其文本分類(lèi)器可檢查并拒絕違反使用政策的文本輸入提示，例如極端暴力、性內(nèi)容、仇恨圖像、名人肖像等。“我們還開(kāi)發(fā)了魯棒性的圖像分類(lèi)器，用于審查每個(gè)生成視頻的幀，以幫助確保它在顯示給用戶之前符合我們的使用政策。”

OpenAI表示，Sora將首先提供給網(wǎng)絡(luò)安全教授，以評(píng)估產(chǎn)品的危害或風(fēng)險(xiǎn)。一些視覺(jué)藝術(shù)家、設(shè)計(jì)師和電影制作人也能獲得Sora的訪問(wèn)權(quán)限，以此收集關(guān)于創(chuàng)意專(zhuān)業(yè)人士如何使用Sora的反饋。