發(fā)布時(shí)間:2024-03-28 10:29:19 瀏覽量:117次
前言
2024年2月16日,OpenAI突然公布了一項(xiàng)核彈級(jí)的成果,發(fā)布了驚艷的文生成視頻大模型——Sora。
登錄OpenAI的首頁,看到一篇充滿深意的Sora技術(shù)報(bào)告,標(biāo)題為“視頻生成模型是世界的模擬器”。該報(bào)告的結(jié)尾處有一句引人深思的話,"我們相信,Sora 如今所展現(xiàn)出的能力表明,持續(xù)擴(kuò)展視頻模型是一條通往強(qiáng)大模擬器的希望之路,可以模擬物理世界、數(shù)字世界以及生活在這些世界中的對(duì)象、動(dòng)物和人。"
Sora的能力超乎想象,它不僅能夠根據(jù)文字提示詞創(chuàng)造出既逼真又富有想象力的場景,還能生成長達(dá)一分鐘的超長視頻。在此之前,Runway GEN2、Pika等AI視頻工具仍在努力突破幾秒視頻的連貫性限制,但Sora已經(jīng)以驚人的速度登頂。
接下來,我將帶你深入探索Sora的多種技能及其精妙之處,讓我們一起感受Sora的魅力。
Sora強(qiáng)大的功能展示
首先,Sora 可以對(duì)寬屏 1920x1080p 視頻、垂直 1080x1920p 視頻以及介于兩者之間的所有視頻進(jìn)行采樣。這使 Sora 可以直接以原始縱橫比為不同設(shè)備創(chuàng)建內(nèi)容。它還使我們能夠在以全分辨率生成之前以較小的尺寸快速制作內(nèi)容原型。
在OpenAI對(duì)Sora進(jìn)行原始縱橫比視頻訓(xùn)練時(shí),他們發(fā)現(xiàn)可以通過大量訓(xùn)練改善構(gòu)圖和取景。在訓(xùn)練后,他們自己比較了兩個(gè)版本的Sora取景,所有訓(xùn)練視頻都被裁剪成正方形。結(jié)果顯示,新版本的Sora在取景方面取得了顯著的進(jìn)步。
為了解決用戶發(fā)出的長短不一、千奇百怪提示詞的問題,OpenAI訓(xùn)練模型去理解視頻,并為視頻加上了相應(yīng)的文本標(biāo)題,以確保訓(xùn)練數(shù)據(jù)的多樣性。此外,他們還利用GPT將用戶簡短的提示詞轉(zhuǎn)換成了詳細(xì)且容易理解的語句,然后發(fā)送給視頻模型,讓Sora能夠非常準(zhǔn)確地遵循用戶的提示詞來生成視頻。這種方法的應(yīng)用大大提高了Sora生成視頻的質(zhì)量和準(zhǔn)確性。
如果生成的視頻與您想象的不同,或者您希望視頻能夠準(zhǔn)確展現(xiàn)您腦海中的形象,您可以嘗試提供更具體和詳細(xì)的指導(dǎo),嘗試使用圖片作為參考圖片來控制生成的視頻。OpenAI在技術(shù)文檔中列舉了一些例子,基于他們自家的圖像生成DALL.E模型的圖像供大家參考。這種技術(shù)Sora可以根據(jù)您提供的圖片來更精準(zhǔn)地控制生成的視頻,使您的想象得以實(shí)現(xiàn),讓圖片動(dòng)起來,擴(kuò)展成為視頻。這展示了Sora在圖像控制方面的驚人能力。
除了改善構(gòu)圖和取景,Sora還具備向前或向后拓展視頻的能力。例如,短視頻的創(chuàng)作者可能會(huì)覺得視頻長度太短,這時(shí)他們可以對(duì)其視頻進(jìn)行擴(kuò)展。這種擴(kuò)展非常有趣,因?yàn)樗梢宰屢曨l變得更加生動(dòng)。在官方文檔中,他們給出了一個(gè)無限循環(huán)的擴(kuò)展實(shí)例,這個(gè)實(shí)例展示了Sora在擴(kuò)展視頻方面的強(qiáng)大能力。
除了擴(kuò)展視頻的能力,Sora還具備驚人的視頻剪輯能力。在技術(shù)文檔中,他們展示了Sora能夠從零鏡頭轉(zhuǎn)換輸出視頻的風(fēng)格與環(huán)境,這個(gè)效果相當(dāng)令人震驚。這意味著Sora可以讓視頻創(chuàng)作者在不同的風(fēng)格和環(huán)境中切換,從而實(shí)現(xiàn)更多樣化的創(chuàng)意表現(xiàn)。
在官方文檔中,Sora被運(yùn)用在與兩個(gè)視頻中間的連接,可以實(shí)現(xiàn)兩個(gè)環(huán)境不同,甚至可以說是毫不相干的視頻之間的無縫過渡,并且這個(gè)過程在觀感上非常順暢,讓人感覺AI幫助生成微電影的展望就在眼前。
OpenAI在訓(xùn)練Sora的過程中發(fā)現(xiàn)了許多有趣的能力。這些能力使得Sora能夠真正地模擬物理世界中的人類、動(dòng)物、環(huán)境等各種方面,而且對(duì)于各種物體,它并沒有出現(xiàn)明顯的歸納偏差。具體表現(xiàn)在以下幾個(gè)方面:
3D一致性
Sora對(duì)于生成的具有動(dòng)態(tài)視角移動(dòng)的視頻,隨著視角的移動(dòng)與旋轉(zhuǎn),人物跟場景元素都在其生成的這個(gè)三維空間內(nèi)一致的移動(dòng),沒有明顯的誤差感。
長程連貫性和對(duì)象永恒性
Sora的另一個(gè)令人震驚的功能是,在更多的情況下,它能夠有效地模擬短程和長程的依賴。這意味著,如果一個(gè)人在視頻中生成,他就成為了一個(gè)擁有自己專屬屬性的個(gè)體。即使他目前不在視角范圍內(nèi),過幾十秒再次出現(xiàn),他的樣貌、穿著等也不會(huì)發(fā)生改變。這種功能可以讓視頻創(chuàng)作者更輕松地控制視頻中的元素,從而實(shí)現(xiàn)更加豐富的創(chuàng)意表達(dá)。
與現(xiàn)實(shí)世界的互動(dòng)性
Sora可以與現(xiàn)實(shí)世界進(jìn)行簡單的物理互動(dòng)。盡管不能涉及太深入,OpenAI也承認(rèn)在這方面做得還不夠完美。
模擬數(shù)字世界
通過大型模型來模擬數(shù)字世界的能力是在Sora的訓(xùn)練過程中涌現(xiàn)出來的。這種能力使得Sora能夠更好地與虛擬世界進(jìn)行互動(dòng),展現(xiàn)了其在數(shù)字模擬方面的潛力。
不過,Sora也并非全是優(yōu)點(diǎn),比如可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理或把握因果關(guān)系??臻g細(xì)節(jié)也不存在,因?yàn)樵撃P瓦€可能混合左右,并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件,例如遵循特定的相機(jī)軌跡。畢竟電腦生成的不一定能把握住所有的現(xiàn)實(shí)世界的物理細(xì)節(jié)。
對(duì)行業(yè)有哪些顛覆性的改變?
Sora展現(xiàn)出來的強(qiáng)大的能力,讓其具有非常廣泛的應(yīng)用前景。它為娛樂和媒體產(chǎn)業(yè)、教育和培訓(xùn)、廣告和營銷、模擬和培訓(xùn)、內(nèi)容創(chuàng)作、視頻編輯和后期制作等多個(gè)領(lǐng)域提供了創(chuàng)新的工具。
娛樂和媒體產(chǎn)業(yè)
Sora可以為電影制作、視頻游戲開發(fā)和其他形式的娛樂提供前所未有的創(chuàng)新可能性。它能夠生成定制的視頻內(nèi)容,為故事敘述和視覺效果帶來革命性的變化。
教育和培訓(xùn)領(lǐng)域
Sora可以用來創(chuàng)建教學(xué)視頻,根據(jù)學(xué)生的需要定制內(nèi)容,使學(xué)習(xí)體驗(yàn)更加個(gè)性化和互動(dòng)。
廣告和營銷領(lǐng)域
Sora能夠根據(jù)品牌的需求生成吸引人的廣告視頻,大大降低內(nèi)容創(chuàng)作的成本和時(shí)間,同時(shí)提高廣告的創(chuàng)意和個(gè)性化水平。
模擬和培訓(xùn)領(lǐng)域
Sora可以創(chuàng)建逼真的訓(xùn)練視頻,幫助專業(yè)人員在安全的虛擬環(huán)境中學(xué)習(xí)和練習(xí)。
內(nèi)容創(chuàng)作領(lǐng)域
Sora提供了一種快速、高效創(chuàng)建高質(zhì)量視頻內(nèi)容的方法,無論是用于社交媒體、教育平臺(tái)還是個(gè)人娛樂。
視頻編輯和后期制作領(lǐng)域
Sora的能力意味著在視頻編輯和后期制作過程中,創(chuàng)作者可以更容易地修改和改進(jìn)視頻內(nèi)容,甚至從頭創(chuàng)造全新的場景和效果。
總的來說,Sora在AR、VR、VisionPro等領(lǐng)域有非常廣泛的應(yīng)用前景。Sora為多個(gè)行業(yè)提供了創(chuàng)新的工具,使得視頻內(nèi)容的創(chuàng)作、編輯和定制變得更加高效和靈活。這不僅為現(xiàn)有的行業(yè)帶來顛覆性的改變,也為創(chuàng)新者和企業(yè)家創(chuàng)造了新的商業(yè)機(jī)會(huì)。而Sora將徹底顛覆傳統(tǒng)電影、動(dòng)畫、廣告行業(yè),早一步將Sora應(yīng)用到自己企業(yè)中將獲得極大的先發(fā)優(yōu)勢(shì)。
Sora 的發(fā)布標(biāo)志著人工智能技術(shù)邁入了一個(gè)新的時(shí)代。它不僅為我們提供了一個(gè)全新的創(chuàng)作工具,更是為我們打開了一扇通往未來的大門。讓我們一起期待,Sora 及其跟隨者們來如何改變我們的世界。
參考資料:OpenAI官網(wǎng)
https://openai.com/research/video-generation-models-as-world-simulators
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
最新文章
同學(xué)您好!