當(dāng)前位置：首頁 >人工智能 >Sora:視頻生成界的規(guī)則改變者

Sora:視頻生成界的規(guī)則改變者

發(fā)布時(shí)間：2024-03-28 10:29:19 瀏覽量：117次

前言

2024年2月16日，OpenAI突然公布了一項(xiàng)核彈級(jí)的成果，發(fā)布了驚艷的文生成視頻大模型——Sora。

登錄OpenAI的首頁，看到一篇充滿深意的Sora技術(shù)報(bào)告，標(biāo)題為“視頻生成模型是世界的模擬器”。該報(bào)告的結(jié)尾處有一句引人深思的話，"我們相信，Sora 如今所展現(xiàn)出的能力表明，持續(xù)擴(kuò)展視頻模型是一條通往強(qiáng)大模擬器的希望之路，可以模擬物理世界、數(shù)字世界以及生活在這些世界中的對(duì)象、動(dòng)物和人。"

Sora的能力超乎想象，它不僅能夠根據(jù)文字提示詞創(chuàng)造出既逼真又富有想象力的場景，還能生成長達(dá)一分鐘的超長視頻。在此之前，Runway GEN2、Pika等AI視頻工具仍在努力突破幾秒視頻的連貫性限制，但Sora已經(jīng)以驚人的速度登頂。

接下來，我將帶你深入探索Sora的多種技能及其精妙之處，讓我們一起感受Sora的魅力。

Sora強(qiáng)大的功能展示

01擴(kuò)展了采樣靈活性

首先，Sora 可以對(duì)寬屏 1920x1080p 視頻、垂直 1080x1920p 視頻以及介于兩者之間的所有視頻進(jìn)行采樣。這使 Sora 可以直接以原始縱橫比為不同設(shè)備創(chuàng)建內(nèi)容。它還使我們能夠在以全分辨率生成之前以較小的尺寸快速制作內(nèi)容原型。

02改進(jìn)的構(gòu)圖與取景

在OpenAI對(duì)Sora進(jìn)行原始縱橫比視頻訓(xùn)練時(shí)，他們發(fā)現(xiàn)可以通過大量訓(xùn)練改善構(gòu)圖和取景。在訓(xùn)練后，他們自己比較了兩個(gè)版本的Sora取景，所有訓(xùn)練視頻都被裁剪成正方形。結(jié)果顯示，新版本的Sora在取景方面取得了顯著的進(jìn)步。

03提高語言理解能力

為了解決用戶發(fā)出的長短不一、千奇百怪提示詞的問題，OpenAI訓(xùn)練模型去理解視頻，并為視頻加上了相應(yīng)的文本標(biāo)題，以確保訓(xùn)練數(shù)據(jù)的多樣性。此外，他們還利用GPT將用戶簡短的提示詞轉(zhuǎn)換成了詳細(xì)且容易理解的語句，然后發(fā)送給視頻模型，讓Sora能夠非常準(zhǔn)確地遵循用戶的提示詞來生成視頻。這種方法的應(yīng)用大大提高了Sora生成視頻的質(zhì)量和準(zhǔn)確性。

04使用圖像或視頻作為參考提示

如果生成的視頻與您想象的不同，或者您希望視頻能夠準(zhǔn)確展現(xiàn)您腦海中的形象，您可以嘗試提供更具體和詳細(xì)的指導(dǎo)，嘗試使用圖片作為參考圖片來控制生成的視頻。OpenAI在技術(shù)文檔中列舉了一些例子，基于他們自家的圖像生成DALL.E模型的圖像供大家參考。這種技術(shù)Sora可以根據(jù)您提供的圖片來更精準(zhǔn)地控制生成的視頻，使您的想象得以實(shí)現(xiàn)，讓圖片動(dòng)起來，擴(kuò)展成為視頻。這展示了Sora在圖像控制方面的驚人能力。

05延長生成的視頻的時(shí)長

除了改善構(gòu)圖和取景，Sora還具備向前或向后拓展視頻的能力。例如，短視頻的創(chuàng)作者可能會(huì)覺得視頻長度太短，這時(shí)他們可以對(duì)其視頻進(jìn)行擴(kuò)展。這種擴(kuò)展非常有趣，因?yàn)樗梢宰屢曨l變得更加生動(dòng)。在官方文檔中，他們給出了一個(gè)無限循環(huán)的擴(kuò)展實(shí)例，這個(gè)實(shí)例展示了Sora在擴(kuò)展視頻方面的強(qiáng)大能力。

06強(qiáng)大的視頻剪輯能力

除了擴(kuò)展視頻的能力，Sora還具備驚人的視頻剪輯能力。在技術(shù)文檔中，他們展示了Sora能夠從零鏡頭轉(zhuǎn)換輸出視頻的風(fēng)格與環(huán)境，這個(gè)效果相當(dāng)令人震驚。這意味著Sora可以讓視頻創(chuàng)作者在不同的風(fēng)格和環(huán)境中切換，從而實(shí)現(xiàn)更多樣化的創(chuàng)意表現(xiàn)。

07連接視頻

在官方文檔中，Sora被運(yùn)用在與兩個(gè)視頻中間的連接，可以實(shí)現(xiàn)兩個(gè)環(huán)境不同，甚至可以說是毫不相干的視頻之間的無縫過渡，并且這個(gè)過程在觀感上非常順暢，讓人感覺AI幫助生成微電影的展望就在眼前。

08涌現(xiàn)出的模擬能力

OpenAI在訓(xùn)練Sora的過程中發(fā)現(xiàn)了許多有趣的能力。這些能力使得Sora能夠真正地模擬物理世界中的人類、動(dòng)物、環(huán)境等各種方面，而且對(duì)于各種物體，它并沒有出現(xiàn)明顯的歸納偏差。具體表現(xiàn)在以下幾個(gè)方面：

3D一致性

Sora對(duì)于生成的具有動(dòng)態(tài)視角移動(dòng)的視頻，隨著視角的移動(dòng)與旋轉(zhuǎn)，人物跟場景元素都在其生成的這個(gè)三維空間內(nèi)一致的移動(dòng)，沒有明顯的誤差感。

長程連貫性和對(duì)象永恒性

Sora的另一個(gè)令人震驚的功能是，在更多的情況下，它能夠有效地模擬短程和長程的依賴。這意味著，如果一個(gè)人在視頻中生成，他就成為了一個(gè)擁有自己專屬屬性的個(gè)體。即使他目前不在視角范圍內(nèi)，過幾十秒再次出現(xiàn)，他的樣貌、穿著等也不會(huì)發(fā)生改變。這種功能可以讓視頻創(chuàng)作者更輕松地控制視頻中的元素，從而實(shí)現(xiàn)更加豐富的創(chuàng)意表達(dá)。

與現(xiàn)實(shí)世界的互動(dòng)性

Sora可以與現(xiàn)實(shí)世界進(jìn)行簡單的物理互動(dòng)。盡管不能涉及太深入，OpenAI也承認(rèn)在這方面做得還不夠完美。

模擬數(shù)字世界

通過大型模型來模擬數(shù)字世界的能力是在Sora的訓(xùn)練過程中涌現(xiàn)出來的。這種能力使得Sora能夠更好地與虛擬世界進(jìn)行互動(dòng)，展現(xiàn)了其在數(shù)字模擬方面的潛力。

不過，Sora也并非全是優(yōu)點(diǎn)，比如可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理或把握因果關(guān)系?？臻g細(xì)節(jié)也不存在，因?yàn)樵撃Ｐ瓦€可能混合左右，并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件，例如遵循特定的相機(jī)軌跡。畢竟電腦生成的不一定能把握住所有的現(xiàn)實(shí)世界的物理細(xì)節(jié)。

對(duì)行業(yè)有哪些顛覆性的改變？

Sora展現(xiàn)出來的強(qiáng)大的能力，讓其具有非常廣泛的應(yīng)用前景。它為娛樂和媒體產(chǎn)業(yè)、教育和培訓(xùn)、廣告和營銷、模擬和培訓(xùn)、內(nèi)容創(chuàng)作、視頻編輯和后期制作等多個(gè)領(lǐng)域提供了創(chuàng)新的工具。

娛樂和媒體產(chǎn)業(yè)

Sora可以為電影制作、視頻游戲開發(fā)和其他形式的娛樂提供前所未有的創(chuàng)新可能性。它能夠生成定制的視頻內(nèi)容，為故事敘述和視覺效果帶來革命性的變化。

教育和培訓(xùn)領(lǐng)域

Sora可以用來創(chuàng)建教學(xué)視頻，根據(jù)學(xué)生的需要定制內(nèi)容，使學(xué)習(xí)體驗(yàn)更加個(gè)性化和互動(dòng)。

廣告和營銷領(lǐng)域

Sora能夠根據(jù)品牌的需求生成吸引人的廣告視頻，大大降低內(nèi)容創(chuàng)作的成本和時(shí)間，同時(shí)提高廣告的創(chuàng)意和個(gè)性化水平。

模擬和培訓(xùn)領(lǐng)域

Sora可以創(chuàng)建逼真的訓(xùn)練視頻，幫助專業(yè)人員在安全的虛擬環(huán)境中學(xué)習(xí)和練習(xí)。

內(nèi)容創(chuàng)作領(lǐng)域

Sora提供了一種快速、高效創(chuàng)建高質(zhì)量視頻內(nèi)容的方法，無論是用于社交媒體、教育平臺(tái)還是個(gè)人娛樂。

視頻編輯和后期制作領(lǐng)域

Sora的能力意味著在視頻編輯和后期制作過程中，創(chuàng)作者可以更容易地修改和改進(jìn)視頻內(nèi)容，甚至從頭創(chuàng)造全新的場景和效果。

總的來說，Sora在AR、VR、VisionPro等領(lǐng)域有非常廣泛的應(yīng)用前景。Sora為多個(gè)行業(yè)提供了創(chuàng)新的工具，使得視頻內(nèi)容的創(chuàng)作、編輯和定制變得更加高效和靈活。這不僅為現(xiàn)有的行業(yè)帶來顛覆性的改變，也為創(chuàng)新者和企業(yè)家創(chuàng)造了新的商業(yè)機(jī)會(huì)。而Sora將徹底顛覆傳統(tǒng)電影、動(dòng)畫、廣告行業(yè)，早一步將Sora應(yīng)用到自己企業(yè)中將獲得極大的先發(fā)優(yōu)勢(shì)。

Sora 的發(fā)布標(biāo)志著人工智能技術(shù)邁入了一個(gè)新的時(shí)代。它不僅為我們提供了一個(gè)全新的創(chuàng)作工具，更是為我們打開了一扇通往未來的大門。讓我們一起期待，Sora 及其跟隨者們來如何改變我們的世界。

參考資料：OpenAI官網(wǎng)

https://openai.com/research/video-generation-models-as-world-simulators

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國教博會(huì)發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇 OpenAI推出視頻生成模型Sora，一句文本描述即可生成17秒櫻花視頻

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個(gè)方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個(gè)方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
2. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動(dòng)起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動(dòng)起來，快來了解Viggle AI的功能和優(yōu)勢(shì)吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念，最具性價(jià)比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线