發(fā)布時(shí)間:2024-03-05 17:34:06 瀏覽量:205次
2024年2月16日,Open AI在X(原 Twitter)上發(fā)布了一條消息,隆重介紹了自己的新文本轉(zhuǎn)視頻模型——Sora。
這個(gè)模型可以生成最長60秒的視頻,并且在這個(gè)過程中,還能夠自己切換鏡頭,甚至給出特寫。下面這些,就是視頻提示詞譯文及Sora直接根據(jù)提示詞英文原文生成的“作品”。
一位時(shí)尚的女士走在亮著霓虹燈和廣告牌的東京街頭。她穿著黑色皮夾克、紅色長裙和黑色靴子,手提一只黑色包包。她戴著太陽鏡,涂著紅色口紅。她走路既自信又隨意。街道潮濕,地面上的水能夠像鏡面一樣反射色彩斑斕的燈光,路上有很多行人來來往往。
一段3D動(dòng)畫,展現(xiàn)一種又小又圓的毛茸茸生物在一個(gè)充滿活力的、被魔法環(huán)繞的森林中探險(xiǎn)。這種生物是兔子和松鼠的混合體,擁有柔軟的藍(lán)色皮毛和一條蓬松的帶有條紋的尾巴。它沿著一條閃閃發(fā)光的小溪跳躍,眼睛充滿了好奇。森林里充滿了魔法元素:有發(fā)光并能變換顏色的花朵,有紫色和銀色葉子的樹木,以及有類似螢火蟲的漂浮的光點(diǎn)。這個(gè)生物最終停下來與一群圍繞著蘑菇跳舞的小仙子玩耍。這個(gè)生物抬頭敬畏地看著一棵巨大發(fā)光樹木,這棵樹似乎是森林的心臟。
乍一看這些視頻,你可能會(huì)以為它們是專業(yè)拍攝團(tuán)隊(duì)或者是動(dòng)畫公司制作的視頻短片。在OpenAI的社區(qū)中,也不乏同樣感受的網(wǎng)友評(píng)論稱擔(dān)心Sora會(huì)搶走動(dòng)畫師的飯碗。
圖片為機(jī)器翻譯后截取自:community.openai.com
還有一些人擔(dān)心這樣的技術(shù)會(huì)不會(huì)被用來偽造視頻,甚至被用來在法庭上作偽證。
圖片為機(jī)器翻譯后截取自:X
那Sora是如何生成這樣的視頻的?它真的無所不能,會(huì)搶走人類飯碗嗎?
Sora怎么生成視頻?
從2022年下半年開始,Midjourney、Stable Diffusion之類的應(yīng)用已經(jīng)可以根據(jù)文本提示詞生成對(duì)應(yīng)的圖片了。在2023年9月,GPT 4.0和DALLE 3結(jié)合,也讓我們能夠用聊天化的方式生成、修改圖片。
AI生成視頻也不是什么新鮮事了。在這次的Sora發(fā)布之前,也已經(jīng)有一些視頻生成AI,比如Pika、Stable video、RunwayML等等。但與Sora相比,其他模型生成視頻的時(shí)長都比較短,而且在攝像機(jī)的運(yùn)動(dòng)、鏡頭切換等方面也要弱很多。
那么,Sora又是如何生成視頻的呢?
Open AI發(fā)布了一份Sora的技術(shù)報(bào)告,在報(bào)告中提到“Sora是一個(gè)擴(kuò)散模型”。
Sora是一個(gè)擴(kuò)散模型,圖片來源:Open AI官網(wǎng)
擴(kuò)散模型本身很復(fù)雜,我們不去講具體的細(xì)節(jié),僅僅通過一個(gè)簡單的例子,大致理解擴(kuò)散模型的思路。
假如我們現(xiàn)在有一張狗狗的照片,我們可以一步步給這張照片增加噪點(diǎn),讓它變得越來越模糊,最終會(huì)變成一堆雜亂的噪點(diǎn)。
添加噪聲與去除噪聲,圖片來源:參考資料[3]
假如把這個(gè)過程倒過來,對(duì)于一堆雜亂無章的噪點(diǎn),我們同樣可以一步步去除噪點(diǎn),把它還原成目標(biāo)圖片,擴(kuò)散模型的關(guān)鍵就是學(xué)會(huì)逆向去除噪點(diǎn)。
當(dāng)然了,擴(kuò)散模型不僅可以用來生成圖片,還可以用來生成視頻。比如,在Sora的技術(shù)報(bào)告中提到了,Open AI對(duì)視頻數(shù)據(jù)進(jìn)行了一些轉(zhuǎn)換處理,讓視頻數(shù)據(jù)可以直接用來訓(xùn)練模型,從而讓Sora能夠直接根據(jù)提示詞生成視頻。
Sora對(duì)視頻數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,圖片來源:Open AI官網(wǎng)
Sora強(qiáng)大的視頻創(chuàng)作能力
按照Open AI的說法,Sora“繼承”了Open AI對(duì)文本的理解能力,能夠根據(jù)提示詞生成出高質(zhì)量的圖片和視頻,并且能夠?qū)σ曨l進(jìn)行向前或者向后的拓展。比如,可以基于同一個(gè)視頻開頭繼續(xù)拓展,延伸出不一樣的結(jié)尾。或者是從不同的開頭引入,最終匯聚到同一個(gè)結(jié)尾。
這三個(gè)視頻開頭最終都會(huì)走向同一個(gè)結(jié)尾,圖片截取自:Open AI官網(wǎng)
另外,Sora不僅可以根據(jù)文本生成視頻,也可以直接輸入圖片或者視頻,對(duì)圖片和視頻進(jìn)行編輯調(diào)整。
比如可以將這輛行駛在普通道路上的汽車變得更“賽博朋克”一些。
圖片截取自:Open AI官網(wǎng)
另外,Sora也表現(xiàn)出了一些之前未曾想到的本領(lǐng),比如它可以跟隨著對(duì)象移動(dòng)鏡頭,并且在移動(dòng)鏡頭轉(zhuǎn)換角度的時(shí)候,依然能保持周圍的景象的合理、完整。
“強(qiáng)大的Sora”仍有一些缺陷
雖然Sora展現(xiàn)出了強(qiáng)大的能力,但現(xiàn)階段它還不夠完美。
并不是每一次Sora都能生成出令人滿意的視頻?!堵槭±砉た萍荚u(píng)論(MIT Technology Review)》主筆Will Douglas Heaven寫道:“Sora發(fā)布出來的視頻已經(jīng)是從大量的成果中挑選出的佼佼者了?!钡幢闶沁@些“經(jīng)過挑選的佼佼者”也不完美。
在Sora的技術(shù)報(bào)告中也承認(rèn),現(xiàn)階段Sora生成的視頻存在一些缺陷。比如,下面這個(gè)“考古工作者們挖掘出一個(gè)塑料椅”的視頻片段里,這個(gè)塑料椅顯然有點(diǎn)不遵守客觀的物理規(guī)律。
另外,下面這個(gè)玻璃杯破碎的過程也不那么“科學(xué)”——在杯子破裂之前,杯子里的液體就已經(jīng)流出來了。
所以,Sora還有很多需要完善的地方。但毫無疑問,目前Sora展現(xiàn)出來的能力已經(jīng)說明了,這是一條非常有前景的道路。
Sora安全嗎?
會(huì)取代人類嗎?
這幾天,Sora生成的視頻刷爆了許多人的朋友圈,人們除了感嘆Sora的厲害,同樣也展現(xiàn)出了擔(dān)憂,這些擔(dān)憂集中在兩個(gè)方面。
第一個(gè)擔(dān)憂是:Sora生成視頻的能力實(shí)在是太厲害了,如果這樣的技術(shù)被用來造假,豈不是太可怕了?未來我們?cè)趺粗揽吹降囊曨l是真的還是假的?
而另一個(gè)擔(dān)憂主要來自視頻行業(yè)的從業(yè)者,如果Sora這樣的模型普及開來,視頻行業(yè)從業(yè)者是不是都要丟了飯碗?
先說說安全問題。其實(shí),Open AI也考慮到了Sora可能帶來的安全問題。目前,Sora僅對(duì)少數(shù)人開放,在確保它不會(huì)被用來做壞事之前,Sora是不會(huì)向大眾開放的。
那Sora是否會(huì)代替人類視頻工作者?
可以肯定的是,Sora的出現(xiàn)可能會(huì)威脅一些動(dòng)畫素材的制作者。
比如,今年1月,《好萊塢報(bào)道》進(jìn)行了一項(xiàng)針對(duì)300名娛樂行業(yè)領(lǐng)導(dǎo)者的調(diào)查,有四分之三的受訪者表示AI會(huì)減少未來的工作崗位,未來3年內(nèi)大約會(huì)有20多萬個(gè)職位受到影響。而Sora優(yōu)異的表現(xiàn)會(huì)加重這一影響。
但換一個(gè)角度想,每一次新興技術(shù)的出現(xiàn)在帶來威脅的同時(shí)也會(huì)帶來新的機(jī)會(huì)。
包括Sora在內(nèi)的視頻生成AI只是一個(gè)工具,視頻的創(chuàng)意來源還是需要人類提供。Sora或許能夠幫助人類更高效地生產(chǎn)視頻,同時(shí),也讓每一個(gè)普通人都有機(jī)會(huì)制作自己的創(chuàng)意視頻。
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
10. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
最新文章
同學(xué)您好!