激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

零門檻解讀Sora生成視頻為什么牛,普通人可以提前做三點(diǎn)準(zhǔn)備

發(fā)布時間:2024-03-28 18:02:11 瀏覽量:166次

過去這兩天,我的朋友圈和各個討論群里,都被OpenAI的Sora刷屏,這次的大招,給了全世界AI愛好者一個迎頭暴擊,直到現(xiàn)在我的腦袋還在嗡嗡作響。

不過我要提醒的是,現(xiàn)在OpenAI只是放出了一批實(shí)驗(yàn)視頻和一個簡單的研究論文,任何人跟你說他已經(jīng)用上了 Sora,可以付費(fèi)教你用Sora生成視頻,都是騙子。當(dāng)然,除非這個人是在OpenAI工作,或者是全球頂尖藝術(shù)家。不過這樣的人,應(yīng)該也不稀罕讓你微信轉(zhuǎn)他人民幣99塊。

我到今天才沉下心看完了那篇研究論文,有幾點(diǎn)收獲跟你分享一下。那篇論文不長,也不復(fù)雜,沒有公式和復(fù)雜的技術(shù)原理,我讓把全文翻譯鏈接放在最后,建議你看一下,絕對沒有我們高中課文的文言文難懂。

我的第一點(diǎn)收獲是,Sora這次的效果之所以這么驚艷,并不是因?yàn)樗麄儚牧汩_始原創(chuàng)了一個模型,他們采用的還是比較主流的擴(kuò)散模型。擴(kuò)散模型,你可以把它簡單理解為小鎮(zhèn)做題家的刷題模式,首先學(xué)習(xí)大量的視頻數(shù)據(jù),在學(xué)習(xí)的過程中進(jìn)行理解,當(dāng)學(xué)習(xí)的視頻足夠多,即便看到一道陌生的題目,也還是能順利關(guān)聯(lián)到之前試題的知識點(diǎn)。與擴(kuò)散模型對應(yīng)的,還有GAN對抗模型,你就可以理解成 1 對 1 教學(xué),學(xué)生做一道,老師評價和反饋看你做得好不好。

我看到OpenAI的兩位科學(xué)家,也是Sora的負(fù)責(zé)人威廉·皮布爾斯和蒂姆·布魯克斯,發(fā)推文說過去一年的勞動終于上線了。這就意味著文生視頻這個項(xiàng)目啟動已經(jīng)一年了,Sora已經(jīng)學(xué)習(xí)了海量的視頻數(shù)據(jù)。

我想分享的第二點(diǎn)是,你肯定很好奇,如果大家的技術(shù)路線一致,那為什么Sora的效果要比同行高出幾個層次呢?雖然企業(yè)基因論我一直覺得不靠譜,但是如果企業(yè)在某些方面曾經(jīng)成功過,那么在做創(chuàng)新業(yè)務(wù)時,也會有很多寶貴的內(nèi)部經(jīng)驗(yàn)可以利用。

從這篇論文里看出來,Sora完全站在了OpenAI成功產(chǎn)品的肩膀上,往上起跳的。例如OpenAI的ChatGPT背后是個大語言模型,會把一個句子拆成若干個token,可能是一個單詞,可能是一個詞組,也可能是一個短句。然后通過海量的數(shù)據(jù)訓(xùn)練,去推測下一個最大概率的token。ChatGPT之前,沒有人用這種粗暴的方式大力出奇跡。

但是這次Sora就借鑒了GPT的很多思路,直白點(diǎn)說,就是他們先把很多海量的視頻拆成低維的時空塊(patch,這個翻譯成補(bǔ)丁/視覺塊啥的都有,我個人喜歡“時空塊”這個名字,聽起來有點(diǎn)變形金剛的感覺),然后配合上GPT強(qiáng)大的語言能力,例如給視頻塊增加和擴(kuò)充文字描述。當(dāng)海量的訓(xùn)練視頻都用這種時空塊統(tǒng)一拆分學(xué)習(xí)后,來了一條新指令,就可以從不同的時空塊里預(yù)測和生成新的時空塊,最后再利用一個解碼模型,把時空塊變成生動的視頻。

看到這個的時候,我突然想起了三體人,在感知到頭頂上的三個太陽導(dǎo)致高溫時,三體人可以迅速脫水,排出身體內(nèi)大部分水分,變成一捆纖維素,像一張皮、一張紙那樣,可以卷起來堆放。而當(dāng)氣候環(huán)境變好、適宜生存時,三體人將脫水的身體浸泡在水中,就能恢復(fù)原樣,重新恢復(fù)為活生生的三體人。而Sora原理也是這樣,把生動的視頻壓縮成一個個分塊來訓(xùn)練,生成的時候先生成分塊,最后再注水。

這個原理說起來簡單,但是要做起來,如果沒有ChatGPT的成功經(jīng)驗(yàn),敢于下決心這么來做可不容易。

這個不容易有三個原因,第一個當(dāng)然是其他公司都沒有這么做,沒有成功經(jīng)驗(yàn)就要冒風(fēng)險。第二個是既然要學(xué)習(xí)ChatGPT的方式,那很多內(nèi)部經(jīng)驗(yàn)也只有在OpenAI里面才能拿到,至少大力出奇跡時可以少走一些坑。第三個是最現(xiàn)實(shí)的,要知道GPT4訓(xùn)練一次的成本是6300萬美元。那還全是文本,如果是視頻數(shù)據(jù)呢?這訓(xùn)練一次的成本肯定過億了吧,其他幾家競品就算想到了這個方法,資金實(shí)力上也不允許這么直接燒錢。

我想說的第三點(diǎn)是,因?yàn)镺penAI有ChatGPT ,那可是歷史上最短時間用戶量過億的產(chǎn)品,所以他們對人類語言的理解水平要遠(yuǎn)遠(yuǎn)高于其他幾家專業(yè)的AI視頻公司。再加上ChatGPT運(yùn)行了一年多,輸入了各國語言和不同文化背景的用戶指令,他們懂得越來越多。

所以在做Sora時,其實(shí)會用一個語言模型,先把用戶的指令進(jìn)行擴(kuò)寫和改寫,然后再輸入到視頻模型里。就相當(dāng)于人類其實(shí)給了一個作文題,然后語言模型先寫一篇描寫場景的小作文,最后Sora根據(jù)這篇作文去生成視頻。所以細(xì)節(jié)會比其他AI視頻產(chǎn)品強(qiáng)太多。

聽到這里,你是不是覺得有點(diǎn)累?覺得跟自己沒有太大關(guān)系?下面我就說一下,既然Sora大家暫時都用不到,有什么事情是可以提前預(yù)習(xí)的。

我先給大家念一條Sora的視頻生成提示詞:“無人機(jī)拍攝的海浪拍擊大蘇爾加雷角海灘崎嶇懸崖的景象。蔚藍(lán)的海水激起白色的波浪,夕陽的金色光芒照亮了巖石海岸。遠(yuǎn)處有一座小島,島上有一座燈塔,懸崖邊長滿了綠色的灌木叢。從公路到海灘的陡峭落差是一項(xiàng)戲劇性的壯舉,懸崖邊緣伸出海面。這一景觀捕捉到了海岸的原始之美和太平洋海岸公路的崎嶇景觀。

哪怕沒有看到視頻,只是聽到這段話,是不是腦海里已經(jīng)出現(xiàn)了一個海邊懸崖的波瀾壯闊的畫面?如果你只是簡單寫一句“無人機(jī)拍一個海邊的懸崖,懸崖上有一個燈塔”,我相信出來的視頻效果肯定是買家秀和賣家秀的區(qū)別。這個視頻我也放在文末的鏈接里了,你可以結(jié)合上面的提示詞看一下,估計(jì)會有更多的收獲。

在我看來,不管是文生視頻,還是文生圖,技術(shù)底層關(guān)注的是那個“生”字,而我們普通人,需要關(guān)注的是那個“文”字。千萬不要覺得用AI生成這些東西,必須要學(xué)計(jì)算機(jī)或者理科。很多理科生短板就在表達(dá)上,文字指令寫不好,出來的圖和視頻肯定是沒有那個意境的。想想看,有文化的你輸入一個“大漠孤煙直,長河落日圓”,沒文化的我輸入一個“沙漠的上空掛一個圓太陽”,估計(jì)AI會更容易理解你的需求。

這幾天,我發(fā)現(xiàn)不少群里都會有朋友感嘆“看到這波 AI 發(fā)展,真可惜自己是個文科生”,我強(qiáng)烈建議你把所謂的文科生/理科生這種非黑即白的分類拋棄掉,那是你高中高考時的分類方式,不要讓 15 歲時的選擇成為你一輩子的限制。如果從我的經(jīng)歷來看,我是個典型的理科生,從初三我就知道自己會選擇數(shù)理化,高一就分班,在河南那種地獄高考難度搏殺出來,大學(xué)進(jìn)的還是物理系。但是這并不影響寫作成為我的一個特長。

這波 AI 革命,在我看到最大的好處就是一下子降低了很多專業(yè)技能的門檻,讓我們每個人都可以發(fā)揮自己的長板。

既然知道Sora會帶來AI視頻的革命,那么我們現(xiàn)在就可以開始做三點(diǎn)準(zhǔn)備。

1.持續(xù)閱讀。

雖然我們不提倡功利化的閱讀,但是在閱讀的過程中,如果有特別有畫面感的文字描述,你完全可以記錄下來,作為你筆記里的一個特殊分類,標(biāo)簽就可以叫“這段兒值得變視頻”。

舉個例子,金庸老先生的小說里,有很多的段落非常有畫面感。例如《書劍恩仇錄》里陳家洛第一次見到美麗的香香公主的時候,場景是這么描述的:“眼前一片大湖,湖的南端又是一條大瀑布,水花四濺,日光映照,現(xiàn)出一條彩虹,湖周花樹參差,雜花紅白相間,倒映在碧綠的湖水之中,奇麗莫名。遠(yuǎn)處是大片青草平原,無邊無際的延伸出去,與天相接,草地上幾百只白羊在奔跑吃草。草原西端一座高山參天而起,聳入云霄,從山腰起全是皚皚白雪,山腰以下卻生滿蒼翠樹木。他凝望湖面,忽見湖水中微微起了一點(diǎn)漪漣,一只潔白如玉的手臂從湖中伸了上來,接著一個濕淋淋的頭從水中鉆出,一轉(zhuǎn)頭,看見了他,一聲驚叫,又鉆入水中?!?/span>

這就是非常好的生成視頻指令素材。當(dāng)你積累了幾百條這種場景描述,怎么還會發(fā)愁寫不出好的指令呢?

2.多看一些經(jīng)典電影或者劇集。

這個跟多讀書的作用類似,但是效果會更加直接明顯一些。例如一些電影的精彩鏡頭,你完全可以通過截屏或者是片段的方式變成自己的素材庫,有點(diǎn)兒像積累PPT的模版庫。很多PPT新手之所以做得慢,是因?yàn)橐獪?zhǔn)備做之前,才開始搜索和下載模板,反復(fù)糾結(jié)和嘗試調(diào)整,浪費(fèi)了寶貴的時間。而一些經(jīng)常做PPT的高手,自己擁有非常龐大的素材庫,從背景圖到模板到字體,需要的時候隨時調(diào)用就好了。

Sora開放的時候,肯定會支持從圖片直接變視頻,例如你就可以拿一張“阿甘在空曠無人、直通天際的公路上獨(dú)自奔跑”的圖片,讓AI給你生成一段視頻,把人物換成你,場景換成某個街道。

3.在有余力的情況下,學(xué)習(xí)一些剪輯/構(gòu)圖的入門技巧

作為普通人,我們不用學(xué)習(xí)太專業(yè)的攝影攝像知識,但是了解一些基礎(chǔ)的構(gòu)圖、景別、剪輯等知識,學(xué)著用剪映等剪輯軟件,把你的日常視頻片段嘗試剪成一個完整的小短片,會讓你在未來指揮AI生成視頻時更加得心應(yīng)手。

既然大家都知道變革已來,咱們別捂眼當(dāng)看不見,現(xiàn)在就可以想象一下,如果 Sora 開放出來,我們要做的第一個視頻是什么。

如果實(shí)在沒有想法,你把你每天的夢境記錄下來,未來試試用 AI 視頻成為你朋友圈里的 AI 造夢師,還是挺有意思的。相關(guān):

OpenAI Sora 模型官方技術(shù)報(bào)告全文翻譯文檔

https://dedao.feishu.cn/wiki/HnBjwu4sEi687pkHcZEc9xD1nxY

熱門課程推薦

熱門資訊

請綁定手機(jī)號

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定