當(dāng)前位置：首頁 >人工智能 >零門檻解讀Sora生成視頻為什么牛，普通人可以提前做三點(diǎn)準(zhǔn)備

零門檻解讀Sora生成視頻為什么牛，普通人可以提前做三點(diǎn)準(zhǔn)備

發(fā)布時間：2024-03-28 18:02:11 瀏覽量：166次

過去這兩天，我的朋友圈和各個討論群里，都被OpenAI的Sora刷屏，這次的大招，給了全世界AI愛好者一個迎頭暴擊，直到現(xiàn)在我的腦袋還在嗡嗡作響。

不過我要提醒的是，現(xiàn)在OpenAI只是放出了一批實(shí)驗(yàn)視頻和一個簡單的研究論文，任何人跟你說他已經(jīng)用上了 Sora，可以付費(fèi)教你用Sora生成視頻，都是騙子。當(dāng)然，除非這個人是在OpenAI工作，或者是全球頂尖藝術(shù)家。不過這樣的人，應(yīng)該也不稀罕讓你微信轉(zhuǎn)他人民幣99塊。

我到今天才沉下心看完了那篇研究論文，有幾點(diǎn)收獲跟你分享一下。那篇論文不長，也不復(fù)雜，沒有公式和復(fù)雜的技術(shù)原理，我讓把全文翻譯鏈接放在最后，建議你看一下，絕對沒有我們高中課文的文言文難懂。

我的第一點(diǎn)收獲是，Sora這次的效果之所以這么驚艷，并不是因?yàn)樗麄儚牧汩_始原創(chuàng)了一個模型，他們采用的還是比較主流的擴(kuò)散模型。擴(kuò)散模型，你可以把它簡單理解為小鎮(zhèn)做題家的刷題模式，首先學(xué)習(xí)大量的視頻數(shù)據(jù)，在學(xué)習(xí)的過程中進(jìn)行理解，當(dāng)學(xué)習(xí)的視頻足夠多，即便看到一道陌生的題目，也還是能順利關(guān)聯(lián)到之前試題的知識點(diǎn)。與擴(kuò)散模型對應(yīng)的，還有GAN對抗模型，你就可以理解成 1 對 1 教學(xué)，學(xué)生做一道，老師評價和反饋看你做得好不好。

我看到OpenAI的兩位科學(xué)家，也是Sora的負(fù)責(zé)人威廉·皮布爾斯和蒂姆·布魯克斯，發(fā)推文說過去一年的勞動終于上線了。這就意味著文生視頻這個項(xiàng)目啟動已經(jīng)一年了，Sora已經(jīng)學(xué)習(xí)了海量的視頻數(shù)據(jù)。

我想分享的第二點(diǎn)是，你肯定很好奇，如果大家的技術(shù)路線一致，那為什么Sora的效果要比同行高出幾個層次呢？雖然企業(yè)基因論我一直覺得不靠譜，但是如果企業(yè)在某些方面曾經(jīng)成功過，那么在做創(chuàng)新業(yè)務(wù)時，也會有很多寶貴的內(nèi)部經(jīng)驗(yàn)可以利用。

從這篇論文里看出來，Sora完全站在了OpenAI成功產(chǎn)品的肩膀上，往上起跳的。例如OpenAI的ChatGPT背后是個大語言模型，會把一個句子拆成若干個token，可能是一個單詞，可能是一個詞組，也可能是一個短句。然后通過海量的數(shù)據(jù)訓(xùn)練，去推測下一個最大概率的token。ChatGPT之前，沒有人用這種粗暴的方式大力出奇跡。

但是這次Sora就借鑒了GPT的很多思路，直白點(diǎn)說，就是他們先把很多海量的視頻拆成低維的時空塊（patch，這個翻譯成補(bǔ)丁/視覺塊啥的都有，我個人喜歡“時空塊”這個名字，聽起來有點(diǎn)變形金剛的感覺），然后配合上GPT強(qiáng)大的語言能力，例如給視頻塊增加和擴(kuò)充文字描述。當(dāng)海量的訓(xùn)練視頻都用這種時空塊統(tǒng)一拆分學(xué)習(xí)后，來了一條新指令，就可以從不同的時空塊里預(yù)測和生成新的時空塊，最后再利用一個解碼模型，把時空塊變成生動的視頻。

看到這個的時候，我突然想起了三體人，在感知到頭頂上的三個太陽導(dǎo)致高溫時，三體人可以迅速脫水，排出身體內(nèi)大部分水分，變成一捆纖維素，像一張皮、一張紙那樣，可以卷起來堆放。而當(dāng)氣候環(huán)境變好、適宜生存時，三體人將脫水的身體浸泡在水中，就能恢復(fù)原樣，重新恢復(fù)為活生生的三體人。而Sora原理也是這樣，把生動的視頻壓縮成一個個分塊來訓(xùn)練，生成的時候先生成分塊，最后再注水。

這個原理說起來簡單，但是要做起來，如果沒有ChatGPT的成功經(jīng)驗(yàn)，敢于下決心這么來做可不容易。

這個不容易有三個原因，第一個當(dāng)然是其他公司都沒有這么做，沒有成功經(jīng)驗(yàn)就要冒風(fēng)險。第二個是既然要學(xué)習(xí)ChatGPT的方式，那很多內(nèi)部經(jīng)驗(yàn)也只有在OpenAI里面才能拿到，至少大力出奇跡時可以少走一些坑。第三個是最現(xiàn)實(shí)的，要知道GPT4訓(xùn)練一次的成本是6300萬美元。那還全是文本，如果是視頻數(shù)據(jù)呢？這訓(xùn)練一次的成本肯定過億了吧，其他幾家競品就算想到了這個方法，資金實(shí)力上也不允許這么直接燒錢。

我想說的第三點(diǎn)是，因?yàn)镺penAI有ChatGPT ，那可是歷史上最短時間用戶量過億的產(chǎn)品，所以他們對人類語言的理解水平要遠(yuǎn)遠(yuǎn)高于其他幾家專業(yè)的AI視頻公司。再加上ChatGPT運(yùn)行了一年多，輸入了各國語言和不同文化背景的用戶指令，他們懂得越來越多。

所以在做Sora時，其實(shí)會用一個語言模型，先把用戶的指令進(jìn)行擴(kuò)寫和改寫，然后再輸入到視頻模型里。就相當(dāng)于人類其實(shí)給了一個作文題，然后語言模型先寫一篇描寫場景的小作文，最后Sora根據(jù)這篇作文去生成視頻。所以細(xì)節(jié)會比其他AI視頻產(chǎn)品強(qiáng)太多。

聽到這里，你是不是覺得有點(diǎn)累？覺得跟自己沒有太大關(guān)系？下面我就說一下，既然Sora大家暫時都用不到，有什么事情是可以提前預(yù)習(xí)的。

我先給大家念一條Sora的視頻生成提示詞：“無人機(jī)拍攝的海浪拍擊大蘇爾加雷角海灘崎嶇懸崖的景象。蔚藍(lán)的海水激起白色的波浪，夕陽的金色光芒照亮了巖石海岸。遠(yuǎn)處有一座小島，島上有一座燈塔，懸崖邊長滿了綠色的灌木叢。從公路到海灘的陡峭落差是一項(xiàng)戲劇性的壯舉，懸崖邊緣伸出海面。這一景觀捕捉到了海岸的原始之美和太平洋海岸公路的崎嶇景觀。”

哪怕沒有看到視頻，只是聽到這段話，是不是腦海里已經(jīng)出現(xiàn)了一個海邊懸崖的波瀾壯闊的畫面？如果你只是簡單寫一句“無人機(jī)拍一個海邊的懸崖，懸崖上有一個燈塔”，我相信出來的視頻效果肯定是買家秀和賣家秀的區(qū)別。這個視頻我也放在文末的鏈接里了，你可以結(jié)合上面的提示詞看一下，估計(jì)會有更多的收獲。

在我看來，不管是文生視頻，還是文生圖，技術(shù)底層關(guān)注的是那個“生”字，而我們普通人，需要關(guān)注的是那個“文”字。千萬不要覺得用AI生成這些東西，必須要學(xué)計(jì)算機(jī)或者理科。很多理科生短板就在表達(dá)上，文字指令寫不好，出來的圖和視頻肯定是沒有那個意境的。想想看，有文化的你輸入一個“大漠孤煙直，長河落日圓”，沒文化的我輸入一個“沙漠的上空掛一個圓太陽”，估計(jì)AI會更容易理解你的需求。

這幾天，我發(fā)現(xiàn)不少群里都會有朋友感嘆“看到這波 AI 發(fā)展，真可惜自己是個文科生”，我強(qiáng)烈建議你把所謂的文科生/理科生這種非黑即白的分類拋棄掉，那是你高中高考時的分類方式，不要讓 15 歲時的選擇成為你一輩子的限制。如果從我的經(jīng)歷來看，我是個典型的理科生，從初三我就知道自己會選擇數(shù)理化，高一就分班，在河南那種地獄高考難度搏殺出來，大學(xué)進(jìn)的還是物理系。但是這并不影響寫作成為我的一個特長。

這波 AI 革命，在我看到最大的好處就是一下子降低了很多專業(yè)技能的門檻，讓我們每個人都可以發(fā)揮自己的長板。

既然知道Sora會帶來AI視頻的革命，那么我們現(xiàn)在就可以開始做三點(diǎn)準(zhǔn)備。

1.持續(xù)閱讀。

雖然我們不提倡功利化的閱讀，但是在閱讀的過程中，如果有特別有畫面感的文字描述，你完全可以記錄下來，作為你筆記里的一個特殊分類，標(biāo)簽就可以叫“這段兒值得變視頻”。

舉個例子，金庸老先生的小說里，有很多的段落非常有畫面感。例如《書劍恩仇錄》里陳家洛第一次見到美麗的香香公主的時候，場景是這么描述的：“眼前一片大湖，湖的南端又是一條大瀑布，水花四濺，日光映照，現(xiàn)出一條彩虹，湖周花樹參差，雜花紅白相間，倒映在碧綠的湖水之中，奇麗莫名。遠(yuǎn)處是大片青草平原，無邊無際的延伸出去，與天相接，草地上幾百只白羊在奔跑吃草。草原西端一座高山參天而起，聳入云霄，從山腰起全是皚皚白雪，山腰以下卻生滿蒼翠樹木。他凝望湖面，忽見湖水中微微起了一點(diǎn)漪漣，一只潔白如玉的手臂從湖中伸了上來，接著一個濕淋淋的頭從水中鉆出，一轉(zhuǎn)頭，看見了他，一聲驚叫，又鉆入水中?！?/span>

這就是非常好的生成視頻指令素材。當(dāng)你積累了幾百條這種場景描述，怎么還會發(fā)愁寫不出好的指令呢？

2.多看一些經(jīng)典電影或者劇集。

這個跟多讀書的作用類似，但是效果會更加直接明顯一些。例如一些電影的精彩鏡頭，你完全可以通過截屏或者是片段的方式變成自己的素材庫，有點(diǎn)兒像積累PPT的模版庫。很多PPT新手之所以做得慢，是因?yàn)橐獪?zhǔn)備做之前，才開始搜索和下載模板，反復(fù)糾結(jié)和嘗試調(diào)整，浪費(fèi)了寶貴的時間。而一些經(jīng)常做PPT的高手，自己擁有非常龐大的素材庫，從背景圖到模板到字體，需要的時候隨時調(diào)用就好了。

Sora開放的時候，肯定會支持從圖片直接變視頻，例如你就可以拿一張“阿甘在空曠無人、直通天際的公路上獨(dú)自奔跑”的圖片，讓AI給你生成一段視頻，把人物換成你，場景換成某個街道。

3.在有余力的情況下，學(xué)習(xí)一些剪輯/構(gòu)圖的入門技巧

作為普通人，我們不用學(xué)習(xí)太專業(yè)的攝影攝像知識，但是了解一些基礎(chǔ)的構(gòu)圖、景別、剪輯等知識，學(xué)著用剪映等剪輯軟件，把你的日常視頻片段嘗試剪成一個完整的小短片，會讓你在未來指揮AI生成視頻時更加得心應(yīng)手。

既然大家都知道變革已來，咱們別捂眼當(dāng)看不見，現(xiàn)在就可以想象一下，如果 Sora 開放出來，我們要做的第一個視頻是什么。

如果實(shí)在沒有想法，你把你每天的夢境記錄下來，未來試試用 AI 視頻成為你朋友圈里的 AI 造夢師，還是挺有意思的。相關(guān)：

OpenAI Sora 模型官方技術(shù)報(bào)告全文翻譯文檔

https://dedao.feishu.cn/wiki/HnBjwu4sEi687pkHcZEc9xD1nxY

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國教博會發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇騰訊的“Sora”來了!一鍵實(shí)現(xiàn)圖生視頻!

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
2. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
8. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
9. AI顯卡繪畫排行榜:4090無懸念，最具性價比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

零門檻解讀Sora生成視頻為什么牛，普通人可以提前做三點(diǎn)準(zhǔn)備

請綁定手機(jī)號

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

零門檻解讀Sora生成視頻為什么牛，普通人可以提前做三點(diǎn)準(zhǔn)備

請綁定手機(jī)號

零門檻解讀Sora生成視頻為什么牛，普通人可以提前做三點(diǎn)準(zhǔn)備