激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

通俗講解:AI生成視頻是什么|效果如何|對什么行業(yè)有影響?

發(fā)布時間:2024-04-11 18:16:02 瀏覽量:187次

有個讀者深夜問了我一個問題,讓我思考了一個深夜。

一年前,我寫過一篇文章叫《我可能要給鼓吹A(chǔ)I的那些人,澆盆涼水了》。當時ChatGPT很火,整個網(wǎng)絡(luò)都把AI吹上了天。我則唱反調(diào),因為我就處在這個行業(yè)的底層,可謂知冷知熱。不過,我當時并沒有否定AI,只是表達AI并沒有傳說的那般無敵,談不上讓各行各業(yè)紛紛失業(yè)。首先,AI的門檻很高,基本是頭部企業(yè)的專屬,距離普通大眾還是很遠。另外,通用模型想要落地,必須要結(jié)合垂直行業(yè),還有一段很長的路要走。為此我還舉了3個現(xiàn)實案例,從算法算力、場景、數(shù)據(jù)來說明情況。

一年后的今天,這個提問再次引發(fā)了我的思考。

我想說,AI的前景依然是美好的,但它的發(fā)展速度卻遠遠超出了人們的預期,即:要很久以后才會發(fā)生的事情,往往轉(zhuǎn)眼就出現(xiàn)了。

一切皆數(shù)字:視頻生成是必然結(jié)果

繼生成式文字、圖片之后,生成式視頻又火了。其實,這從IT人看來,是必然的,并沒有什么大驚小怪的。因為不管是文字、圖片,還是音視頻,在計算機中都是以數(shù)字的形式存儲的。

比如,你看到的是大寫字母“A”,其實在電腦里存的是65。再比如,你看到的是一張圖片。其實,它也是以數(shù)字形式存儲的。音頻視頻都是這樣。這一點,我也在文章《僅憑1和0,電腦如何展現(xiàn)出多彩的世界?》中講過。

所以啊,一切媒體的本質(zhì)都是數(shù)字。既然文字可以通過AI生成,而且效果還很好。那么,圖片也可以。視頻當然也可以,它不過就是圖片加了一個時間維度而已。

雖然理論可行,然而現(xiàn)實中需要克服很多問題,包括設(shè)備上的、技術(shù)上的。比如,你生成的圖片,得合情合理啊。

連續(xù)合理:視頻生成難度更大

我記得,去年很多平臺都說,自己的多模態(tài)大模型有一項功能,那就是可以指出一張不合理的圖片存在什么問題。比如,一張人身狗頭的圖片,不合理之處在于人的身體不可能長著一張狗頭。

其實,這并不是什么特意發(fā)布的功能。而是生成過程中,必須要做的一步校驗。如果這一步驗證都沒有,可以說AI生成的內(nèi)容沒有用(特意要求除外)。

看下面的這個視頻生成的案例。這是讓AI生成一群在路邊玩鬧的小狗。乍一看像是路邊實錄。但是你仔細看,視頻中一會兒三只狗,一會兒四只狗。有時候一個狗會突然出現(xiàn),有時候又進入了另一個狗的身體里消失不見。

這很詭異,甚至可以歸類為靈異事件,顯然是不符合常理的。實際上,現(xiàn)實的訓練數(shù)據(jù),可能會發(fā)生一只狗被另一只狗完全擋住。但是不會出現(xiàn)兩者融為一體的情況。

因此,AI要花時間和經(jīng)歷去進行合理性的檢測和改正。

再列舉一個類似的情況,比如你讓AI生成一段,小孩吃餅干的視頻。那么,根據(jù)常理,手里餅干肯定是越吃越小,小孩的肚子則會越吃越大。這時候,AI生成可能會出現(xiàn)餅干永遠都吃不完的現(xiàn)象。這在人類導演設(shè)計時會被考慮,但AI自己生成時則需要自動完成。

這些限制,會導致AI需要依托復雜的算法和強大的算力做彌補。這也是檢測一個AI是否足夠健全的小技巧。同時,也是我說的,它的出現(xiàn),需要一個過程。

案例展播:效果出人意料

然而現(xiàn)實情況是,這些問題已經(jīng)攻克了。

比如OpenAI的Sora,它就可以跟你的描述,生成一段一分鐘的視頻,而且視頻也合情合理。

比如,你告訴AI,讓它生成一段視頻,要求如下:一群紙飛機,在茂密的叢林中翩翩起舞,在樹林中穿梭,就像候鳥一樣。

結(jié)果,它真的就生成了。

如果說候鳥在叢林中穿梭,這并不稀奇,因為現(xiàn)實中有很多這種視頻。但是,紙飛機像候鳥一樣穿梭,這是不存在的。不過AI卻可以生成。我們看到,不管是形態(tài)還是動作,紙飛機做到了和候鳥一樣的飛行效果。它實現(xiàn)了虛擬的生成式合理。

再舉幾個例子。

比如你做了一個很虛幻的夢,你想把它還原成視覺效果。那么,你可以告訴AI:請幫我創(chuàng)造了一個超現(xiàn)實的夢境,一條長長的隧道,空氣中彌漫著超凡脫俗的能量。

這種感覺的視覺還原,通常是需要一個團隊合作才能做得出來。比如需要導演、編劇、特效師等角色的配合,甚至得開好幾個會議。但是,如果交給AI來做,將會很簡單。

又或者,你喜歡動漫,也喜歡宇宙,那么同樣可以根據(jù)描述創(chuàng)造出這個場景:一個動漫女孩,亞洲人,操作航天飛機駕駛艙的特寫,卡通般的人物,迷人的徽章,閃亮的眼睛。

還有一種情況,那就是你有一張靜態(tài)圖片,但是你需要以這張圖片為基礎(chǔ),拓展視頻效果。那么這也是可以的。

靜態(tài)圖片是這樣的:

視頻效果是這樣的:

小到你有一個漢堡包,懶得給它拍一個鏡頭,想讓AI生成。

靜態(tài)圖片是這樣的:

視頻效果是這樣的:

大到飛船的發(fā)射,錯過了起飛瞬間,你想讓AI給補充上。

靜態(tài)圖片是這樣的:

視頻效果是這樣的:

它的原理是使用了短小的精品影片資料進行了訓練,因此才可以將你的要求轉(zhuǎn)換為影片級別的成品。這番巨大的投入,也決定了生成的時間長不了。因為生成時間越長,對合理性的要求也就越高。因此,即便是OpenAI的Sora,目前最長支持也僅僅是60秒。

平臺差異:參差不齊,差別巨大

到這里,我會主動跟大家交代一個問題,那就是實際效果如何。

啥?你上面說的都是假的嗎?

上面的素材,都是取自官網(wǎng)。我們都知道,官網(wǎng)和樣板的案例,那是宣傳片,都是最完美的。你一用起來,完全不是那回事,就像是國內(nèi)方便面的外包裝圖案和實物。

我們不能說存在幾個例子是完美的,它就是完美的。具體還得看是否能被我們所用。

等到要真的使用時,平臺就變得很關(guān)鍵了。同樣都是免費AI生成平臺,差別真的很大。尤其是國內(nèi)與國外,頭部企業(yè)和普通企業(yè)。

比如,我想讓AI生成一個“守株待兔”的故事。先選擇了國內(nèi)某個頭部平臺。

呵呵,文不對題嗎?其實并不是,出現(xiàn)這個結(jié)果,純粹屬于我不會問。

在此也提醒大家,對生成式AI的提問,不要想當然,不能按照你的理解去問,需要按照AI能理解的方式來問。這里面還有一個專業(yè)的名詞叫:Prompt(提示語)。選平臺固然重要,會問也很重要。

你要盡量清楚地描述實際場景,因為AI對“守株待兔”的理解很模糊,它不一定知道這個故事。即便知道,它也不知道你具體想要什么。因此,我們需要換一種問法。

我把守株待兔的故事講給它聽,并讓它生成一張故事配圖。

???大哥,兔子和農(nóng)民是分開的。

到這里,可能你會覺得,啥呀,啥呀?AI都是騙人的,還來騙我。

其實,我覺得依然是問法不對。咱要描述場景啊,別講故事了。稍微修改一下Prompt:一個中國古代的農(nóng)民,守在田邊的樹樁旁發(fā)愣,遠處是長滿雜草的農(nóng)田。

噗……櫻桃小丸子爺爺都出來了。這讓我很想做幾期搞笑的生成過程,肯定比做科普受眾要廣。

不要放棄,我說過,平臺之間的差距是很大的,我們換國外的平臺,例如Stable。

到Stable上,你用“守株待兔”肯定白瞎,我們甚至還得將中文翻譯成英文。

Prompt如下:A farmer from ancient China stood by a tree stump beside the field, lost in thought. In the distance is a field covered with weeds.

看結(jié)果:

我覺得,第一張圖更符合意境。那么,我們就用它來繼續(xù)生成視頻。

首先上傳這張圖片,然后再進行一些設(shè)置,比如鏡頭旋轉(zhuǎn)之類的,怎樣好玩怎樣設(shè)置。

其實,你也可以直接寫下一段話,從文本描述直接生成視頻。但是,我還是建議先來生成一個圖片,看看效果。否則,周期太長,最后不滿意,容易浪費時間。配置好后,點擊Generate生成,即可產(chǎn)生視頻。

看起來,還不錯吧?這個鏡頭轉(zhuǎn)場,并不是圖片的水平移動,山脈、樹樁、草地,都進行了遠與近的視覺轉(zhuǎn)換。也算是比較恰當?shù)伢w現(xiàn)了農(nóng)夫等待兔子的那種落寞。

機遇挑戰(zhàn):視頻處理更加簡單

視頻生成,大體就是這么一個流程,這么一個東西。沒有講技術(shù)相關(guān)的內(nèi)容,主要希望大家對它能有一個基礎(chǔ)的橫向認識。

它可以做的工作還有很多,涉及的行業(yè)也比較廣??偨Y(jié)起來,會影響到有視頻制作需求的行業(yè)。比如影視、廣告、自媒體視頻創(chuàng)作。尤其在短視頻方面,現(xiàn)在網(wǎng)絡(luò)流量的80%是視頻流量。包括你我在內(nèi),只要具備看短視頻的條件,基本不會去看圖文。

現(xiàn)在全球都在降本增效。從上面我們可以看出,它降本增效的力度是很大的。在某些場景下,甚至能替代一個團隊,并且沒有任何溝通成本,利用AI,可能真的能實現(xiàn)“一人企業(yè)”。

真的,我們回想一下,以前電影制作一個特效是什么概念。我們不乏從新聞中看到,某某電影大制作,花了上千萬耗時兩年,制作出一個和人類一樣靈活的機器人。而現(xiàn)在,似乎你我都可以制作了。復雜嗎?上傳一段視頻唄!

總結(jié):全民AI時代慢慢到來

這一次,還有一個顯著的變化,那就是AI開始走到田間地頭了。它不再是大廠和貴族的特權(quán)。你我皆可用,甚至說不僅僅是用,即便你想制作一個屬于自己的應用,或者說就為了自己用去做一個,也不是什么難事。比如字節(jié)新出的coze這類平臺,提供了全民皆可做AI的能力。我也寫過文章《字節(jié)新出的Coze,讓AI簡單得像扣扣子》解析,有興趣的可以了解一下。

最后,做一下總結(jié)。

關(guān)于市場前景。前景肯定是有的,上面說了那么多,如果你依然覺得它沒用,那……那再看一遍吧,前景是很明顯的。

關(guān)于技術(shù)水平。目前的技術(shù)水平差別較大,是呈階梯狀的,甚至是斷崖狀的??赡苤钡浆F(xiàn)在,還有人說AI只是一個概念。這些人,沒有接觸到一些前沿的信息?;蛘哒J為那是資本的運作,是炒作。當然,我們也不能看到一個特例,就認為它遍地都是了。不可否認的是,視頻的AI生成,已經(jīng)在快速成型,而且效果顯著。似乎視頻生成,是AI里最后一塊蛋糕了。文字、圖片、音頻、視頻都有了,后面還能生成什么呢?

關(guān)于危機感。危機感肯定是有的。每一次技術(shù)革命,都會引發(fā)大家思考這個問題。不要說普通人,我一個專業(yè)寫AI程序的人,都有危機感。但是我還是那個觀點,AI是替代人類勞動的,不是替代人的。不管是生成圖片、視頻,還是生成聊天內(nèi)容,它都是人類的一種彌補。它永遠代替不了人類。從情感上,它代替不了你的家人、朋友。從勞動上,它就算做得最好,也只能作為其中一個環(huán)節(jié)。即便它有37度的體溫,也沒有真正意義上心靈的溫度。

技術(shù)已經(jīng)擺在這里的,關(guān)于它更多的應用場景,想必在每個行業(yè)都能開出不同的花。愿我們?nèi)祟?,不卑不亢,平靜面對。



熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定