發(fā)布時(shí)間:2024-04-11 18:16:02 瀏覽量:187次
有個(gè)讀者深夜問了我一個(gè)問題,讓我思考了一個(gè)深夜。
一年前,我寫過一篇文章叫《我可能要給鼓吹A(chǔ)I的那些人,澆盆涼水了》。當(dāng)時(shí)ChatGPT很火,整個(gè)網(wǎng)絡(luò)都把AI吹上了天。我則唱反調(diào),因?yàn)槲揖吞幵谶@個(gè)行業(yè)的底層,可謂知冷知熱。不過,我當(dāng)時(shí)并沒有否定AI,只是表達(dá)AI并沒有傳說的那般無敵,談不上讓各行各業(yè)紛紛失業(yè)。首先,AI的門檻很高,基本是頭部企業(yè)的專屬,距離普通大眾還是很遠(yuǎn)。另外,通用模型想要落地,必須要結(jié)合垂直行業(yè),還有一段很長的路要走。為此我還舉了3個(gè)現(xiàn)實(shí)案例,從算法算力、場(chǎng)景、數(shù)據(jù)來說明情況。
一年后的今天,這個(gè)提問再次引發(fā)了我的思考。
我想說,AI的前景依然是美好的,但它的發(fā)展速度卻遠(yuǎn)遠(yuǎn)超出了人們的預(yù)期,即:要很久以后才會(huì)發(fā)生的事情,往往轉(zhuǎn)眼就出現(xiàn)了。
繼生成式文字、圖片之后,生成式視頻又火了。其實(shí),這從IT人看來,是必然的,并沒有什么大驚小怪的。因?yàn)椴还苁俏淖?、圖片,還是音視頻,在計(jì)算機(jī)中都是以數(shù)字的形式存儲(chǔ)的。
比如,你看到的是大寫字母“A”,其實(shí)在電腦里存的是65。再比如,你看到的是一張圖片。其實(shí),它也是以數(shù)字形式存儲(chǔ)的。音頻視頻都是這樣。這一點(diǎn),我也在文章《僅憑1和0,電腦如何展現(xiàn)出多彩的世界?》中講過。
所以啊,一切媒體的本質(zhì)都是數(shù)字。既然文字可以通過AI生成,而且效果還很好。那么,圖片也可以。視頻當(dāng)然也可以,它不過就是圖片加了一個(gè)時(shí)間維度而已。
雖然理論可行,然而現(xiàn)實(shí)中需要克服很多問題,包括設(shè)備上的、技術(shù)上的。比如,你生成的圖片,得合情合理啊。
我記得,去年很多平臺(tái)都說,自己的多模態(tài)大模型有一項(xiàng)功能,那就是可以指出一張不合理的圖片存在什么問題。比如,一張人身狗頭的圖片,不合理之處在于人的身體不可能長著一張狗頭。
其實(shí),這并不是什么特意發(fā)布的功能。而是生成過程中,必須要做的一步校驗(yàn)。如果這一步驗(yàn)證都沒有,可以說AI生成的內(nèi)容沒有用(特意要求除外)。
看下面的這個(gè)視頻生成的案例。這是讓AI生成一群在路邊玩鬧的小狗。乍一看像是路邊實(shí)錄。但是你仔細(xì)看,視頻中一會(huì)兒三只狗,一會(huì)兒四只狗。有時(shí)候一個(gè)狗會(huì)突然出現(xiàn),有時(shí)候又進(jìn)入了另一個(gè)狗的身體里消失不見。
這很詭異,甚至可以歸類為靈異事件,顯然是不符合常理的。實(shí)際上,現(xiàn)實(shí)的訓(xùn)練數(shù)據(jù),可能會(huì)發(fā)生一只狗被另一只狗完全擋住。但是不會(huì)出現(xiàn)兩者融為一體的情況。
因此,AI要花時(shí)間和經(jīng)歷去進(jìn)行合理性的檢測(cè)和改正。
再列舉一個(gè)類似的情況,比如你讓AI生成一段,小孩吃餅干的視頻。那么,根據(jù)常理,手里餅干肯定是越吃越小,小孩的肚子則會(huì)越吃越大。這時(shí)候,AI生成可能會(huì)出現(xiàn)餅干永遠(yuǎn)都吃不完的現(xiàn)象。這在人類導(dǎo)演設(shè)計(jì)時(shí)會(huì)被考慮,但AI自己生成時(shí)則需要自動(dòng)完成。
這些限制,會(huì)導(dǎo)致AI需要依托復(fù)雜的算法和強(qiáng)大的算力做彌補(bǔ)。這也是檢測(cè)一個(gè)AI是否足夠健全的小技巧。同時(shí),也是我說的,它的出現(xiàn),需要一個(gè)過程。
然而現(xiàn)實(shí)情況是,這些問題已經(jīng)攻克了。
比如OpenAI的Sora,它就可以跟你的描述,生成一段一分鐘的視頻,而且視頻也合情合理。
比如,你告訴AI,讓它生成一段視頻,要求如下:一群紙飛機(jī),在茂密的叢林中翩翩起舞,在樹林中穿梭,就像候鳥一樣。
結(jié)果,它真的就生成了。
如果說候鳥在叢林中穿梭,這并不稀奇,因?yàn)楝F(xiàn)實(shí)中有很多這種視頻。但是,紙飛機(jī)像候鳥一樣穿梭,這是不存在的。不過AI卻可以生成。我們看到,不管是形態(tài)還是動(dòng)作,紙飛機(jī)做到了和候鳥一樣的飛行效果。它實(shí)現(xiàn)了虛擬的生成式合理。
再舉幾個(gè)例子。
比如你做了一個(gè)很虛幻的夢(mèng),你想把它還原成視覺效果。那么,你可以告訴AI:請(qǐng)幫我創(chuàng)造了一個(gè)超現(xiàn)實(shí)的夢(mèng)境,一條長長的隧道,空氣中彌漫著超凡脫俗的能量。
這種感覺的視覺還原,通常是需要一個(gè)團(tuán)隊(duì)合作才能做得出來。比如需要導(dǎo)演、編劇、特效師等角色的配合,甚至得開好幾個(gè)會(huì)議。但是,如果交給AI來做,將會(huì)很簡(jiǎn)單。
又或者,你喜歡動(dòng)漫,也喜歡宇宙,那么同樣可以根據(jù)描述創(chuàng)造出這個(gè)場(chǎng)景:一個(gè)動(dòng)漫女孩,亞洲人,操作航天飛機(jī)駕駛艙的特寫,卡通般的人物,迷人的徽章,閃亮的眼睛。
還有一種情況,那就是你有一張靜態(tài)圖片,但是你需要以這張圖片為基礎(chǔ),拓展視頻效果。那么這也是可以的。
靜態(tài)圖片是這樣的:
視頻效果是這樣的:
小到你有一個(gè)漢堡包,懶得給它拍一個(gè)鏡頭,想讓AI生成。
靜態(tài)圖片是這樣的:
視頻效果是這樣的:
大到飛船的發(fā)射,錯(cuò)過了起飛瞬間,你想讓AI給補(bǔ)充上。
靜態(tài)圖片是這樣的:
視頻效果是這樣的:
它的原理是使用了短小的精品影片資料進(jìn)行了訓(xùn)練,因此才可以將你的要求轉(zhuǎn)換為影片級(jí)別的成品。這番巨大的投入,也決定了生成的時(shí)間長不了。因?yàn)樯蓵r(shí)間越長,對(duì)合理性的要求也就越高。因此,即便是OpenAI的Sora,目前最長支持也僅僅是60秒。
到這里,我會(huì)主動(dòng)跟大家交代一個(gè)問題,那就是實(shí)際效果如何。
啥?你上面說的都是假的嗎?
上面的素材,都是取自官網(wǎng)。我們都知道,官網(wǎng)和樣板的案例,那是宣傳片,都是最完美的。你一用起來,完全不是那回事,就像是國內(nèi)方便面的外包裝圖案和實(shí)物。
我們不能說存在幾個(gè)例子是完美的,它就是完美的。具體還得看是否能被我們所用。
等到要真的使用時(shí),平臺(tái)就變得很關(guān)鍵了。同樣都是免費(fèi)AI生成平臺(tái),差別真的很大。尤其是國內(nèi)與國外,頭部企業(yè)和普通企業(yè)。
比如,我想讓AI生成一個(gè)“守株待兔”的故事。先選擇了國內(nèi)某個(gè)頭部平臺(tái)。
呵呵,文不對(duì)題嗎?其實(shí)并不是,出現(xiàn)這個(gè)結(jié)果,純粹屬于我不會(huì)問。
在此也提醒大家,對(duì)生成式AI的提問,不要想當(dāng)然,不能按照你的理解去問,需要按照AI能理解的方式來問。這里面還有一個(gè)專業(yè)的名詞叫:Prompt(提示語)。選平臺(tái)固然重要,會(huì)問也很重要。
你要盡量清楚地描述實(shí)際場(chǎng)景,因?yàn)锳I對(duì)“守株待兔”的理解很模糊,它不一定知道這個(gè)故事。即便知道,它也不知道你具體想要什么。因此,我們需要換一種問法。
我把守株待兔的故事講給它聽,并讓它生成一張故事配圖。
?。看蟾?,兔子和農(nóng)民是分開的。
到這里,可能你會(huì)覺得,啥呀,啥呀?AI都是騙人的,還來騙我。
其實(shí),我覺得依然是問法不對(duì)。咱要描述場(chǎng)景啊,別講故事了。稍微修改一下Prompt:一個(gè)中國古代的農(nóng)民,守在田邊的樹樁旁發(fā)愣,遠(yuǎn)處是長滿雜草的農(nóng)田。
噗……櫻桃小丸子爺爺都出來了。這讓我很想做幾期搞笑的生成過程,肯定比做科普受眾要廣。
不要放棄,我說過,平臺(tái)之間的差距是很大的,我們換國外的平臺(tái),例如Stable。
到Stable上,你用“守株待兔”肯定白瞎,我們甚至還得將中文翻譯成英文。
Prompt如下:A farmer from ancient China stood by a tree stump beside the field, lost in thought. In the distance is a field covered with weeds.
看結(jié)果:
我覺得,第一張圖更符合意境。那么,我們就用它來繼續(xù)生成視頻。
首先上傳這張圖片,然后再進(jìn)行一些設(shè)置,比如鏡頭旋轉(zhuǎn)之類的,怎樣好玩怎樣設(shè)置。
其實(shí),你也可以直接寫下一段話,從文本描述直接生成視頻。但是,我還是建議先來生成一個(gè)圖片,看看效果。否則,周期太長,最后不滿意,容易浪費(fèi)時(shí)間。配置好后,點(diǎn)擊Generate生成,即可產(chǎn)生視頻。
看起來,還不錯(cuò)吧?這個(gè)鏡頭轉(zhuǎn)場(chǎng),并不是圖片的水平移動(dòng),山脈、樹樁、草地,都進(jìn)行了遠(yuǎn)與近的視覺轉(zhuǎn)換。也算是比較恰當(dāng)?shù)伢w現(xiàn)了農(nóng)夫等待兔子的那種落寞。
視頻生成,大體就是這么一個(gè)流程,這么一個(gè)東西。沒有講技術(shù)相關(guān)的內(nèi)容,主要希望大家對(duì)它能有一個(gè)基礎(chǔ)的橫向認(rèn)識(shí)。
它可以做的工作還有很多,涉及的行業(yè)也比較廣??偨Y(jié)起來,會(huì)影響到有視頻制作需求的行業(yè)。比如影視、廣告、自媒體視頻創(chuàng)作。尤其在短視頻方面,現(xiàn)在網(wǎng)絡(luò)流量的80%是視頻流量。包括你我在內(nèi),只要具備看短視頻的條件,基本不會(huì)去看圖文。
現(xiàn)在全球都在降本增效。從上面我們可以看出,它降本增效的力度是很大的。在某些場(chǎng)景下,甚至能替代一個(gè)團(tuán)隊(duì),并且沒有任何溝通成本,利用AI,可能真的能實(shí)現(xiàn)“一人企業(yè)”。
真的,我們回想一下,以前電影制作一個(gè)特效是什么概念。我們不乏從新聞中看到,某某電影大制作,花了上千萬耗時(shí)兩年,制作出一個(gè)和人類一樣靈活的機(jī)器人。而現(xiàn)在,似乎你我都可以制作了。復(fù)雜嗎?上傳一段視頻唄!
這一次,還有一個(gè)顯著的變化,那就是AI開始走到田間地頭了。它不再是大廠和貴族的特權(quán)。你我皆可用,甚至說不僅僅是用,即便你想制作一個(gè)屬于自己的應(yīng)用,或者說就為了自己用去做一個(gè),也不是什么難事。比如字節(jié)新出的coze這類平臺(tái),提供了全民皆可做AI的能力。我也寫過文章《字節(jié)新出的Coze,讓AI簡(jiǎn)單得像扣扣子》解析,有興趣的可以了解一下。
最后,做一下總結(jié)。
關(guān)于市場(chǎng)前景。前景肯定是有的,上面說了那么多,如果你依然覺得它沒用,那……那再看一遍吧,前景是很明顯的。
關(guān)于技術(shù)水平。目前的技術(shù)水平差別較大,是呈階梯狀的,甚至是斷崖狀的??赡苤钡浆F(xiàn)在,還有人說AI只是一個(gè)概念。這些人,沒有接觸到一些前沿的信息?;蛘哒J(rèn)為那是資本的運(yùn)作,是炒作。當(dāng)然,我們也不能看到一個(gè)特例,就認(rèn)為它遍地都是了。不可否認(rèn)的是,視頻的AI生成,已經(jīng)在快速成型,而且效果顯著。似乎視頻生成,是AI里最后一塊蛋糕了。文字、圖片、音頻、視頻都有了,后面還能生成什么呢?
關(guān)于危機(jī)感。危機(jī)感肯定是有的。每一次技術(shù)革命,都會(huì)引發(fā)大家思考這個(gè)問題。不要說普通人,我一個(gè)專業(yè)寫AI程序的人,都有危機(jī)感。但是我還是那個(gè)觀點(diǎn),AI是替代人類勞動(dòng)的,不是替代人的。不管是生成圖片、視頻,還是生成聊天內(nèi)容,它都是人類的一種彌補(bǔ)。它永遠(yuǎn)代替不了人類。從情感上,它代替不了你的家人、朋友。從勞動(dòng)上,它就算做得最好,也只能作為其中一個(gè)環(huán)節(jié)。即便它有37度的體溫,也沒有真正意義上心靈的溫度。
技術(shù)已經(jīng)擺在這里的,關(guān)于它更多的應(yīng)用場(chǎng)景,想必在每個(gè)行業(yè)都能開出不同的花。愿我們?nèi)祟?,不卑不亢,平靜面對(duì)。
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡(jiǎn)單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
10. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
最新文章
同學(xué)您好!