發(fā)布時間:2024-04-11 18:16:02 瀏覽量:187次
有個讀者深夜問了我一個問題,讓我思考了一個深夜。
一年前,我寫過一篇文章叫《我可能要給鼓吹A(chǔ)I的那些人,澆盆涼水了》。當時ChatGPT很火,整個網(wǎng)絡(luò)都把AI吹上了天。我則唱反調(diào),因為我就處在這個行業(yè)的底層,可謂知冷知熱。不過,我當時并沒有否定AI,只是表達AI并沒有傳說的那般無敵,談不上讓各行各業(yè)紛紛失業(yè)。首先,AI的門檻很高,基本是頭部企業(yè)的專屬,距離普通大眾還是很遠。另外,通用模型想要落地,必須要結(jié)合垂直行業(yè),還有一段很長的路要走。為此我還舉了3個現(xiàn)實案例,從算法算力、場景、數(shù)據(jù)來說明情況。
一年后的今天,這個提問再次引發(fā)了我的思考。
我想說,AI的前景依然是美好的,但它的發(fā)展速度卻遠遠超出了人們的預期,即:要很久以后才會發(fā)生的事情,往往轉(zhuǎn)眼就出現(xiàn)了。
繼生成式文字、圖片之后,生成式視頻又火了。其實,這從IT人看來,是必然的,并沒有什么大驚小怪的。因為不管是文字、圖片,還是音視頻,在計算機中都是以數(shù)字的形式存儲的。
比如,你看到的是大寫字母“A”,其實在電腦里存的是65。再比如,你看到的是一張圖片。其實,它也是以數(shù)字形式存儲的。音頻視頻都是這樣。這一點,我也在文章《僅憑1和0,電腦如何展現(xiàn)出多彩的世界?》中講過。
所以啊,一切媒體的本質(zhì)都是數(shù)字。既然文字可以通過AI生成,而且效果還很好。那么,圖片也可以。視頻當然也可以,它不過就是圖片加了一個時間維度而已。
雖然理論可行,然而現(xiàn)實中需要克服很多問題,包括設(shè)備上的、技術(shù)上的。比如,你生成的圖片,得合情合理啊。
我記得,去年很多平臺都說,自己的多模態(tài)大模型有一項功能,那就是可以指出一張不合理的圖片存在什么問題。比如,一張人身狗頭的圖片,不合理之處在于人的身體不可能長著一張狗頭。
其實,這并不是什么特意發(fā)布的功能。而是生成過程中,必須要做的一步校驗。如果這一步驗證都沒有,可以說AI生成的內(nèi)容沒有用(特意要求除外)。
看下面的這個視頻生成的案例。這是讓AI生成一群在路邊玩鬧的小狗。乍一看像是路邊實錄。但是你仔細看,視頻中一會兒三只狗,一會兒四只狗。有時候一個狗會突然出現(xiàn),有時候又進入了另一個狗的身體里消失不見。
這很詭異,甚至可以歸類為靈異事件,顯然是不符合常理的。實際上,現(xiàn)實的訓練數(shù)據(jù),可能會發(fā)生一只狗被另一只狗完全擋住。但是不會出現(xiàn)兩者融為一體的情況。
因此,AI要花時間和經(jīng)歷去進行合理性的檢測和改正。
再列舉一個類似的情況,比如你讓AI生成一段,小孩吃餅干的視頻。那么,根據(jù)常理,手里餅干肯定是越吃越小,小孩的肚子則會越吃越大。這時候,AI生成可能會出現(xiàn)餅干永遠都吃不完的現(xiàn)象。這在人類導演設(shè)計時會被考慮,但AI自己生成時則需要自動完成。
這些限制,會導致AI需要依托復雜的算法和強大的算力做彌補。這也是檢測一個AI是否足夠健全的小技巧。同時,也是我說的,它的出現(xiàn),需要一個過程。
然而現(xiàn)實情況是,這些問題已經(jīng)攻克了。
比如OpenAI的Sora,它就可以跟你的描述,生成一段一分鐘的視頻,而且視頻也合情合理。
比如,你告訴AI,讓它生成一段視頻,要求如下:一群紙飛機,在茂密的叢林中翩翩起舞,在樹林中穿梭,就像候鳥一樣。
結(jié)果,它真的就生成了。
如果說候鳥在叢林中穿梭,這并不稀奇,因為現(xiàn)實中有很多這種視頻。但是,紙飛機像候鳥一樣穿梭,這是不存在的。不過AI卻可以生成。我們看到,不管是形態(tài)還是動作,紙飛機做到了和候鳥一樣的飛行效果。它實現(xiàn)了虛擬的生成式合理。
再舉幾個例子。
比如你做了一個很虛幻的夢,你想把它還原成視覺效果。那么,你可以告訴AI:請幫我創(chuàng)造了一個超現(xiàn)實的夢境,一條長長的隧道,空氣中彌漫著超凡脫俗的能量。
這種感覺的視覺還原,通常是需要一個團隊合作才能做得出來。比如需要導演、編劇、特效師等角色的配合,甚至得開好幾個會議。但是,如果交給AI來做,將會很簡單。
又或者,你喜歡動漫,也喜歡宇宙,那么同樣可以根據(jù)描述創(chuàng)造出這個場景:一個動漫女孩,亞洲人,操作航天飛機駕駛艙的特寫,卡通般的人物,迷人的徽章,閃亮的眼睛。
還有一種情況,那就是你有一張靜態(tài)圖片,但是你需要以這張圖片為基礎(chǔ),拓展視頻效果。那么這也是可以的。
靜態(tài)圖片是這樣的:
視頻效果是這樣的:
小到你有一個漢堡包,懶得給它拍一個鏡頭,想讓AI生成。
靜態(tài)圖片是這樣的:
視頻效果是這樣的:
大到飛船的發(fā)射,錯過了起飛瞬間,你想讓AI給補充上。
靜態(tài)圖片是這樣的:
視頻效果是這樣的:
它的原理是使用了短小的精品影片資料進行了訓練,因此才可以將你的要求轉(zhuǎn)換為影片級別的成品。這番巨大的投入,也決定了生成的時間長不了。因為生成時間越長,對合理性的要求也就越高。因此,即便是OpenAI的Sora,目前最長支持也僅僅是60秒。
到這里,我會主動跟大家交代一個問題,那就是實際效果如何。
啥?你上面說的都是假的嗎?
上面的素材,都是取自官網(wǎng)。我們都知道,官網(wǎng)和樣板的案例,那是宣傳片,都是最完美的。你一用起來,完全不是那回事,就像是國內(nèi)方便面的外包裝圖案和實物。
我們不能說存在幾個例子是完美的,它就是完美的。具體還得看是否能被我們所用。
等到要真的使用時,平臺就變得很關(guān)鍵了。同樣都是免費AI生成平臺,差別真的很大。尤其是國內(nèi)與國外,頭部企業(yè)和普通企業(yè)。
比如,我想讓AI生成一個“守株待兔”的故事。先選擇了國內(nèi)某個頭部平臺。
呵呵,文不對題嗎?其實并不是,出現(xiàn)這個結(jié)果,純粹屬于我不會問。
在此也提醒大家,對生成式AI的提問,不要想當然,不能按照你的理解去問,需要按照AI能理解的方式來問。這里面還有一個專業(yè)的名詞叫:Prompt(提示語)。選平臺固然重要,會問也很重要。
你要盡量清楚地描述實際場景,因為AI對“守株待兔”的理解很模糊,它不一定知道這個故事。即便知道,它也不知道你具體想要什么。因此,我們需要換一種問法。
我把守株待兔的故事講給它聽,并讓它生成一張故事配圖。
???大哥,兔子和農(nóng)民是分開的。
到這里,可能你會覺得,啥呀,啥呀?AI都是騙人的,還來騙我。
其實,我覺得依然是問法不對。咱要描述場景啊,別講故事了。稍微修改一下Prompt:一個中國古代的農(nóng)民,守在田邊的樹樁旁發(fā)愣,遠處是長滿雜草的農(nóng)田。
噗……櫻桃小丸子爺爺都出來了。這讓我很想做幾期搞笑的生成過程,肯定比做科普受眾要廣。
不要放棄,我說過,平臺之間的差距是很大的,我們換國外的平臺,例如Stable。
到Stable上,你用“守株待兔”肯定白瞎,我們甚至還得將中文翻譯成英文。
Prompt如下:A farmer from ancient China stood by a tree stump beside the field, lost in thought. In the distance is a field covered with weeds.
看結(jié)果:
我覺得,第一張圖更符合意境。那么,我們就用它來繼續(xù)生成視頻。
首先上傳這張圖片,然后再進行一些設(shè)置,比如鏡頭旋轉(zhuǎn)之類的,怎樣好玩怎樣設(shè)置。
其實,你也可以直接寫下一段話,從文本描述直接生成視頻。但是,我還是建議先來生成一個圖片,看看效果。否則,周期太長,最后不滿意,容易浪費時間。配置好后,點擊Generate生成,即可產(chǎn)生視頻。
看起來,還不錯吧?這個鏡頭轉(zhuǎn)場,并不是圖片的水平移動,山脈、樹樁、草地,都進行了遠與近的視覺轉(zhuǎn)換。也算是比較恰當?shù)伢w現(xiàn)了農(nóng)夫等待兔子的那種落寞。
視頻生成,大體就是這么一個流程,這么一個東西。沒有講技術(shù)相關(guān)的內(nèi)容,主要希望大家對它能有一個基礎(chǔ)的橫向認識。
它可以做的工作還有很多,涉及的行業(yè)也比較廣??偨Y(jié)起來,會影響到有視頻制作需求的行業(yè)。比如影視、廣告、自媒體視頻創(chuàng)作。尤其在短視頻方面,現(xiàn)在網(wǎng)絡(luò)流量的80%是視頻流量。包括你我在內(nèi),只要具備看短視頻的條件,基本不會去看圖文。
現(xiàn)在全球都在降本增效。從上面我們可以看出,它降本增效的力度是很大的。在某些場景下,甚至能替代一個團隊,并且沒有任何溝通成本,利用AI,可能真的能實現(xiàn)“一人企業(yè)”。
真的,我們回想一下,以前電影制作一個特效是什么概念。我們不乏從新聞中看到,某某電影大制作,花了上千萬耗時兩年,制作出一個和人類一樣靈活的機器人。而現(xiàn)在,似乎你我都可以制作了。復雜嗎?上傳一段視頻唄!
這一次,還有一個顯著的變化,那就是AI開始走到田間地頭了。它不再是大廠和貴族的特權(quán)。你我皆可用,甚至說不僅僅是用,即便你想制作一個屬于自己的應用,或者說就為了自己用去做一個,也不是什么難事。比如字節(jié)新出的coze這類平臺,提供了全民皆可做AI的能力。我也寫過文章《字節(jié)新出的Coze,讓AI簡單得像扣扣子》解析,有興趣的可以了解一下。
最后,做一下總結(jié)。
關(guān)于市場前景。前景肯定是有的,上面說了那么多,如果你依然覺得它沒用,那……那再看一遍吧,前景是很明顯的。
關(guān)于技術(shù)水平。目前的技術(shù)水平差別較大,是呈階梯狀的,甚至是斷崖狀的??赡苤钡浆F(xiàn)在,還有人說AI只是一個概念。這些人,沒有接觸到一些前沿的信息?;蛘哒J為那是資本的運作,是炒作。當然,我們也不能看到一個特例,就認為它遍地都是了。不可否認的是,視頻的AI生成,已經(jīng)在快速成型,而且效果顯著。似乎視頻生成,是AI里最后一塊蛋糕了。文字、圖片、音頻、視頻都有了,后面還能生成什么呢?
關(guān)于危機感。危機感肯定是有的。每一次技術(shù)革命,都會引發(fā)大家思考這個問題。不要說普通人,我一個專業(yè)寫AI程序的人,都有危機感。但是我還是那個觀點,AI是替代人類勞動的,不是替代人的。不管是生成圖片、視頻,還是生成聊天內(nèi)容,它都是人類的一種彌補。它永遠代替不了人類。從情感上,它代替不了你的家人、朋友。從勞動上,它就算做得最好,也只能作為其中一個環(huán)節(jié)。即便它有37度的體溫,也沒有真正意義上心靈的溫度。
技術(shù)已經(jīng)擺在這里的,關(guān)于它更多的應用場景,想必在每個行業(yè)都能開出不同的花。愿我們?nèi)祟?,不卑不亢,平靜面對。
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...
最新文章
同學您好!