發(fā)布時(shí)間:2024-04-01 14:04:00 瀏覽量:94次
文|王怡寧
編輯|鄧詠儀 尚恩
Google又又又發(fā)布了新模型,這次是在文生/圖生視頻賽道又“卷”了一把對(duì)手們。
12月19日,谷歌專門發(fā)了一款搞視頻生成的模型VideoPoet,不僅能支持根據(jù)視頻加入音頻效果,允許交互編輯,更重要的是,VideoPoet現(xiàn)在可以生成更長的視頻了。簡(jiǎn)而言之,這次的模型看起來更加全能了。
看過Demo后的網(wǎng)友們直接表示:
好牛,所以什么時(shí)候能用上?
圖源:Twitter
近期的AI生成視頻賽道的新模型層出不窮,網(wǎng)友們被信息轟炸地應(yīng)接不暇,看到新模型的第一反應(yīng)大概就是:這次的模型有什么不一樣?哪里最有看頭?
不得不說,雖然VideoPoet已經(jīng)是Google本月發(fā)布的第N個(gè)模型了,但質(zhì)量和效果依然在線,在功能上也有不少突破。
圖源:VideoPoet
當(dāng)然,VideoPoet還有不少新的看點(diǎn)。
加入音頻效果
以往的文生視頻和圖生視頻幾乎都是在“卷”畫面的清晰度,這一次,Google注意到了被忽視的音效,讓AI在生成視頻的基礎(chǔ)上,還能在沒有任何文本提示詞的情況下,根據(jù)視頻內(nèi)容生成相應(yīng)的音頻。
在官方放出的Demo里,VideoPoet就自動(dòng)為正在吃爆米花的小狗配上了“咔擦咔擦”的音效,效果逼真。告別“默片時(shí)代”,AI生成視頻離電影和動(dòng)畫距離又近一步。
視頻時(shí)長顯著提升
看一圈目前做AI視頻生成的工具,一個(gè)最大痛點(diǎn)就是,時(shí)長普遍在2-4秒。比如Stability AI的AI視頻生成模型Stable Video Diffusion,也有這個(gè)問題。
究其原因,主要是訓(xùn)練素材受限等方面,這多少也讓人覺得有些意猶未盡。
不過,VideoPoet巧妙地通過重復(fù)的方法延長了視頻長度,即讓AI根據(jù)前一個(gè)視頻的最后一秒接著預(yù)測(cè)下一秒的內(nèi)容。這種方法不僅大大擴(kuò)展了視頻長度,還能做到對(duì)原視頻內(nèi)容的高保真呈現(xiàn)。
圖源:VideoPoet
Prompt:
An astronaut starts dancing on Mars. Colorful fireworks then explode in the background.”一個(gè)宇航員開始在火星上跳舞,五顏六色的煙花在背景中爆炸。
加入交互編輯功能
時(shí)長是延長了,萬一對(duì)生成的視頻不滿意,怎么辦?
沒關(guān)系,VideoPoet都能改,而且還給用戶提供了更多的選擇空間。
以下面這個(gè)機(jī)器人為例,當(dāng)用戶輸入原始視頻(即左側(cè)第一段)后,VideoPoet就能自動(dòng)生成中間三段不同動(dòng)作的視頻。如果用戶想要更豐富的效果,還可以添加新的提示詞,如“在背景中加入煙霧”,來生成更豐富的效果。
圖源:VideoPoet
類似的,用戶也可以精準(zhǔn)控制從圖像生成視頻的過程,比如像下面這樣讓蒙娜麗莎轉(zhuǎn)頭和打哈欠。
圖源:VideoPoet
Prompt:
Left: “A woman turning to look at the camera.” Right: “A woman yawning.” 左: “一個(gè)女人轉(zhuǎn)向鏡頭?!庇? “一個(gè)女人打哈欠?!?/p>
攝像機(jī)動(dòng)作
除了讓圖片中的人物動(dòng)起來,要想讓畫面更有鏡頭感,VideoPoet也能行。支持添加運(yùn)動(dòng)類型,為生成的視頻提供模擬攝像機(jī)運(yùn)鏡的效果,還有縮放、無人機(jī)拍攝等多種視角可供選擇。
圖源:VideoPoet
支持視頻風(fēng)格化
此外,VideoPoet還有多種風(fēng)格選擇。不管是讓小鼠一秒穿越到夏威夷,還是讓泰迪熊去湖上滑冰,在VideoPoet上都可以通過輸入提示詞輕松實(shí)現(xiàn)。
圖源:VideoPoet
除了上面這些有意思的效果,VideoPoet的特別之處在于——其底層是一個(gè)大語言模型。如果用學(xué)科簡(jiǎn)單打比方,好比一個(gè)吟詩作對(duì)的文人,現(xiàn)在也能扛起攝像機(jī)去做影視制作。
從技術(shù)角度來看,當(dāng)前主流的視頻生成模型幾乎都是基于擴(kuò)散模型(Diffusion Model)的,但Google的開發(fā)團(tuán)隊(duì)認(rèn)為,LLM在語言、代碼和音頻等各種模式上擁有更卓越的學(xué)習(xí)能力,因此他們選擇將多種不同的視頻生成功能(如文生/圖生視頻、視頻風(fēng)格化、視頻修補(bǔ))集成到單一的大語言模型中。
本質(zhì)上看,這是兩種深度學(xué)習(xí)架構(gòu)的不同。LLM的工作原理是通過計(jì)算單詞或詞組之間的概率關(guān)系,根據(jù)上下文來預(yù)測(cè)接下來最可能出現(xiàn)的單詞或詞組。而擴(kuò)散模型則是通過逐步去除加入到原始數(shù)據(jù)中的隨機(jī)噪聲,來生成數(shù)據(jù)。
同時(shí),LLM的技術(shù)已經(jīng)相對(duì)成熟,這也意味著團(tuán)隊(duì)在開發(fā)過程中可以重復(fù)使用被驗(yàn)證過的有效方法和基礎(chǔ)設(shè)施,讓訓(xùn)練更加高效。
圖源:VideoPoet
VideoPoet還訓(xùn)練了一個(gè)自回歸語言模型,讓模型能夠跨視頻、圖像、音頻和文本模式進(jìn)行學(xué)習(xí)。這些設(shè)計(jì)也確實(shí)讓VideoPoet看起來更加全能了。
圖源:VideoPoet
從測(cè)評(píng)效果來看,對(duì)比其他的視頻生成模型,用戶認(rèn)為VideoPoet在文本保真度上的得分顯著高于其他模型,即VideoPoet能更準(zhǔn)確地遵循用戶的提示詞并生成視頻。
圖源:VideoPoet
雖然已經(jīng)是2023年的年底,多模態(tài)賽道的玩家們卻都還在搶著發(fā)布新模型,為本就熱鬧的市場(chǎng)又增加了一把熱度。
勤奮如Google,一個(gè)月內(nèi)連發(fā)好幾款新模型。也有蓄勢(shì)待發(fā)的Midjourney,時(shí)隔9個(gè)月后終于要發(fā)布V6版本。據(jù)第一批參與標(biāo)注的網(wǎng)友反饋,V6在處理圖片的層次、光影和皮膚紋理等細(xì)節(jié)上都有了質(zhì)的提升,讓人不由期待即將發(fā)布的正式版本。
網(wǎng)友借Midjourney V6生成
國內(nèi)的大廠們近期也有不少動(dòng)作,前有騰訊和港科大聯(lián)合推出的VideoCrafter1,后有字節(jié)的Magic Animate,更別提兩個(gè)月內(nèi)一連發(fā)了Animate Anyone、Animate Anything、DreaMoving等一系列模型的阿里。
盡管視頻生成領(lǐng)域還有很多技術(shù)難點(diǎn)等待攻克,不過VideoPoet這樣集成多功能的大語言模型,也為圖生視頻領(lǐng)域未來的發(fā)展提供了更多的想象空間。
歡迎交流
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡(jiǎn)單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
最新文章
同學(xué)您好!