激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

谷歌VideoPoet大模型上線,生成長達(dá)10秒視頻,還可自動(dòng)配音 | 最前線

發(fā)布時(shí)間:2024-04-01 14:04:00 瀏覽量:94次

文|王怡寧

編輯|鄧詠儀 尚恩

Google又又又發(fā)布了新模型,這次是在文生/圖生視頻賽道又“卷”了一把對(duì)手們。

12月19日,谷歌專門發(fā)了一款搞視頻生成的模型VideoPoet,不僅能支持根據(jù)視頻加入音頻效果,允許交互編輯,更重要的是,VideoPoet現(xiàn)在可以生成更長的視頻了。簡(jiǎn)而言之,這次的模型看起來更加全能了。

看過Demo后的網(wǎng)友們直接表示:

好牛,所以什么時(shí)候能用上?

圖源:Twitter

向電影更進(jìn)一步,加入音效延展時(shí)長

近期的AI生成視頻賽道的新模型層出不窮,網(wǎng)友們被信息轟炸地應(yīng)接不暇,看到新模型的第一反應(yīng)大概就是:這次的模型有什么不一樣?哪里最有看頭?

不得不說,雖然VideoPoet已經(jīng)是Google本月發(fā)布的第N個(gè)模型了,但質(zhì)量和效果依然在線,在功能上也有不少突破。

圖源:VideoPoet

當(dāng)然,VideoPoet還有不少新的看點(diǎn)。

加入音頻效果

以往的文生視頻和圖生視頻幾乎都是在“卷”畫面的清晰度,這一次,Google注意到了被忽視的音效,讓AI在生成視頻的基礎(chǔ)上,還能在沒有任何文本提示詞的情況下,根據(jù)視頻內(nèi)容生成相應(yīng)的音頻。

在官方放出的Demo里,VideoPoet就自動(dòng)為正在吃爆米花的小狗配上了“咔擦咔擦”的音效,效果逼真。告別“默片時(shí)代”,AI生成視頻離電影和動(dòng)畫距離又近一步。

視頻時(shí)長顯著提升

看一圈目前做AI視頻生成的工具,一個(gè)最大痛點(diǎn)就是,時(shí)長普遍在2-4秒。比如Stability AI的AI視頻生成模型Stable Video Diffusion,也有這個(gè)問題。

究其原因,主要是訓(xùn)練素材受限等方面,這多少也讓人覺得有些意猶未盡。

不過,VideoPoet巧妙地通過重復(fù)的方法延長了視頻長度,即讓AI根據(jù)前一個(gè)視頻的最后一秒接著預(yù)測(cè)下一秒的內(nèi)容。這種方法不僅大大擴(kuò)展了視頻長度,還能做到對(duì)原視頻內(nèi)容的高保真呈現(xiàn)。

圖源:VideoPoet

Prompt:

An astronaut starts dancing on Mars. Colorful fireworks then explode in the background.”一個(gè)宇航員開始在火星上跳舞,五顏六色的煙花在背景中爆炸。

加入交互編輯功能

時(shí)長是延長了,萬一對(duì)生成的視頻不滿意,怎么辦?

沒關(guān)系,VideoPoet都能改,而且還給用戶提供了更多的選擇空間。

以下面這個(gè)機(jī)器人為例,當(dāng)用戶輸入原始視頻(即左側(cè)第一段)后,VideoPoet就能自動(dòng)生成中間三段不同動(dòng)作的視頻。如果用戶想要更豐富的效果,還可以添加新的提示詞,如“在背景中加入煙霧”,來生成更豐富的效果。

圖源:VideoPoet

類似的,用戶也可以精準(zhǔn)控制從圖像生成視頻的過程,比如像下面這樣讓蒙娜麗莎轉(zhuǎn)頭和打哈欠。

圖源:VideoPoet

Prompt:

Left: “A woman turning to look at the camera.” Right: “A woman yawning.” 左: “一個(gè)女人轉(zhuǎn)向鏡頭?!庇? “一個(gè)女人打哈欠?!?/p>

攝像機(jī)動(dòng)作

除了讓圖片中的人物動(dòng)起來,要想讓畫面更有鏡頭感,VideoPoet也能行。支持添加運(yùn)動(dòng)類型,為生成的視頻提供模擬攝像機(jī)運(yùn)鏡的效果,還有縮放、無人機(jī)拍攝等多種視角可供選擇。

圖源:VideoPoet

支持視頻風(fēng)格化

此外,VideoPoet還有多種風(fēng)格選擇。不管是讓小鼠一秒穿越到夏威夷,還是讓泰迪熊去湖上滑冰,在VideoPoet上都可以通過輸入提示詞輕松實(shí)現(xiàn)。

圖源:VideoPoet

放棄擴(kuò)散模型,做多功能大模型

除了上面這些有意思的效果,VideoPoet的特別之處在于——其底層是一個(gè)大語言模型。如果用學(xué)科簡(jiǎn)單打比方,好比一個(gè)吟詩作對(duì)的文人,現(xiàn)在也能扛起攝像機(jī)去做影視制作。

從技術(shù)角度來看,當(dāng)前主流的視頻生成模型幾乎都是基于擴(kuò)散模型(Diffusion Model)的,但Google的開發(fā)團(tuán)隊(duì)認(rèn)為,LLM在語言、代碼和音頻等各種模式上擁有更卓越的學(xué)習(xí)能力,因此他們選擇將多種不同的視頻生成功能(如文生/圖生視頻、視頻風(fēng)格化、視頻修補(bǔ))集成到單一的大語言模型中。

本質(zhì)上看,這是兩種深度學(xué)習(xí)架構(gòu)的不同。LLM的工作原理是通過計(jì)算單詞或詞組之間的概率關(guān)系,根據(jù)上下文來預(yù)測(cè)接下來最可能出現(xiàn)的單詞或詞組。而擴(kuò)散模型則是通過逐步去除加入到原始數(shù)據(jù)中的隨機(jī)噪聲,來生成數(shù)據(jù)。

同時(shí),LLM的技術(shù)已經(jīng)相對(duì)成熟,這也意味著團(tuán)隊(duì)在開發(fā)過程中可以重復(fù)使用被驗(yàn)證過的有效方法和基礎(chǔ)設(shè)施,讓訓(xùn)練更加高效。

圖源:VideoPoet

VideoPoet還訓(xùn)練了一個(gè)自回歸語言模型,讓模型能夠跨視頻、圖像、音頻和文本模式進(jìn)行學(xué)習(xí)。這些設(shè)計(jì)也確實(shí)讓VideoPoet看起來更加全能了。

圖源:VideoPoet

從測(cè)評(píng)效果來看,對(duì)比其他的視頻生成模型,用戶認(rèn)為VideoPoet在文本保真度上的得分顯著高于其他模型,即VideoPoet能更準(zhǔn)確地遵循用戶的提示詞并生成視頻。

圖源:VideoPoet

One More Thing

雖然已經(jīng)是2023年的年底,多模態(tài)賽道的玩家們卻都還在搶著發(fā)布新模型,為本就熱鬧的市場(chǎng)又增加了一把熱度。

勤奮如Google,一個(gè)月內(nèi)連發(fā)好幾款新模型。也有蓄勢(shì)待發(fā)的Midjourney,時(shí)隔9個(gè)月后終于要發(fā)布V6版本。據(jù)第一批參與標(biāo)注的網(wǎng)友反饋,V6在處理圖片的層次、光影和皮膚紋理等細(xì)節(jié)上都有了質(zhì)的提升,讓人不由期待即將發(fā)布的正式版本。

網(wǎng)友借Midjourney V6生成

國內(nèi)的大廠們近期也有不少動(dòng)作,前有騰訊和港科大聯(lián)合推出的VideoCrafter1,后有字節(jié)的Magic Animate,更別提兩個(gè)月內(nèi)一連發(fā)了Animate Anyone、Animate Anything、DreaMoving等一系列模型的阿里。

盡管視頻生成領(lǐng)域還有很多技術(shù)難點(diǎn)等待攻克,不過VideoPoet這樣集成多功能的大語言模型,也為圖生視頻領(lǐng)域未來的發(fā)展提供了更多的想象空間。

歡迎交流

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定