當(dāng)前位置：首頁 >人工智能 >谷歌VideoPoet大模型上線，生成長達(dá)10秒視頻，還可自動(dòng)配音 | 最前線

谷歌VideoPoet大模型上線，生成長達(dá)10秒視頻，還可自動(dòng)配音 | 最前線

發(fā)布時(shí)間：2024-04-01 14:04:00 瀏覽量：94次

文｜王怡寧

編輯｜鄧詠儀尚恩

Google又又又發(fā)布了新模型，這次是在文生/圖生視頻賽道又“卷”了一把對(duì)手們。

12月19日，谷歌專門發(fā)了一款搞視頻生成的模型VideoPoet，不僅能支持根據(jù)視頻加入音頻效果，允許交互編輯，更重要的是，VideoPoet現(xiàn)在可以生成更長的視頻了。簡(jiǎn)而言之，這次的模型看起來更加全能了。

看過Demo后的網(wǎng)友們直接表示：

好牛，所以什么時(shí)候能用上？

圖源：Twitter

向電影更進(jìn)一步，加入音效延展時(shí)長

近期的AI生成視頻賽道的新模型層出不窮，網(wǎng)友們被信息轟炸地應(yīng)接不暇，看到新模型的第一反應(yīng)大概就是：這次的模型有什么不一樣？哪里最有看頭？

不得不說，雖然VideoPoet已經(jīng)是Google本月發(fā)布的第N個(gè)模型了，但質(zhì)量和效果依然在線，在功能上也有不少突破。

圖源：VideoPoet

當(dāng)然，VideoPoet還有不少新的看點(diǎn)。

加入音頻效果

以往的文生視頻和圖生視頻幾乎都是在“卷”畫面的清晰度，這一次，Google注意到了被忽視的音效，讓AI在生成視頻的基礎(chǔ)上，還能在沒有任何文本提示詞的情況下，根據(jù)視頻內(nèi)容生成相應(yīng)的音頻。

在官方放出的Demo里，VideoPoet就自動(dòng)為正在吃爆米花的小狗配上了“咔擦咔擦”的音效，效果逼真。告別“默片時(shí)代”，AI生成視頻離電影和動(dòng)畫距離又近一步。

視頻時(shí)長顯著提升

看一圈目前做AI視頻生成的工具，一個(gè)最大痛點(diǎn)就是，時(shí)長普遍在2-4秒。比如Stability AI的AI視頻生成模型Stable Video Diffusion，也有這個(gè)問題。

究其原因，主要是訓(xùn)練素材受限等方面，這多少也讓人覺得有些意猶未盡。

不過，VideoPoet巧妙地通過重復(fù)的方法延長了視頻長度，即讓AI根據(jù)前一個(gè)視頻的最后一秒接著預(yù)測(cè)下一秒的內(nèi)容。這種方法不僅大大擴(kuò)展了視頻長度，還能做到對(duì)原視頻內(nèi)容的高保真呈現(xiàn)。

圖源：VideoPoet

Prompt:

An astronaut starts dancing on Mars. Colorful fireworks then explode in the background.”一個(gè)宇航員開始在火星上跳舞，五顏六色的煙花在背景中爆炸。

加入交互編輯功能

時(shí)長是延長了，萬一對(duì)生成的視頻不滿意，怎么辦？

沒關(guān)系，VideoPoet都能改，而且還給用戶提供了更多的選擇空間。

以下面這個(gè)機(jī)器人為例，當(dāng)用戶輸入原始視頻（即左側(cè)第一段）后，VideoPoet就能自動(dòng)生成中間三段不同動(dòng)作的視頻。如果用戶想要更豐富的效果，還可以添加新的提示詞，如“在背景中加入煙霧”，來生成更豐富的效果。

圖源：VideoPoet

類似的，用戶也可以精準(zhǔn)控制從圖像生成視頻的過程，比如像下面這樣讓蒙娜麗莎轉(zhuǎn)頭和打哈欠。

圖源：VideoPoet

Prompt：

Left: “A woman turning to look at the camera.” Right: “A woman yawning.” 左: “一個(gè)女人轉(zhuǎn)向鏡頭?！庇? “一個(gè)女人打哈欠?！?/p>

攝像機(jī)動(dòng)作

除了讓圖片中的人物動(dòng)起來，要想讓畫面更有鏡頭感，VideoPoet也能行。支持添加運(yùn)動(dòng)類型，為生成的視頻提供模擬攝像機(jī)運(yùn)鏡的效果，還有縮放、無人機(jī)拍攝等多種視角可供選擇。

圖源：VideoPoet

支持視頻風(fēng)格化

此外，VideoPoet還有多種風(fēng)格選擇。不管是讓小鼠一秒穿越到夏威夷，還是讓泰迪熊去湖上滑冰，在VideoPoet上都可以通過輸入提示詞輕松實(shí)現(xiàn)。

圖源：VideoPoet

放棄擴(kuò)散模型，做多功能大模型

除了上面這些有意思的效果，VideoPoet的特別之處在于——其底層是一個(gè)大語言模型。如果用學(xué)科簡(jiǎn)單打比方，好比一個(gè)吟詩作對(duì)的文人，現(xiàn)在也能扛起攝像機(jī)去做影視制作。

從技術(shù)角度來看，當(dāng)前主流的視頻生成模型幾乎都是基于擴(kuò)散模型（Diffusion Model）的，但Google的開發(fā)團(tuán)隊(duì)認(rèn)為，LLM在語言、代碼和音頻等各種模式上擁有更卓越的學(xué)習(xí)能力，因此他們選擇將多種不同的視頻生成功能（如文生/圖生視頻、視頻風(fēng)格化、視頻修補(bǔ)）集成到單一的大語言模型中。

本質(zhì)上看，這是兩種深度學(xué)習(xí)架構(gòu)的不同。LLM的工作原理是通過計(jì)算單詞或詞組之間的概率關(guān)系，根據(jù)上下文來預(yù)測(cè)接下來最可能出現(xiàn)的單詞或詞組。而擴(kuò)散模型則是通過逐步去除加入到原始數(shù)據(jù)中的隨機(jī)噪聲，來生成數(shù)據(jù)。

同時(shí)，LLM的技術(shù)已經(jīng)相對(duì)成熟，這也意味著團(tuán)隊(duì)在開發(fā)過程中可以重復(fù)使用被驗(yàn)證過的有效方法和基礎(chǔ)設(shè)施，讓訓(xùn)練更加高效。

圖源：VideoPoet

VideoPoet還訓(xùn)練了一個(gè)自回歸語言模型，讓模型能夠跨視頻、圖像、音頻和文本模式進(jìn)行學(xué)習(xí)。這些設(shè)計(jì)也確實(shí)讓VideoPoet看起來更加全能了。

圖源：VideoPoet

從測(cè)評(píng)效果來看，對(duì)比其他的視頻生成模型，用戶認(rèn)為VideoPoet在文本保真度上的得分顯著高于其他模型，即VideoPoet能更準(zhǔn)確地遵循用戶的提示詞并生成視頻。

圖源：VideoPoet

One More Thing

雖然已經(jīng)是2023年的年底，多模態(tài)賽道的玩家們卻都還在搶著發(fā)布新模型，為本就熱鬧的市場(chǎng)又增加了一把熱度。

勤奮如Google，一個(gè)月內(nèi)連發(fā)好幾款新模型。也有蓄勢(shì)待發(fā)的Midjourney，時(shí)隔9個(gè)月后終于要發(fā)布V6版本。據(jù)第一批參與標(biāo)注的網(wǎng)友反饋，V6在處理圖片的層次、光影和皮膚紋理等細(xì)節(jié)上都有了質(zhì)的提升，讓人不由期待即將發(fā)布的正式版本。

網(wǎng)友借Midjourney V6生成

國內(nèi)的大廠們近期也有不少動(dòng)作，前有騰訊和港科大聯(lián)合推出的VideoCrafter1，后有字節(jié)的Magic Animate，更別提兩個(gè)月內(nèi)一連發(fā)了Animate Anyone、Animate Anything、DreaMoving等一系列模型的阿里。

盡管視頻生成領(lǐng)域還有很多技術(shù)難點(diǎn)等待攻克，不過VideoPoet這樣集成多功能的大語言模型，也為圖生視頻領(lǐng)域未來的發(fā)展提供了更多的想象空間。

歡迎交流

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國教博會(huì)發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇文生視頻時(shí)代已到，百度、訊飛、字節(jié)誰能率先做出“國產(chǎn)Sora”?

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個(gè)方法操作簡(jiǎn)單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個(gè)方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡(jiǎn)單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
2. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動(dòng)起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動(dòng)起來，快來了解Viggle AI的功能和優(yōu)勢(shì)吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念，最具性價(jià)比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

谷歌VideoPoet大模型上線，生成長達(dá)10秒視頻，還可自動(dòng)配音 | 最前線

向電影更進(jìn)一步，加入音效延展時(shí)長

放棄擴(kuò)散模型，做多功能大模型

One More Thing

請(qǐng)綁定手機(jī)號(hào)

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

谷歌VideoPoet大模型上線，生成長達(dá)10秒視頻，還可自動(dòng)配音 | 最前線

向電影更進(jìn)一步，加入音效延展時(shí)長

放棄擴(kuò)散模型，做多功能大模型

One More Thing

請(qǐng)綁定手機(jī)號(hào)

谷歌VideoPoet大模型上線，生成長達(dá)10秒視頻，還可自動(dòng)配音 | 最前線

放棄擴(kuò)散模型，做多功能大模型