發(fā)布時(shí)間:2024-07-10 11:03:46 瀏覽量:141次
大洋彼岸,視頻生成大模型Sora的到來(lái),展現(xiàn)了大模型理解世界、模擬世界的科技力量。Sora之后,挑戰(zhàn)者前赴后繼。
6月,這一賽道熱鬧似“過(guò)年”,國(guó)內(nèi)外迎來(lái)一輪新品爆發(fā)??焓帧翱伸`”、Luma AI以及Runway迭代更新后的Gen-3 Alpha等爆品涌現(xiàn)。其中,討論度最高的是國(guó)內(nèi)短視頻巨頭快手自研的“可靈”。
“可靈”生成的熊貓湖邊彈吉他形象
在先推出文生視頻功能后,6月21日,“可靈”又正式推出圖生視頻功能,支持用任意靜態(tài)圖像生成5s視頻,可搭配不同的文本內(nèi)容。同時(shí),還為已生成的視頻提供一鍵續(xù)寫和連續(xù)多次續(xù)寫功能,將視頻最長(zhǎng)可延伸至約3分鐘。
社交平臺(tái)上,已有不少博主、創(chuàng)作者分享使用“可靈”的體驗(yàn),連國(guó)外的創(chuàng)作者也是各種“求內(nèi)測(cè)”。6月25日下午5點(diǎn),記者看到有21萬(wàn)多人申請(qǐng)測(cè)試。到了6月26日0點(diǎn),已有超22萬(wàn)人申請(qǐng)。
“可靈”的文生視頻、圖生視頻能力表現(xiàn)如何?國(guó)產(chǎn)視頻生成大模型玩家涌入未來(lái)如何?
就文生視頻和圖生視頻兩大功能,記者測(cè)試了可靈”與國(guó)外Runway的Gen-2。
首先,看一下文生視頻兩大模型生成的結(jié)果情況。
記者以“一個(gè)美女在吃蘋果”為關(guān)鍵詞,讓兩大模型生成了視頻。從生成時(shí)間上來(lái)看,兩者相差不多,在3分鐘左右。
“可靈”生成的5秒視頻,一位身穿白色上衣的女子坐在沙發(fā)上大口吃著蘋果。動(dòng)態(tài)、時(shí)效、場(chǎng)景,都精準(zhǔn)按照關(guān)鍵詞實(shí)現(xiàn)了。但嘴部動(dòng)作以及左手大拇指等細(xì)節(jié),仍可進(jìn)一步優(yōu)化。
“可靈”根據(jù)關(guān)鍵詞生成的視頻
考慮到測(cè)試Gen-2為國(guó)外大模型,記者分別用“一個(gè)美女在吃蘋果”和“A beautiful girl is eating an apple”進(jìn)行測(cè)試。
其中,中文關(guān)鍵詞下,Gen-2生成的視頻只有女子沒(méi)有蘋果要素,畫風(fēng)偏動(dòng)漫風(fēng)。在英文關(guān)鍵詞下,生成的視頻有了蘋果,但是沒(méi)有吃的動(dòng)作,嘴部和手部包括蘋果都變形明顯。相較之下,“可靈”更勝一籌。
Gen-2根據(jù)關(guān)鍵詞生成的視頻
此外,記者在體驗(yàn)時(shí)發(fā)現(xiàn),在給出一些關(guān)鍵詞進(jìn)行視頻生成時(shí),“可靈”也會(huì)“失靈”。例如,“西湖斷橋上游客很多”,視頻中呈現(xiàn)的并不是斷橋,游客也不是摩肩接踵的景象。同時(shí),有多個(gè)主體時(shí),有時(shí)也會(huì)出現(xiàn)一些元素?zé)o法完全呈現(xiàn)的情況。
其次,在圖生視頻方面,記者以一張男子拉著風(fēng)箏在山路上奔跑的照片進(jìn)行了測(cè)試。
用于測(cè)試圖生視頻的照片
“可靈”生成的5秒視頻,風(fēng)箏飄動(dòng)和人物奔跑看起來(lái)比較自然,除了人物頭部的細(xì)節(jié)有些失真,畫面整體看起來(lái)流暢生動(dòng)。
“可靈”根據(jù)圖片生成的視頻
Gen-2生成的4秒視頻,風(fēng)箏的飄動(dòng)幅度小,人物形象則出現(xiàn)了比較大的失真,衣服和人體都有比較明顯的“變形”。
Gen-2根據(jù)圖片生成的視頻
記者又輸入了兩張漫畫風(fēng)格的圖片,對(duì)兩個(gè)模型進(jìn)行了測(cè)試,表現(xiàn)上各有千秋,Gen-2在畫面整體動(dòng)感上更強(qiáng),“可靈”的部分動(dòng)態(tài)細(xì)節(jié)比較精準(zhǔn)。
美國(guó)《麻省理工科技評(píng)論》近日發(fā)表了一篇對(duì)可靈文生視頻的評(píng)測(cè),主要對(duì)比了Sora當(dāng)時(shí)發(fā)布的演示視頻和形象,如東京街頭景象、貓迅速穿過(guò)花園以及宇航員騎馬等場(chǎng)景。從可靈生成的結(jié)果來(lái)看,基本沒(méi)有偏離提示文字,鏡頭的平移、樹葉顫動(dòng),以及馬和宇航員的轉(zhuǎn)動(dòng),視頻畫面的物理特性表現(xiàn)可以。
文章也指出,生成的視頻看起來(lái)模糊,有時(shí)會(huì)忽略提示中的請(qǐng)求,加上5秒的時(shí)長(zhǎng),導(dǎo)致畫面的動(dòng)態(tài)或復(fù)雜性大幅降低。但畢竟對(duì)標(biāo)的是Sora精心挑選后發(fā)布的視頻,剛發(fā)布的可靈表現(xiàn)仍舊亮眼。
今年以來(lái),國(guó)內(nèi)視頻生成大模型有更多玩家加入。
在“可靈”發(fā)布前,3月,字節(jié)跳動(dòng)旗下Dreamina(即夢(mèng))內(nèi)測(cè)視頻生成功能;4月底,生數(shù)科技首個(gè)文生視頻模型Vidu發(fā)布;5月,騰訊也開源了DiT架構(gòu)的混元文生圖模型。
快手方面此前表示,可靈采用類Sora的技術(shù)路線并結(jié)合多項(xiàng)自研創(chuàng)新技術(shù),具備諸多優(yōu)勢(shì):一是能夠生成大幅度的合理運(yùn)動(dòng);二是能夠模擬物理世界特性;三是具備強(qiáng)大的概念組合能力和想象力;四是生成的視頻分辨率高達(dá)1080p,最長(zhǎng)可達(dá)2分鐘(幀率30fps),且支持自由的寬高比。
記者采訪了兩位杭州從業(yè)多年的設(shè)計(jì)師,在他們看來(lái),國(guó)產(chǎn)的視頻生成大模型未來(lái)可期。
“可靈的表現(xiàn)非常好,超出預(yù)期。將來(lái)就算收費(fèi)使用,我也能接受。”金先生一直關(guān)注國(guó)內(nèi)外大模型的發(fā)展,在體驗(yàn)完“可靈”后,他表示效果不輸甚至超過(guò)了一些國(guó)外同類大模型。設(shè)計(jì)師龔先生表示,國(guó)產(chǎn)大模型的進(jìn)步顛覆了部分內(nèi)容創(chuàng)作場(chǎng)景,例如影視和廣告領(lǐng)域,文生視頻能快速生成特效、場(chǎng)景設(shè)計(jì),游戲開發(fā)上也能用于生成角色動(dòng)畫等。
快手剪輯軟件“快影”中的AI創(chuàng)作專區(qū),可進(jìn)行文生視頻和圖生視頻等。
兩位設(shè)計(jì)師表示,一方面,“可靈”上線就開展公測(cè),先聲奪人,關(guān)注度和影響力更大,已快速積累了用戶。另外一方面,快手擁有龐大的視頻平臺(tái)和數(shù)億用戶,通過(guò)大量的上傳結(jié)果,可以進(jìn)一步豐富和優(yōu)化可靈的海量視頻數(shù)據(jù),帶動(dòng)可靈大模型的迭代。
相關(guān)研報(bào)指出,目前,國(guó)內(nèi)大語(yǔ)言及多模態(tài)大模型正持續(xù)追趕海外主流大模型,模型能力逐步提升,帶動(dòng)下游應(yīng)用發(fā)展。過(guò)去幾個(gè)月,國(guó)內(nèi)頭部應(yīng)用總訪問(wèn)量與海外頭部應(yīng)用總訪問(wèn)量差距逐漸縮小,并看好未來(lái)國(guó)內(nèi)應(yīng)用快速增長(zhǎng)的趨勢(shì)。
業(yè)內(nèi)人士指出,如今對(duì)大模型的關(guān)注正轉(zhuǎn)向具有明確市場(chǎng)需求和實(shí)際應(yīng)用場(chǎng)景的垂直模型。隨著國(guó)產(chǎn)視頻生成大模型玩家涌入,市場(chǎng)競(jìng)爭(zhēng)更加激烈,相關(guān)大模型研發(fā)企業(yè),產(chǎn)品更新迭代上需持續(xù)投入,實(shí)現(xiàn)成熟的商業(yè)化將是一個(gè)長(zhǎng)期的考驗(yàn)。
轉(zhuǎn)載請(qǐng)注明出處
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡(jiǎn)單有效,快來(lái)試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來(lái)嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過(guò)簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
3. 四款值得推薦的AI以圖生圖軟件,有需要的趕緊來(lái)試試!
近年來(lái),人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語(yǔ)以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來(lái),創(chuàng)意無(wú)限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來(lái),快來(lái)了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來(lái)詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說(shuō)關(guān)于怎么樣利用AI來(lái)提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來(lái),我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來(lái)盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. AI顯卡繪畫排行榜:4090無(wú)懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無(wú)限制的AI視頻生成工具火了!國(guó)內(nèi)無(wú)障礙訪問(wèn)!附教程
人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來(lái)...
最新文章
同學(xué)您好!