發(fā)布時間:2024-07-24 09:45:18 瀏覽量:196次
大洋彼岸,Sora的到來,似乎讓AI有了睜眼看世界的可能。在官方表述中,Sora被稱為“世界模擬器”:它理解真實的規(guī)則,并在此基礎上生成“世界”。如果說從前還是一道銅墻鐵壁,那么現(xiàn)在,虛擬與真實可能僅一線之隔。大家都不想做創(chuàng)建虛構的玩具,而是想成為生成世界的“造夢機”。Sora之后,它的挑戰(zhàn)者們前赴后繼。
6月,視頻生成大模型迎來又一輪新品爆發(fā),生成式AI賽道像是“過年了”??焓挚伸`、Luma AI以及Runway迭代更新后的Gen-3 Alpha等現(xiàn)象級爆款不斷涌現(xiàn)。其中,討論度最高的是快手自研視頻生成大模型“可靈”,全面對標Sora。
《每日經濟新聞》記者將OpenAI官方公布的5條Sora視頻提示詞投喂給可靈,對其文生成視頻的能力進行測試,同時從動態(tài)、視效、細節(jié)、場景等多維度表現(xiàn)進行結果比對和關聯(lián)。
每經記者從五大場景全面評測Sora和快手可靈
測試和觀察后發(fā)現(xiàn),雖然在部分維度Sora仍然領先,且可靈由于尚處開放初期,上線功能相對單一,生成存在一定限制,但幾乎可以判斷,國產視頻生成大模型已經上升到了一個新的高度。
國金證券互聯(lián)網傳媒首席分析師在接受記者采訪時表示,拋開技術,快手“可靈”已經實現(xiàn)一部分絕對真實世界觀的數(shù)據(jù)支持,AI對不同世界觀的快速理解以及在視頻上的反應,“這是我認為不可思議的”。
可靈,靈嗎?
Sora之后,國內視頻生成大模型不斷推出。
今年以來,快手先后發(fā)布1750億參數(shù)規(guī)模的通用大語言模型“快意”和文生圖大模型產品“可圖”。視頻生成大模型可靈則在6月被推出,快手方面稱,可靈能夠生成大幅度的合理運動,模擬物理世界特性,生成的視頻分辨率達1080p,時長最長可達2分鐘。圖生視頻功能后續(xù)開放。
《每日經濟新聞》記者選取了OpenAI官方公布的5條Sora視頻提示詞(東京街頭的女士、太空人、無人機視角的海岸、3D動畫的小怪物、云端讀書的年輕人)測試可靈。同時比對生成視頻進行效果測試,從“畫面呈現(xiàn)”“功能與體驗”兩大維度下的多個具體表現(xiàn)進行總結。
在畫面呈現(xiàn)上:
1、動態(tài)效果??伸`的“鏡頭”普遍為前后向邏輯推進,Sora則更豐富。在“海浪撞擊懸崖的無人機視圖”一項,Sora畫面的聚焦點在提示詞中“有燈塔的小島”,對整個環(huán)境進行環(huán)視,重點突出??伸`的鏡頭前后推進,小島被設置在畫面的最遠端,沒有重點突出小島。不過,Sora和可靈對海浪的運動軌跡描述都很準確。
2、視覺效果。這一項上,Sora和可靈表現(xiàn)都較為優(yōu)秀。特別是在“東京街頭的女士”視頻畫面呈現(xiàn)上,無論是對霓虹燈色彩的展示,還是潮濕地面反光的呈現(xiàn),兩個模型的畫面光影表達都很準確。
3、細節(jié)表現(xiàn)。記者重點關注到二者對人的五官的呈現(xiàn)。Sora的刻畫更細致,特別是人在動態(tài)場景下,五官沒有變形,幾乎是相對靜態(tài)的??伸`在動態(tài)場景下,人的五官有所變形,會隨著畫面鏡頭的推進、人的動作而扭曲。
但在“3D動畫的小怪物”生成上,可靈的細節(jié)表現(xiàn)與Sora差別不大,特別是對小怪物蓬松毛發(fā)特性的捕捉和呈現(xiàn)上,很精準也很細致。
4、連貫性和流暢度。Sora和可靈的畫面表現(xiàn)均連貫、流暢,但稍有不同的是,對復雜場景的描述,Sora明顯更優(yōu)。特別是在“太空人”的畫面生成上,可靈的畫面只給出了太空人的正面特寫,但Sora呈現(xiàn)了遠近景的切換,添加了更多輔助元素,如飛船等。
在功能和體驗上,Sora與可靈視頻生成的風格都更偏向模擬真實世界的場景。無論是科幻場景、自然風光、超自然畫面、3D動畫等都更加側重寫實的風格。
在不同場景的適配上,Sora的能力似乎更勝一籌。在對“云端上讀書的年輕人”的畫面生成上,可靈的貼圖感更重,素材間的融合度不高。語義的理解上,Sora和可靈都較為準確,特別是對提示詞中不同主體的捕捉,都比較完整。
不過,需要注意的是,可靈目前生成的視頻長度均為5秒,與Sora的10至20秒相比,前者在復雜場景的敘述處理上會呈現(xiàn)一定的局限性。上線初期的可靈,功能較單一,風格切換等有局限性。
此外,記者也在體驗時發(fā)現(xiàn),在一些視頻生成時,“可靈”也會“失靈”。例如,彈吉他的熊貓擁有人類的手指;提示詞中“淺綠色的布藝沙發(fā)”,到了視頻中呈現(xiàn)的則是紅棕色的皮質沙發(fā)。同時,在一些視頻中,當有多個主體時,有時也會出現(xiàn)一些元素無法完全呈現(xiàn)在視頻中的情況。
而在生成“10歲小女孩在羽毛球場比賽”時,小女孩手里的羽毛球拍變成了網球拍,且只有乒乓球拍大小,羽毛球也變成了網球。可見,實際生成視頻時,可靈有時存在一些較大的偏差。
值得注意的是,上述可靈視頻由記者測試生成,不同版本視頻可能存在差異。而目前Sora仍未開放,所生成視頻均為官方發(fā)布的版本,待Sora開放測試后,用戶實際測試效果或許與官方發(fā)布視頻也有差異。
可靈一號難求?Sora技術架構路線可以被復現(xiàn)
“肯定是超出預期的,而且最先推出來比肩Sora的是快手團隊,還挺意外?!倍辔辉诨ヂ?lián)網行業(yè)深耕多年的資深行業(yè)人士、資深產業(yè)分析師在接受記者采訪時坦言。
隨著快手“可靈”正式開放內測,社交平臺上,已有不少博主、創(chuàng)作者分享自己使用“可靈”的體驗,國外創(chuàng)作者們也是各種求內測。雖然目前內測只能生成5秒視頻,但已經有不少體驗者通過多個視頻組合成短片,不少網友笑稱“壓力給到了抖音剪映”。
早在2024年初,快手就啟動了新AI戰(zhàn)略,在最近幾次財報電話會議上,快手聯(lián)合創(chuàng)始人兼首席執(zhí)行官程一笑也頻頻談及快手自研大模型的研究及應用進展。不過,在很多人看來,快手更側重于短視頻和社交內容,而非專業(yè)的視頻剪輯工具。此前的大模型競爭中,快手也并不是引人關注的第一梯隊成員。
此前,快手推出的通用大語言模型“快意”以及文生圖大模型產品“可圖”,在市場的關注度和影響力均相對有限。如今,“可靈”的出現(xiàn),讓國內大模型賽道看到了對標Sora“彎道超車”的可能。
《每日經濟新聞》記者了解到,在架構選擇方面,可靈整體框架采用了類似Sora的DiT結構,用Transformer代替了傳統(tǒng)擴散模型中基于卷積網絡的U-Net。同時,在此基礎上,快手大模型團隊還對模型中的隱空間編/解碼、時序建模等模塊進行了升維。
在陳澤敏看來,拋開技術,快手“可靈”已經實現(xiàn)一部分絕對真實世界觀的數(shù)據(jù)支持,AI對不同世界觀的快速理解以及在視頻上的反應,“這是我認為不可思議的”。
在互聯(lián)網產業(yè)深耕多年的某頭部游戲公司高管認為,或許抖音未來也會推出類似的文生視頻模型,但目前“可靈”的推出,最大的意義在于,它證明Sora的技術架構路線是可以被復現(xiàn)的,并且依托短視頻平臺的海量、優(yōu)質過往數(shù)據(jù),是可以后來居上的。同時,也說明之前Sora出現(xiàn)時業(yè)內對它“真實世界模擬器”的評價可能過高。
相關研報指出,目前,國內大語言及多模態(tài)大模型正持續(xù)追趕海外主流大模型,模型能力逐步提升,帶動下游應用發(fā)展。過去幾個月,國內頭部應用總訪問量與海外頭部應用總訪問量差距逐漸縮小,看好未來國內應用快速增長的趨勢。
雖然“可靈”搶跑為快手在文生視頻賽道開了一個好頭,但這條道路要持續(xù)走下去,仍需要很大投入。
“未來如果‘可靈’能夠延長到完整的15秒,并擁有連貫、不拖影、多元世界觀融合的高質量視頻,那一定會對短視頻的生產方式帶來變化,越來越多的創(chuàng)作者或許將被取代,但好內容的價值也會更高?!标悵擅舾嬖V記者。
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術尤為引人注目。只需在特定軟件中輸入關鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關于怎么樣利用AI來提高生產效率、還能做什么AI...
6. 零基礎10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
以下是一些免費的AI視頻制作網站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉換為視頻。 用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領域,Stable Diffusion的顯卡繪圖性能備受關注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費無限制的AI視頻生成工具火了!國內無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
就能快速生成一幅極具藝術效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...
同學您好!