激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

快手可靈PK Sora,多維度對比評測 誰是世界模擬器之王?

發(fā)布時間:2024-07-24 09:45:18 瀏覽量:196次

大洋彼岸,Sora的到來,似乎讓AI有了睜眼看世界的可能。在官方表述中,Sora被稱為“世界模擬器”:它理解真實的規(guī)則,并在此基礎上生成“世界”。如果說從前還是一道銅墻鐵壁,那么現(xiàn)在,虛擬與真實可能僅一線之隔。大家都不想做創(chuàng)建虛構的玩具,而是想成為生成世界的“造夢機”。Sora之后,它的挑戰(zhàn)者們前赴后繼。

6月,視頻生成大模型迎來又一輪新品爆發(fā),生成式AI賽道像是“過年了”??焓挚伸`、Luma AI以及Runway迭代更新后的Gen-3 Alpha等現(xiàn)象級爆款不斷涌現(xiàn)。其中,討論度最高的是快手自研視頻生成大模型“可靈”,全面對標Sora。

《每日經濟新聞》記者將OpenAI官方公布的5條Sora視頻提示詞投喂給可靈,對其文生成視頻的能力進行測試,同時從動態(tài)、視效、細節(jié)、場景等多維度表現(xiàn)進行結果比對和關聯(lián)。

每經記者從五大場景全面評測Sora和快手可靈

測試和觀察后發(fā)現(xiàn),雖然在部分維度Sora仍然領先,且可靈由于尚處開放初期,上線功能相對單一,生成存在一定限制,但幾乎可以判斷,國產視頻生成大模型已經上升到了一個新的高度。

國金證券互聯(lián)網傳媒首席分析師在接受記者采訪時表示,拋開技術,快手“可靈”已經實現(xiàn)一部分絕對真實世界觀的數(shù)據(jù)支持,AI對不同世界觀的快速理解以及在視頻上的反應,“這是我認為不可思議的”。

可靈,靈嗎?

Sora之后,國內視頻生成大模型不斷推出。

今年以來,快手先后發(fā)布1750億參數(shù)規(guī)模的通用大語言模型“快意”和文生圖大模型產品“可圖”。視頻生成大模型可靈則在6月被推出,快手方面稱,可靈能夠生成大幅度的合理運動,模擬物理世界特性,生成的視頻分辨率達1080p,時長最長可達2分鐘。圖生視頻功能后續(xù)開放。

《每日經濟新聞》記者選取了OpenAI官方公布的5條Sora視頻提示詞(東京街頭的女士、太空人、無人機視角的海岸、3D動畫的小怪物、云端讀書的年輕人)測試可靈。同時比對生成視頻進行效果測試,從“畫面呈現(xiàn)”“功能與體驗”兩大維度下的多個具體表現(xiàn)進行總結。

在畫面呈現(xiàn)上:

1、動態(tài)效果??伸`的“鏡頭”普遍為前后向邏輯推進,Sora則更豐富。在“海浪撞擊懸崖的無人機視圖”一項,Sora畫面的聚焦點在提示詞中“有燈塔的小島”,對整個環(huán)境進行環(huán)視,重點突出??伸`的鏡頭前后推進,小島被設置在畫面的最遠端,沒有重點突出小島。不過,Sora和可靈對海浪的運動軌跡描述都很準確。

2、視覺效果。這一項上,Sora和可靈表現(xiàn)都較為優(yōu)秀。特別是在“東京街頭的女士”視頻畫面呈現(xiàn)上,無論是對霓虹燈色彩的展示,還是潮濕地面反光的呈現(xiàn),兩個模型的畫面光影表達都很準確。

3、細節(jié)表現(xiàn)。記者重點關注到二者對人的五官的呈現(xiàn)。Sora的刻畫更細致,特別是人在動態(tài)場景下,五官沒有變形,幾乎是相對靜態(tài)的??伸`在動態(tài)場景下,人的五官有所變形,會隨著畫面鏡頭的推進、人的動作而扭曲。

但在“3D動畫的小怪物”生成上,可靈的細節(jié)表現(xiàn)與Sora差別不大,特別是對小怪物蓬松毛發(fā)特性的捕捉和呈現(xiàn)上,很精準也很細致。

4、連貫性和流暢度。Sora和可靈的畫面表現(xiàn)均連貫、流暢,但稍有不同的是,對復雜場景的描述,Sora明顯更優(yōu)。特別是在“太空人”的畫面生成上,可靈的畫面只給出了太空人的正面特寫,但Sora呈現(xiàn)了遠近景的切換,添加了更多輔助元素,如飛船等。

在功能和體驗上,Sora與可靈視頻生成的風格都更偏向模擬真實世界的場景。無論是科幻場景、自然風光、超自然畫面、3D動畫等都更加側重寫實的風格。

在不同場景的適配上,Sora的能力似乎更勝一籌。在對“云端上讀書的年輕人”的畫面生成上,可靈的貼圖感更重,素材間的融合度不高。語義的理解上,Sora和可靈都較為準確,特別是對提示詞中不同主體的捕捉,都比較完整。

不過,需要注意的是,可靈目前生成的視頻長度均為5秒,與Sora的10至20秒相比,前者在復雜場景的敘述處理上會呈現(xiàn)一定的局限性。上線初期的可靈,功能較單一,風格切換等有局限性。

此外,記者也在體驗時發(fā)現(xiàn),在一些視頻生成時,“可靈”也會“失靈”。例如,彈吉他的熊貓擁有人類的手指;提示詞中“淺綠色的布藝沙發(fā)”,到了視頻中呈現(xiàn)的則是紅棕色的皮質沙發(fā)。同時,在一些視頻中,當有多個主體時,有時也會出現(xiàn)一些元素無法完全呈現(xiàn)在視頻中的情況。

而在生成“10歲小女孩在羽毛球場比賽”時,小女孩手里的羽毛球拍變成了網球拍,且只有乒乓球拍大小,羽毛球也變成了網球。可見,實際生成視頻時,可靈有時存在一些較大的偏差。

值得注意的是,上述可靈視頻由記者測試生成,不同版本視頻可能存在差異。而目前Sora仍未開放,所生成視頻均為官方發(fā)布的版本,待Sora開放測試后,用戶實際測試效果或許與官方發(fā)布視頻也有差異。

可靈一號難求?Sora技術架構路線可以被復現(xiàn)

“肯定是超出預期的,而且最先推出來比肩Sora的是快手團隊,還挺意外?!倍辔辉诨ヂ?lián)網行業(yè)深耕多年的資深行業(yè)人士、資深產業(yè)分析師在接受記者采訪時坦言。

隨著快手“可靈”正式開放內測,社交平臺上,已有不少博主、創(chuàng)作者分享自己使用“可靈”的體驗,國外創(chuàng)作者們也是各種求內測。雖然目前內測只能生成5秒視頻,但已經有不少體驗者通過多個視頻組合成短片,不少網友笑稱“壓力給到了抖音剪映”。

早在2024年初,快手就啟動了新AI戰(zhàn)略,在最近幾次財報電話會議上,快手聯(lián)合創(chuàng)始人兼首席執(zhí)行官程一笑也頻頻談及快手自研大模型的研究及應用進展。不過,在很多人看來,快手更側重于短視頻和社交內容,而非專業(yè)的視頻剪輯工具。此前的大模型競爭中,快手也并不是引人關注的第一梯隊成員。

此前,快手推出的通用大語言模型“快意”以及文生圖大模型產品“可圖”,在市場的關注度和影響力均相對有限。如今,“可靈”的出現(xiàn),讓國內大模型賽道看到了對標Sora“彎道超車”的可能。

《每日經濟新聞》記者了解到,在架構選擇方面,可靈整體框架采用了類似Sora的DiT結構,用Transformer代替了傳統(tǒng)擴散模型中基于卷積網絡的U-Net。同時,在此基礎上,快手大模型團隊還對模型中的隱空間編/解碼、時序建模等模塊進行了升維。

在陳澤敏看來,拋開技術,快手“可靈”已經實現(xiàn)一部分絕對真實世界觀的數(shù)據(jù)支持,AI對不同世界觀的快速理解以及在視頻上的反應,“這是我認為不可思議的”。

在互聯(lián)網產業(yè)深耕多年的某頭部游戲公司高管認為,或許抖音未來也會推出類似的文生視頻模型,但目前“可靈”的推出,最大的意義在于,它證明Sora的技術架構路線是可以被復現(xiàn)的,并且依托短視頻平臺的海量、優(yōu)質過往數(shù)據(jù),是可以后來居上的。同時,也說明之前Sora出現(xiàn)時業(yè)內對它“真實世界模擬器”的評價可能過高。

相關研報指出,目前,國內大語言及多模態(tài)大模型正持續(xù)追趕海外主流大模型,模型能力逐步提升,帶動下游應用發(fā)展。過去幾個月,國內頭部應用總訪問量與海外頭部應用總訪問量差距逐漸縮小,看好未來國內應用快速增長的趨勢。

雖然“可靈”搶跑為快手在文生視頻賽道開了一個好頭,但這條道路要持續(xù)走下去,仍需要很大投入。

“未來如果‘可靈’能夠延長到完整的15秒,并擁有連貫、不拖影、多元世界觀融合的高質量視頻,那一定會對短視頻的生產方式帶來變化,越來越多的創(chuàng)作者或許將被取代,但好內容的價值也會更高?!标悵擅舾嬖V記者。

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定