激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

文字轉(zhuǎn)視頻,人工智能 ‘視頻模型’即將到來

發(fā)布時(shí)間:2024-03-05 16:48:20 瀏覽量:203次

昨天開放的人工智能對人類釋放了最新的 怪物,這確實(shí)

令人興奮,我希望你享受一場美好的 生存危機(jī),因?yàn)槟銓?/p>

看到的是人類的一小步 和人工智能的巨大飛躍,

我們都知道更好的人工智能 視頻模型 即將到來,但開放 AI Sora 的

表現(xiàn)超出了我們最瘋狂的預(yù)期, 它是第一個(gè)能夠制作

長達(dá)一分鐘的逼真視頻的人工智能,在今天的 視頻中,我們將看看

視頻模型的文本實(shí)際上可以做什么,弄清楚 它是如何工作的

-


2024 年 2 月 16 日,當(dāng)我昨天醒來時(shí),你正在觀看代碼報(bào)告 Google

宣布了 Gemini 1.5,其上下文 窗口高達(dá) 1000 萬個(gè)代幣,這是一項(xiàng)令人

難以置信的成就 這也 讓人們大吃一驚,但桑達(dá)爾

很快就被山姆·奧特曼(Sam ultman)所掩蓋,他 剛剛向我們展示了他的新朋友

索拉(Sora),索拉(Sora)來自日語中的“ 天空”一詞,它是一個(gè)文本到視頻模型以及

您在該視頻中看到的所有視頻剪輯 由 Sora 生成,這

不是第一個(gè) AI 視頻模型,我們已經(jīng) 有了穩(wěn)定的視頻擴(kuò)散等開放模型

和 Pika 等私有產(chǎn)品, 但 Sora 擊敗了一切,

不僅圖像更 真實(shí),而且可以長達(dá)一分鐘

并保持幀之間的凝聚力, 它們也可以以

不同的縱橫比渲染它們可以 從描述您想要看到的內(nèi)容的文本提示創(chuàng)建,也可以從

-


現(xiàn)在栩栩如生的起始圖像創(chuàng)建我最初的想法是打開AI Cherry 挑選了所有這些例子,但情況

似乎并非如此,因?yàn)?Sam Alman 在 Twitter 上接受了人群的請求,

并在幾分鐘內(nèi)返回了示例, 就像兩只金毛獵犬

在山頂上做播客一樣, 不錯,但下一個(gè)確實(shí)令人

印象深刻 將一家非營利性 開源公司轉(zhuǎn)變?yōu)橐患矣?/p>

封閉源代碼公司的家伙,令人印象深刻,非常 好,所以現(xiàn)在您可能想知道如何

才能很好地掌握這件事, 如果將如此

強(qiáng)大的模型提供給一些隨機(jī)的家伙,那么您可以不那么快 想象一下它

會被用來做什么的恐怖,如果我們 能為我們的人工智能

影響者生成視頻以獲取更多提示,那就太好了,但這 永遠(yuǎn)不會發(fā)生,

這個(gè)模型不太可能 開源,當(dāng)他們發(fā)布它時(shí),

視頻將會 有 c2p 元數(shù)據(jù),它 基本上是一個(gè)監(jiān)視設(shè)備,

記錄內(nèi)容的 來源以及內(nèi)容的修改方式,無論如何,

我們確實(shí)有一些關(guān)于 模型如何工作的細(xì)節(jié),這可能需要

大量的計(jì)算能力,而且只需要 幾個(gè) 幾周前,薩姆·奧爾特曼 (Sam Altman) 向

世界請求 7 萬億美元購買一堆 GPU,是的,這就是萬億美元,

甚至連 Jensen Wong 也取笑了這個(gè)數(shù)字, 因?yàn)橥瓿蛇@項(xiàng)工作實(shí)際上只需要花費(fèi)

2 萬億美元左右, 但也許 Jensen 就是 Wong,這是

視頻模型需要大量 GPU 來 縮放,讓我們了解它們是如何工作的 Sora

是一個(gè)像 Dolly 和 穩(wěn)定擴(kuò)散一樣的擴(kuò)散模型,您從

一些隨機(jī)噪聲開始,然后逐漸將該 噪聲更新為連貫圖像,請查看

此視頻,如果您 想要了解 有關(guān)該算法的更多信息,現(xiàn)在

單個(gè)靜態(tài)圖像中包含大量數(shù)據(jù),例如 th000 像素 x th000 像素 x 三個(gè)

顏色通道,得出 300 萬個(gè) 數(shù)據(jù)點(diǎn),這是一個(gè)很大的數(shù)字,但

如果我們有一個(gè) 1 分鐘的視頻怎么辦 以每秒 60 幀的速度, 我們現(xiàn)在需要生成超過 100 億個(gè)數(shù)據(jù)點(diǎn),從 靈長類大腦的角度來看,100 萬秒約為 11 1/2 天,而 100 億秒約為3177 年,因此存在巨大 差異 規(guī)模加視頻


增加了時(shí)間維度來理解 這些數(shù)據(jù),他們采用了

類似于大型語言模型的方法,該模型對 代碼和詩歌等文本進(jìn)行標(biāo)記,

但是 Sora 不是對文本進(jìn)行標(biāo)記, 而是對視覺補(bǔ)丁進(jìn)行標(biāo)記,這些

就像小的壓縮圖像塊 捕捉它們的視覺效果

以及它們?nèi)绾坞S時(shí)間或 逐幀移動同樣有趣的是,

視頻模型通常會裁剪其 訓(xùn)練數(shù)據(jù)并輸出到特定的

時(shí)間和分辨率,但 Sora 可以 根據(jù)其原始分辨率訓(xùn)練數(shù)據(jù)并輸出

可變分辨率 這也 很酷,那么這項(xiàng)技術(shù)

將如何改變世界呢?去年, 像 Photoshop 這樣的工具得到了一整套

人工智能編輯工具,將來我們將 能夠在視頻中做同樣的事情,就像你

開車一樣 沿著路走, 想要改變背景

風(fēng)景,現(xiàn)在你可以在 10 秒內(nèi)做到這一點(diǎn), 而不是聘請攝影師

和 CGI? 專家,但另一個(gè)備受關(guān)注的利潤豐厚的 高薪職業(yè)

是 Minecraft 流 Sora 可以 模擬 Minecraft 中的人工運(yùn)動,

并且有可能 在幾秒鐘內(nèi)將任何想法 變成 Minecraft 世界,或者

也許您想導(dǎo)演自己的獨(dú)立 皮克斯電影 AI 通過

竊取才華橫溢的人類藝術(shù)作品使這成為可能, 但這可能

不像這些視頻那么容易,您會 注意到很多 如果你仔細(xì)觀察的話,你會發(fā)現(xiàn)

它們有一些微妙但 獨(dú)特的人工智能外觀,而且它們并

沒有完美地模擬物理或 人形交互,但弄清楚

這些限制只是時(shí)間問題, 盡管我個(gè)人

對索拉感到威脅和恐懼 目睹

一萬年的人類文化被 機(jī)器人吞噬,這是一種榮幸,這是

代碼報(bào)告,感謝您的觀看,我們 將在下一篇中見到您

熱門課程推薦

熱門資訊

請綁定手機(jī)號

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動,老師會在第一時(shí)間與您取得聯(lián)系,請保持電話暢通!
確定