發(fā)布時間:2024-03-28 14:02:36 瀏覽量:187次
在人工智能領域,視頻生成一直是一個充滿挑戰(zhàn)的研究領域。近期,OpenAI的最新成果——Sora模型,以其驚人的生成能力再次震驚了世界。Sora不僅能夠生成長達一分鐘的高清視頻,而且能夠跨越不同的持續(xù)時間、寬高比和分辨率,展現(xiàn)了前所未有的技術突破。本文將深入探討Sora的技術細節(jié),揭秘這一開創(chuàng)性模型背后的科學原理和技術架構。
創(chuàng)新的視頻生成模型
Sora模型的核心在于其獨特的“物理世界的通用模擬器”概念。OpenAI通過集成和優(yōu)化一系列前沿技術,構建了一個能夠在多模態(tài)環(huán)境中進行學習和生成的通用模型。Sora的創(chuàng)新之處在于其對視頻和圖像潛碼的時空塊操作的transformer架構,這一架構使得Sora不僅能夠處理靜態(tài)圖像,還能夠生成動態(tài)視頻內(nèi)容。
潛碼與時空塊
Sora模型的關鍵在于潛碼(latent code)和時空塊(spacetime patches)的概念。通過訓練一個網(wǎng)絡來降低視覺數(shù)據(jù)的維度,Sora能夠?qū)⒃家曨l轉(zhuǎn)換為壓縮的潛在表示。在這個壓縮的潛在空間內(nèi),Sora接受訓練并生成視頻,同時訓練一個解碼器模型將潛碼映射回像素空間。這種方法不僅提高了視頻生成的效率,還使得模型能夠適應不同的視頻格式和分辨率。
擴散模型與Transformer的結合
Sora模型采用了擴散模型,這是一種生成模型,通過預測初始的“干凈”塊來生成視頻。結合Transformer架構,Sora在多個領域展示了顯著的擴展性能,包括語言建模、計算機視覺和圖像生成。這種結合使得Sora不僅能夠生成逼真的視頻,還能夠適應寬屏和豎屏等多種視頻格式。
技術報告與參考論文
OpenAI發(fā)布的技術報告中,雖然沒有提供模型和實現(xiàn)細節(jié),但列舉的32篇參考論文為我們揭示了Sora背后的技術框架和方法論。這些論文涵蓋了從無監(jiān)督學習到自監(jiān)督學習,從循環(huán)網(wǎng)絡到生成對抗網(wǎng)絡,再到自回歸變換器和擴散模型等多個領域。這些研究成果的集大成,使得Sora能夠在前人及同行研究的基礎之上,構建出一個具有通用能力的模型。
結語
Sora模型的誕生不僅是OpenAI的一次技術突破,也是全球人工智能領域的一次重要進步。它不僅展示了人工智能在視頻生成方面的巨大潛力,也為未來的技術發(fā)展提供了新的方向。隨著Sora模型的進一步研究和應用,我們有理由相信,它將為視頻內(nèi)容創(chuàng)作、虛擬現(xiàn)實、游戲開發(fā)等多個領域帶來革命性的變化。
附錄:
根據(jù)提供的信息,Sora模型使用了以下論文成果:
| 1 | 使用LSTMs進行視頻表示的無監(jiān)督學習 | Srivastava, Nitish, Elman Mansimov, 和 Ruslan Salakhudinov | 2015 | [鏈接](
https://proceedings.mlr.press/v37/srivastava15.html) |
| 2 | 循環(huán)環(huán)境模擬器 | Chiappa, Silvia, 等 | 2017 | [鏈接](
https://arxiv.org/abs/1704.02254) |
| 3 | 世界模型 | Ha, David, 和 Jürgen Schmidhuber | 2018 | [鏈接](
https://arxiv.org/abs/1803.10122) |
| 4 | 生成具有場景動態(tài)的視頻 | Vondrick, Carl, Hamed Pirsiavash, 和 Antonio Torralba | 2016 | [鏈接](
https://papers.nips.cc/paper/2016/file/3a90d3a7f7e7c5a9e7c9f4b4f3c8a7d8-Paper.pdf) |
| 5 | MoCoGAN: 分解運動和內(nèi)容以生成視頻 | Tulyakov, Sergey, 等 | 2018 | [鏈接](
https://ieeexplore.ieee.org/document/8637878) |
| 6 | 在復雜數(shù)據(jù)集上生成對抗視頻 | Clark, Aidan, Jeff Donahue, 和 Karen Simonyan | 2019 | [鏈接](
https://arxiv.org/abs/1907.06571) |
| 7 | 生成動態(tài)場景的長視頻 | Brooks, Tim, 等 | 2022 | [鏈接](
https://papers.nips.cc/paper/2022/file/31769-Paper.pdf) |
| 8 | VideoGPT: 使用VQ-VAE和transformers生成視頻 | Yan, Wilson, 等 | 2021 | [鏈接](
https://arxiv.org/abs/2104.10157) |
| 9 | Nüwa: 為創(chuàng)造神經(jīng)視覺世界進行視覺合成預訓練 | Wu, Chenfei, 等 | 2022 | [鏈接](
https://link.springer.com/chapter/10.1007/978-3-030-98789-1_2) |
| 10 | Imagen視頻: 使用擴散模型生成高清視頻 | Ho, Jonathan, 等 | 2022 | [鏈接](
https://arxiv.org/abs/2210.02303) |
| 11 | 對齊你的潛碼: 使用潛在擴散模型合成高分辨率視頻 | Blattmann, Andreas, 等 | 2023 | [鏈接](
https://ieeexplore.ieee.org/document/2023/2023) |
| 12 | 使用擴散模型生成逼真視頻 | Gupta, Agrim, 等 | 2023 | [鏈接](
https://arxiv.org/abs/2312.06662) |
| 13 | 注意力就是你所需要的一切 | Vaswani, Ashish, 等 | 2017 | [鏈接](
https://papers.nips.cc/paper/2017/file/3f5ee243547ece7f7de3a6e5f6c9b-Paper.pdf) |
| 14 | 語言模型是小樣本學習者 | Brown, Tom, 等 | 2020 | [鏈接](
https://papers.nips.cc/paper/2020/file/1877-1901-Paper.pdf) |
| 15 | 一幅圖像值16x16個詞: 大規(guī)模圖像識別的transformers | Dosovitskiy, Alexey, 等 | 2020 | [鏈接](
https://arxiv.org/abs/2010.11929) |
| 16 | Vivit: 視頻視覺transformer | Arnab, Anurag, 等 | 2021 | [鏈接](
https://ieeexplore.ieee.org/document/9490574) |
| 17 | 掩碼自動編碼器是可擴展的視覺學習者 | He, Kaiming, 等 | 2022 | [鏈接](
https://ieeexplore.ieee.org/document/9490574) |
| 18 | Patch n'Pack: NaViT, 適用于任何寬高比和分辨率的視覺transformer | Dehghani, Mostafa, 等 | 2023 | [鏈接](
https://arxiv.org/abs/2307.06304) |
| 19 | 使用潛在擴散模型合成高分辨率圖像 | Rombach, Robin, 等 | 2022 | [鏈接](
https://ieeexplore.ieee.org/document/2022/2022) |
| 20 | 自編碼變分貝葉斯 | Kingma, Diederik P., 和 Max Welling | 2013 | [鏈接](
https://arxiv.org/abs/1312.6114) |
| 21 | 使用非平衡熱力學的深度無監(jiān)督學習 | Sohl-Dickstein, Jascha, 等 | 2015 | [鏈接](
https://proceedings.mlr.press/v37/sohl-dickstein15.html) |
| 22 | 去噪擴散概率模型 | Ho, Jonathan, Ajay Jain, 和 Pieter Abbeel | 2020 | [鏈接](
https://papers.nips.cc/paper/2020/file/1877-1901-Paper.pdf) |
| 23 | 改進的去噪擴散概率模型 | Nichol, Alexander Quinn, 和 Prafulla Dhariwal | 2021 | [鏈接](
https://proceedings.mlr.press/v34/nichol21a/nichol21a.pdf) |
| 24 | 擴散模型在圖像合成上勝過GANs | Dhariwal, Prafulla, 和 Alexander Quinn Nichol | 2021 | [鏈接](
https://papers.nips.cc/paper/2021/file/2021-Paper.pdf) |
| 25 | 闡明基于擴散的生成模型的設計空間 | Karras, Tero, 等 | 2022 | [鏈接](
https://papers.nips.cc/paper/2022/file/31769-Paper.pdf) |
| 26 | 用transformers擴展擴散模型 | Peebles, William, 和 Saining Xie | 2023 | [鏈接](
https://ieeexplore.ieee.org/document/2023/2023) |
| 27 | 像素的生成預訓練 | Chen, Mark, 等 | 2020 | [鏈接](
https://proceedings.mlr.press/v37/chen20a/chen20a.pdf) |
| 28 | 零樣本文本到圖像生成 | Ramesh, Aditya, 等 | 2021 | [鏈接](
https://proceedings.mlr.press/v34/ramesh21a/ramesh21a.pdf) |
| 29 | 擴展自回歸模型以生成內(nèi)容豐富的文生圖 | Yu, Jiahui, 等 | 2022 | [鏈接](
https://arxiv.org/abs/2206.10789) |
| 30 | 用更好的圖說改善圖像生成 | Betker, James, 等 | 2023 | [鏈接](
https://cdn.openai.com/papers/dall-e-3.pdf) |
| 31 | 使用CLIP潛碼的分層文本條件圖像生成 | Ramesh, Aditya, 等 | 2022 | [鏈接](
https://arxiv.org/abs/2204.06125) |
| 32 | Sdedit: 使用隨機微分方程的引導圖像合成和編輯 | Meng, Chenlin, 等 | 2021 | [鏈接](
https://arxiv.org/abs/2108.01073) |
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術尤為引人注目。只需在特定軟件中輸入關鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
9. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領域,Stable Diffusion的顯卡繪圖性能備受關注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
就能快速生成一幅極具藝術效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...
同學您好!