sora軟件是什么 Sora的技術路徑一圖覽
復刻Sora是很難的,對于這個Sora的技術路徑很多人都不太了解,想要了解sora是什么,那么大家可以多看看游戲鳥小編分享在下面的內(nèi)容,方便大家能更好的了解sora的技術路徑,對此感興趣的小伙伴趕緊來看看吧!
Sora的技術路徑一圖覽
昨天,OpenAI發(fā)布了視頻生成模型Sora,最大的Sora模型能夠生成一分鐘的高保真視頻。同時OpenAI稱,可擴展的視頻生成模型,是構建物理世界通用模擬器的一條可能的路徑。
Sora能夠生成橫屏1920*1080視頻,豎屏1080*1920視頻,以及之間的所有內(nèi)容。這使得Sora可以兼容不同的視頻播放設備,根據(jù)特定的縱橫比來生成視頻內(nèi)容,這也會大大影響視頻創(chuàng)作領域,包括電影制作,電視內(nèi)容,自媒體等。
技術報告:https://openai.com/research/video-generation-models-as-world-simulators
技術解讀
魔搭社區(qū)的開發(fā)者也針對Sora的技術報告展開了熱烈的討論,并根據(jù)技術報告的內(nèi)容,推測了Sora的技術架構圖如下:
Sora的技術架構圖(from魔搭社區(qū)開發(fā)者)
Sora模型的核心技術點(圖中紅色標注):
視頻壓縮網(wǎng)絡
OpenAI訓練了一個降低視覺數(shù)據(jù)維度的網(wǎng)絡。這個網(wǎng)絡接受原始視頻作為輸入,并輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓練,并隨后生成視頻。同時還訓練了一個相應的解碼器模型,將生成的潛在表示映射回像素空間(源自Sora技術報告)。這部分內(nèi)容為圖中的紅色部分,核心工作為將視覺數(shù)據(jù)轉(zhuǎn)化為patches,patches是從大語言模型中獲得的靈感,大語言模型范式的成功部分得益于使用優(yōu)雅統(tǒng)一各種文本模態(tài)(代碼、數(shù)學和各種自然語言)的token。大語言模型擁有文本token,而Sora擁有視覺分塊(patches)。OpenAI在之前的Clip等工作中,充分實踐了分塊是視覺數(shù)據(jù)模型的一種有效表示(參考論文:An image is worth 16x16 words: Transformers for image recognition at scale.)這一技術路線。而視頻壓縮網(wǎng)絡的工作就是將高維度的視頻數(shù)據(jù)轉(zhuǎn)換為patches,首先將視頻壓縮到一個低緯的latent space,然后分解為spacetime patches。
這個方法同樣適用于圖像(將圖像作為單一幀視頻處理),基于Patches的表示使得Sora能夠訓練具有不同分辨率,持續(xù)時間和縱橫比的視頻和圖像,而在推理過程中,只需要在適當大小的grid中隨機初始化patches即可控制視頻生成的大小。
技術難點:視頻壓縮網(wǎng)絡類比于latent diffusion model中的VAE,但是壓縮率是多少,如何保證視頻特征被更好地保留,還需要進一步的研究。
2. 用于視頻生成的Scaling Transformers
Sora是一個diffusion模型;給定輸入的噪聲塊+文本prompt,它被訓練來預測原始的“干凈”分塊。重要的是,Sora是一個Scaling Transformers。Transformers在大語言模型上展示了顯著的擴展性,我們相信OpenAI將很多在大語言模型的技術積累用在了Sora上。
在Sora的工作中,OpenAI發(fā)現(xiàn)Diffusion Transformers作為視頻生成模型具備很好的擴展性。
技術難點:能夠scaling up的transformer如何訓練出來,對第一步的patches進行有效訓練,可能包括的難點有l(wèi)ong context(長達1分鐘的視頻)的支持、期間error accumulation如何保證比較低,視頻中實體的高質(zhì)量和一致性,video condition,image condition,text condition的多模態(tài)支持等。
3. 語言理解
OpenAI發(fā)現(xiàn)訓練文本到視頻生成系統(tǒng)需要大量帶有相應文本標題的視頻。這里,OpenAI將DALL·E 3中介紹的標題生成技術用到了視頻領域,訓練了一個具備高度描述性的視頻標題生成(video captioning)模型,使用這個模型為所有的視頻訓練數(shù)據(jù)生成了高質(zhì)量文本標題,再將視頻和高質(zhì)量標題作為視頻文本對進行訓練。通過這樣的高質(zhì)量的訓練數(shù)據(jù),保障了文本(prompt)和視頻數(shù)據(jù)之間高度的align。而在生成階段,Sora會基于OpenAI的GPT模型對于用戶的prompt進行改寫,生成高質(zhì)量且具備很好描述性的高質(zhì)量prompt,再送到視頻生成模型完成生成工作。
技術難點:如何訓練一個高質(zhì)量的視頻caption模型,需要海量的高質(zhì)量視頻數(shù)據(jù),包括數(shù)據(jù)的獲取和標注,為了保障通用性,需要支持各種多樣化的視頻源,電影、紀錄片、游戲、3D引擎渲染等等;標注工作包括對長視頻的精準切片,以及切片后的captioning。中文高質(zhì)量視頻數(shù)據(jù)一直是稀缺資源,隨著國內(nèi)短視頻業(yè)務發(fā)展,也許可以加快中文高質(zhì)量短視頻的收集和獲取。
4、世界模型,涌現(xiàn)的模擬能力
當大規(guī)模訓練時,sora同樣也出現(xiàn)了有趣的“涌現(xiàn)的模擬能力”,這些能力使Sora能夠模擬物理世界中的人、動物和環(huán)境的某些方面。這些屬性沒有任何明確的三維、物體等歸納特征信息——可以理解為由于模型參數(shù)足夠大而產(chǎn)生的涌現(xiàn)現(xiàn)象。
這些能力包括:
三維一致性 Sora可以生成具有動態(tài)攝像機移動的視頻。隨著攝像機的移動和旋轉(zhuǎn),人物和場景元素在三維空間中一致地移動。
長距離連貫性和物體持久性 對于視頻生成系統(tǒng)來說,一個重大挑戰(zhàn)一直是在采樣長視頻時保持時間上的連續(xù)性。研究發(fā)現(xiàn),Sora通常能夠有效地模擬短距離和長距離依賴關系(不穩(wěn)定)。例如,Sora可以在人物、動物和物體被遮擋或離開畫面時仍然保持它們的存在。同樣,它可以在單個樣本中生成同一角色的多個鏡頭,貫穿視頻始終保持他們的外觀。
與世界互動 Sora可以模擬以簡單方式影響世界狀態(tài)的行為。例如,畫家可以在畫布上留下新的筆觸,這些筆觸隨著時間的推移而持續(xù)存在,或者一個人可以吃漢堡并留下咬痕。
模擬數(shù)字世界 Sora還能夠模擬人工過程,一個例子是視頻游戲。Sora可以通過基本策略控制《Minecraft》中的玩家,同時以高保真度渲染世界及其動態(tài)。這些能力可以通過prompt包含“Minecraft”,零樣本激活這樣的能力。
而這些能力都表明,順著這個方向發(fā)展(持續(xù)擴大規(guī)模),Sora真的可能成為世界模型(能夠高度模擬物理和數(shù)字世界的模擬器)。也許頭部玩家,黑客帝國這些科幻片,就在不太遙遠的未來。
技術難點:“大”模型,“高”算力,“海量”數(shù)據(jù)
總 結(jié)
從Sora模型的技術報告中,我們可以看到Sora模型的實現(xiàn),是建立在OpenAI一系列堅實的歷史技術工作的沉淀基礎上的:包括不限于視覺理解(Clip),Transformers模型和大模型的涌現(xiàn)(ChatGPT),Video Caption(DALL·E 3)等。正如社區(qū)的一位開發(fā)者說,雖然其中依然有非常多的技術細節(jié)OpenAI并沒有披露,但是OpenAI畫了一條“模糊”的路,有了這條模糊的路,大家就可以去嘗試,從而畫出通往視頻生成的正確的清晰的路。
以上就是sora軟件是什么 Sora的技術路徑一圖覽全部內(nèi)容,希望對你有幫助。想查找更多游戲資訊,歡迎持續(xù)關注游戲鳥查看。-
- 魔獸世界冰dk天賦加點推薦
- 阿姆羅2025-04-07 17:11:51
-
- NS2發(fā)布會匯總:港版售價3450港幣,馬車新作首發(fā)護航,支持4K120FPS輸出!
- 卡繆2025-04-03 10:14:35
-
- 可能漲價?CDPR稱《GTA6》漲價對他們來說是有利的。
- 卡繆2025-03-28 17:31:44
-
- 期待不?巴西博主曝Faker的S14冠軍皮膚選擇為永恩!
- 卡繆2025-03-21 17:04:15
-
- 罵歸罵買歸買?育碧官宣《刺客信條:影》首日玩家數(shù)突破100萬人!
- 卡繆2025-03-21 16:52:32
-
- 《云族裔(inZOI)》售價188元!3月20日開啟部分系統(tǒng)免費體驗!
- 卡繆2025-03-19 17:24:10
-
- 大火!《雙影奇境》官宣發(fā)售僅一周,銷量已突破200萬份!
- 卡繆2025-03-14 17:22:08
-
- 《天國:拯救2》新更新超過60G!一共修復超1000項BUG!
- 卡繆2025-03-14 17:14:52
-
- OpenAI sora是什么意思 Sora是怎么訓練出來的
- 游戲鳥手游網(wǎng)2024-04-30 00:20:41
-
- openai視頻生成模型sora爆火 OpenAI王炸模型官方技術報告解讀
- 游戲鳥手游網(wǎng)2024-04-28 02:03:12
-
二次元氪金模擬器2最新版
二次元氪金模擬器2最新版是一款高度還原真實氪金體驗的二次元風格抽卡模擬游戲,游戲內(nèi)設有多種氪金選項,讓玩家可在真實模擬中體驗抽卡快感,歐皇與非酋共存的設定極具趣味。角色收集、養(yǎng)成、組合策略豐富,每位英雄均擁有獨特技能,更設有300抽挑戰(zhàn)、圣像祠加成、VIP系統(tǒng)等多樣玩法,帶來沉浸式養(yǎng)成體驗??靵黹_啟你的二次元氪金之旅吧! -
網(wǎng)絡小說家模擬游戲
網(wǎng)絡小說家模擬游戲是一款高度還原小說創(chuàng)作生活的模擬養(yǎng)成類手游,玩家將在游戲中扮演一位網(wǎng)絡小說作者,從默默無聞的新人起步,在不斷更新、積攢粉絲、爭取出版與影視改編的過程中逐步走向文壇巔峰。游戲擁有豐富的模擬系統(tǒng)與養(yǎng)成要素,玩法充滿挑戰(zhàn)性與趣味性,是每一位熱愛文字創(chuàng)作玩家不容錯過的寫作人生體驗! -
彩虹史萊姆模擬器
彩虹史萊姆模擬器是一款休閑解壓類的3D模擬捏泥游戲,玩家可以在手機上享受真實粘液般的史萊姆互動體驗,自由選擇顏色、顆粒、質(zhì)感與添加劑,親手混合制作屬于你的專屬彩泥,并可將完成品收藏、貼標簽或錄制視頻分享。無論是想解壓放松,還是熱愛手作模擬玩法的玩家,都不容錯過這款創(chuàng)意滿滿的史萊姆模擬游戲。 -
人力資源機器安卓版
人力資源機器安卓版是一款別具一格的編程解謎游戲,在游戲中你將扮演一名普通員工,通過編程邏輯完成上司交辦的任務逐層晉升,直到登上辦公樓頂層。游戲采用拖拽式指令設計,能鍛煉邏輯思維能力,讓你體會編程的樂趣。每一關的挑戰(zhàn)既有趣又富有啟發(fā)性,搭配幽默的畫風和完整的劇情,為玩家?guī)硪粓鰟e開生面的解謎體驗。 -
開局一只史萊姆
開局一只史萊姆是一款文字放置類仙俠手游,融合修仙、擬態(tài)、掛機、轉(zhuǎn)生、進化等多重玩法,打造出獨特的異世界修仙體驗。玩家將扮演一只因意外穿越至修仙世界的史萊姆,從最底層修煉成長,通過擊敗敵人習得技能、積累屬性,逐步開啟擬態(tài)系統(tǒng),轉(zhuǎn)生蛻變?yōu)楦鞣N強大存在,直至登頂仙界巔峰。 -
業(yè)力輪回手游
業(yè)力輪回手游是一款融合靈魂轉(zhuǎn)生題材與手繪解謎風格的冒險闖關游戲,講述主人公為救摯愛而經(jīng)歷轉(zhuǎn)世輪回的凄美故事。你將化身為一只名為Pip的小蟲,在光明與黑暗之間游走,穿越詭異世界、破解謎題、挑戰(zhàn)命運。獨特的解謎設計和機關機制帶來燒腦挑戰(zhàn),是解謎冒險愛好者不可錯過的心靈之作。 -
節(jié)奏盒子機械恐懼癥版
節(jié)奏盒子機械恐懼癥版是一款融合音樂與節(jié)奏闖關的創(chuàng)新型音樂游戲,玩家將在震撼的音浪中挑戰(zhàn)自我節(jié)奏極限。游戲涵蓋電子、流行、搖滾等多種風格的高品質(zhì)曲目,并引入機械恐懼元素,打造沉浸式視覺體驗。豐富場景+漸進式難度設定,適合從新手到高手的全階玩家,快來開啟你的節(jié)奏旅程! -
ChainBeeT音游
ChainBeeT音游是一款節(jié)奏感十足的音樂節(jié)奏游戲,專為喜愛音游的玩家設計,游戲包含數(shù)百首曲目、12個難度段位以及多種模式選擇,讓不同水平的玩家都能找到適合自己的挑戰(zhàn)方式。無廣告、無內(nèi)購,支持離線游玩,只需精準點擊音符即可完成演奏。無論你是在通勤途中還是網(wǎng)絡不佳的環(huán)境下,ChainBeeT音游都是你放松心情、提升反應力的絕佳選擇。 -
言靈世界
言靈世界是一款二次元卡牌游戲。言靈世界手游融入了經(jīng)典的RPG冒險元素,采用回合制以及即時戰(zhàn)斗玩法為核心,帶給玩家沉浸式游戲體驗;游戲言靈世界手游中每張卡牌對應的角色形象都非常細膩精美,都具有專屬人物立繪。 -
言靈日記
言靈日記是一款像素題材的養(yǎng)成類手機游戲,游戲言靈日記畫面簡約,采用像素畫風設計,游戲中玩家可以不斷的收集各種角色,超簡單的游戲玩法帶你體驗養(yǎng)成游戲的無限樂趣,更有超多的游戲關卡等你來解鎖。