亚洲v欧美v日韩,精品视频一区二区三区在线观看,精精国产XXXX视频在线直,91国在线高清视频

    1. <dfn id="7gofa"></dfn>
    2. <object id="7gofa"><tt id="7gofa"></tt></object>

        游戲鳥手游網(wǎng),重度移動游戲垂直門戶!

        最新游戲 | 最新軟件 | 游戲更新 | 軟件更新 | 推薦游戲 | 推薦軟件 | 合集排行
        您當前位置:游戲鳥手游網(wǎng) > 游戲產(chǎn)業(yè) > sora軟件是什么 Sora的技術路徑一圖覽

        sora軟件是什么 Sora的技術路徑一圖覽

        發(fā)布時間:

        復刻Sora是很難的,對于這個Sora的技術路徑很多人都不太了解,想要了解sora是什么,那么大家可以多看看游戲鳥小編分享在下面的內(nèi)容,方便大家能更好的了解sora的技術路徑,對此感興趣的小伙伴趕緊來看看吧!

        Sora的技術路徑一圖覽

        昨天,OpenAI發(fā)布了視頻生成模型Sora,最大的Sora模型能夠生成一分鐘的高保真視頻。同時OpenAI稱,可擴展的視頻生成模型,是構建物理世界通用模擬器的一條可能的路徑。

        Sora能夠生成橫屏1920*1080視頻,豎屏1080*1920視頻,以及之間的所有內(nèi)容。這使得Sora可以兼容不同的視頻播放設備,根據(jù)特定的縱橫比來生成視頻內(nèi)容,這也會大大影響視頻創(chuàng)作領域,包括電影制作,電視內(nèi)容,自媒體等。

        技術報告:https://openai.com/research/video-generation-models-as-world-simulators

        技術解讀

        魔搭社區(qū)的開發(fā)者也針對Sora的技術報告展開了熱烈的討論,并根據(jù)技術報告的內(nèi)容,推測了Sora的技術架構圖如下:

        Sora的技術架構圖(from魔搭社區(qū)開發(fā)者)

        Sora模型的核心技術點(圖中紅色標注):

        視頻壓縮網(wǎng)絡

        OpenAI訓練了一個降低視覺數(shù)據(jù)維度的網(wǎng)絡。這個網(wǎng)絡接受原始視頻作為輸入,并輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓練,并隨后生成視頻。同時還訓練了一個相應的解碼器模型,將生成的潛在表示映射回像素空間(源自Sora技術報告)。這部分內(nèi)容為圖中的紅色部分,核心工作為將視覺數(shù)據(jù)轉(zhuǎn)化為patches,patches是從大語言模型中獲得的靈感,大語言模型范式的成功部分得益于使用優(yōu)雅統(tǒng)一各種文本模態(tài)(代碼、數(shù)學和各種自然語言)的token。大語言模型擁有文本token,而Sora擁有視覺分塊(patches)。OpenAI在之前的Clip等工作中,充分實踐了分塊是視覺數(shù)據(jù)模型的一種有效表示(參考論文:An image is worth 16x16 words: Transformers for image recognition at scale.)這一技術路線。而視頻壓縮網(wǎng)絡的工作就是將高維度的視頻數(shù)據(jù)轉(zhuǎn)換為patches,首先將視頻壓縮到一個低緯的latent space,然后分解為spacetime patches。

        這個方法同樣適用于圖像(將圖像作為單一幀視頻處理),基于Patches的表示使得Sora能夠訓練具有不同分辨率,持續(xù)時間和縱橫比的視頻和圖像,而在推理過程中,只需要在適當大小的grid中隨機初始化patches即可控制視頻生成的大小。

        技術難點:視頻壓縮網(wǎng)絡類比于latent diffusion model中的VAE,但是壓縮率是多少,如何保證視頻特征被更好地保留,還需要進一步的研究。

        2. 用于視頻生成的Scaling Transformers

        Sora是一個diffusion模型;給定輸入的噪聲塊+文本prompt,它被訓練來預測原始的“干凈”分塊。重要的是,Sora是一個Scaling Transformers。Transformers在大語言模型上展示了顯著的擴展性,我們相信OpenAI將很多在大語言模型的技術積累用在了Sora上。

        在Sora的工作中,OpenAI發(fā)現(xiàn)Diffusion Transformers作為視頻生成模型具備很好的擴展性。

        技術難點:能夠scaling up的transformer如何訓練出來,對第一步的patches進行有效訓練,可能包括的難點有l(wèi)ong context(長達1分鐘的視頻)的支持、期間error accumulation如何保證比較低,視頻中實體的高質(zhì)量和一致性,video condition,image condition,text condition的多模態(tài)支持等。

        3. 語言理解

        OpenAI發(fā)現(xiàn)訓練文本到視頻生成系統(tǒng)需要大量帶有相應文本標題的視頻。這里,OpenAI將DALL·E 3中介紹的標題生成技術用到了視頻領域,訓練了一個具備高度描述性的視頻標題生成(video captioning)模型,使用這個模型為所有的視頻訓練數(shù)據(jù)生成了高質(zhì)量文本標題,再將視頻和高質(zhì)量標題作為視頻文本對進行訓練。通過這樣的高質(zhì)量的訓練數(shù)據(jù),保障了文本(prompt)和視頻數(shù)據(jù)之間高度的align。而在生成階段,Sora會基于OpenAI的GPT模型對于用戶的prompt進行改寫,生成高質(zhì)量且具備很好描述性的高質(zhì)量prompt,再送到視頻生成模型完成生成工作。

        技術難點:如何訓練一個高質(zhì)量的視頻caption模型,需要海量的高質(zhì)量視頻數(shù)據(jù),包括數(shù)據(jù)的獲取和標注,為了保障通用性,需要支持各種多樣化的視頻源,電影、紀錄片、游戲、3D引擎渲染等等;標注工作包括對長視頻的精準切片,以及切片后的captioning。中文高質(zhì)量視頻數(shù)據(jù)一直是稀缺資源,隨著國內(nèi)短視頻業(yè)務發(fā)展,也許可以加快中文高質(zhì)量短視頻的收集和獲取。

        4、世界模型,涌現(xiàn)的模擬能力

        當大規(guī)模訓練時,sora同樣也出現(xiàn)了有趣的“涌現(xiàn)的模擬能力”,這些能力使Sora能夠模擬物理世界中的人、動物和環(huán)境的某些方面。這些屬性沒有任何明確的三維、物體等歸納特征信息——可以理解為由于模型參數(shù)足夠大而產(chǎn)生的涌現(xiàn)現(xiàn)象。

        這些能力包括:

        三維一致性 Sora可以生成具有動態(tài)攝像機移動的視頻。隨著攝像機的移動和旋轉(zhuǎn),人物和場景元素在三維空間中一致地移動。

        長距離連貫性和物體持久性 對于視頻生成系統(tǒng)來說,一個重大挑戰(zhàn)一直是在采樣長視頻時保持時間上的連續(xù)性。研究發(fā)現(xiàn),Sora通常能夠有效地模擬短距離和長距離依賴關系(不穩(wěn)定)。例如,Sora可以在人物、動物和物體被遮擋或離開畫面時仍然保持它們的存在。同樣,它可以在單個樣本中生成同一角色的多個鏡頭,貫穿視頻始終保持他們的外觀。

        與世界互動 Sora可以模擬以簡單方式影響世界狀態(tài)的行為。例如,畫家可以在畫布上留下新的筆觸,這些筆觸隨著時間的推移而持續(xù)存在,或者一個人可以吃漢堡并留下咬痕。

        模擬數(shù)字世界 Sora還能夠模擬人工過程,一個例子是視頻游戲。Sora可以通過基本策略控制《Minecraft》中的玩家,同時以高保真度渲染世界及其動態(tài)。這些能力可以通過prompt包含“Minecraft”,零樣本激活這樣的能力。

        而這些能力都表明,順著這個方向發(fā)展(持續(xù)擴大規(guī)模),Sora真的可能成為世界模型(能夠高度模擬物理和數(shù)字世界的模擬器)。也許頭部玩家,黑客帝國這些科幻片,就在不太遙遠的未來。

        技術難點:“大”模型,“高”算力,“海量”數(shù)據(jù)

        總 結(jié)

        從Sora模型的技術報告中,我們可以看到Sora模型的實現(xiàn),是建立在OpenAI一系列堅實的歷史技術工作的沉淀基礎上的:包括不限于視覺理解(Clip),Transformers模型和大模型的涌現(xiàn)(ChatGPT),Video Caption(DALL·E 3)等。正如社區(qū)的一位開發(fā)者說,雖然其中依然有非常多的技術細節(jié)OpenAI并沒有披露,但是OpenAI畫了一條“模糊”的路,有了這條模糊的路,大家就可以去嘗試,從而畫出通往視頻生成的正確的清晰的路。

        以上就是sora軟件是什么 Sora的技術路徑一圖覽全部內(nèi)容,希望對你有幫助。想查找更多游戲資訊,歡迎持續(xù)關注游戲鳥查看。
        復制本文鏈接攻略文章為游戲鳥手游網(wǎng)所有,未經(jīng)允許不得轉(zhuǎn)載。
        玩家要聞更多
        相關資訊更多
        熱門資訊更多
        1. 1 魔獸世界冰dk天賦加點推薦
        2. 2 NS2發(fā)布會匯總:港版售價3450港幣,馬車新作首發(fā)護航,支持4K120FPS輸出!
        3. 3 可能漲價?CDPR稱《GTA6》漲價對他們來說是有利的。
        4. 4 期待不?巴西博主曝Faker的S14冠軍皮膚選擇為永恩!
        5. 5 罵歸罵買歸買?育碧官宣《刺客信條:影》首日玩家數(shù)突破100萬人!
        6. 6 《云族裔(inZOI)》售價188元!3月20日開啟部分系統(tǒng)免費體驗!
        7. 7 大火!《雙影奇境》官宣發(fā)售僅一周,銷量已突破200萬份!
        8. 8 《天國:拯救2》新更新超過60G!一共修復超1000項BUG!
        玩玩用用更多
        精選資訊更多
        熱門專題全部>
        熱門標簽全部>