亚洲v欧美v日韩,精品视频一区二区三区在线观看,精精国产XXXX视频在线直,91国在线高清视频

<dfn id="7gofa"></dfn>

<object id="7gofa"><tt id="7gofa"></tt></object>

游戲鳥手游網(wǎng)，重度移動游戲垂直門戶！

最新游戲 | 最新軟件 | 游戲更新 | 軟件更新 | 推薦游戲 | 推薦軟件 | 合集排行

youxiniao.com

您當前位置：游戲鳥手游網(wǎng) > 游戲產(chǎn)業(yè) > sora軟件是什么 Sora的技術路徑一圖覽

sora軟件是什么 Sora的技術路徑一圖覽

發(fā)布時間：2024-05-02 18:56:49

復刻Sora是很難的，對于這個Sora的技術路徑很多人都不太了解，想要了解sora是什么，那么大家可以多看看游戲鳥小編分享在下面的內(nèi)容，方便大家能更好的了解sora的技術路徑，對此感興趣的小伙伴趕緊來看看吧！

Sora的技術路徑一圖覽

昨天，OpenAI發(fā)布了視頻生成模型Sora，最大的Sora模型能夠生成一分鐘的高保真視頻。同時OpenAI稱，可擴展的視頻生成模型，是構建物理世界通用模擬器的一條可能的路徑。

Sora能夠生成橫屏1920*1080視頻，豎屏1080*1920視頻，以及之間的所有內(nèi)容。這使得Sora可以兼容不同的視頻播放設備，根據(jù)特定的縱橫比來生成視頻內(nèi)容，這也會大大影響視頻創(chuàng)作領域，包括電影制作，電視內(nèi)容，自媒體等。

技術報告：https://openai.com/research/video-generation-models-as-world-simulators

技術解讀

魔搭社區(qū)的開發(fā)者也針對Sora的技術報告展開了熱烈的討論，并根據(jù)技術報告的內(nèi)容，推測了Sora的技術架構圖如下：

Sora的技術架構圖(from魔搭社區(qū)開發(fā)者)

Sora模型的核心技術點(圖中紅色標注)：

視頻壓縮網(wǎng)絡

OpenAI訓練了一個降低視覺數(shù)據(jù)維度的網(wǎng)絡。這個網(wǎng)絡接受原始視頻作為輸入，并輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓練，并隨后生成視頻。同時還訓練了一個相應的解碼器模型，將生成的潛在表示映射回像素空間(源自Sora技術報告)。這部分內(nèi)容為圖中的紅色部分，核心工作為將視覺數(shù)據(jù)轉(zhuǎn)化為patches，patches是從大語言模型中獲得的靈感，大語言模型范式的成功部分得益于使用優(yōu)雅統(tǒng)一各種文本模態(tài)(代碼、數(shù)學和各種自然語言)的token。大語言模型擁有文本token，而Sora擁有視覺分塊(patches)。OpenAI在之前的Clip等工作中，充分實踐了分塊是視覺數(shù)據(jù)模型的一種有效表示(參考論文：An image is worth 16x16 words: Transformers for image recognition at scale.)這一技術路線。而視頻壓縮網(wǎng)絡的工作就是將高維度的視頻數(shù)據(jù)轉(zhuǎn)換為patches，首先將視頻壓縮到一個低緯的latent space，然后分解為spacetime patches。

這個方法同樣適用于圖像(將圖像作為單一幀視頻處理)，基于Patches的表示使得Sora能夠訓練具有不同分辨率，持續(xù)時間和縱橫比的視頻和圖像，而在推理過程中，只需要在適當大小的grid中隨機初始化patches即可控制視頻生成的大小。

技術難點：視頻壓縮網(wǎng)絡類比于latent diffusion model中的VAE，但是壓縮率是多少，如何保證視頻特征被更好地保留，還需要進一步的研究。

2. 用于視頻生成的Scaling Transformers

Sora是一個diffusion模型;給定輸入的噪聲塊+文本prompt，它被訓練來預測原始的“干凈”分塊。重要的是，Sora是一個Scaling Transformers。Transformers在大語言模型上展示了顯著的擴展性，我們相信OpenAI將很多在大語言模型的技術積累用在了Sora上。

在Sora的工作中，OpenAI發(fā)現(xiàn)Diffusion Transformers作為視頻生成模型具備很好的擴展性。

技術難點：能夠scaling up的transformer如何訓練出來，對第一步的patches進行有效訓練，可能包括的難點有l(wèi)ong context(長達1分鐘的視頻)的支持、期間error accumulation如何保證比較低，視頻中實體的高質(zhì)量和一致性，video condition，image condition，text condition的多模態(tài)支持等。

3. 語言理解

OpenAI發(fā)現(xiàn)訓練文本到視頻生成系統(tǒng)需要大量帶有相應文本標題的視頻。這里，OpenAI將DALL·E 3中介紹的標題生成技術用到了視頻領域，訓練了一個具備高度描述性的視頻標題生成(video captioning)模型，使用這個模型為所有的視頻訓練數(shù)據(jù)生成了高質(zhì)量文本標題，再將視頻和高質(zhì)量標題作為視頻文本對進行訓練。通過這樣的高質(zhì)量的訓練數(shù)據(jù)，保障了文本(prompt)和視頻數(shù)據(jù)之間高度的align。而在生成階段，Sora會基于OpenAI的GPT模型對于用戶的prompt進行改寫，生成高質(zhì)量且具備很好描述性的高質(zhì)量prompt，再送到視頻生成模型完成生成工作。

技術難點：如何訓練一個高質(zhì)量的視頻caption模型，需要海量的高質(zhì)量視頻數(shù)據(jù)，包括數(shù)據(jù)的獲取和標注，為了保障通用性，需要支持各種多樣化的視頻源，電影、紀錄片、游戲、3D引擎渲染等等;標注工作包括對長視頻的精準切片，以及切片后的captioning。中文高質(zhì)量視頻數(shù)據(jù)一直是稀缺資源，隨著國內(nèi)短視頻業(yè)務發(fā)展，也許可以加快中文高質(zhì)量短視頻的收集和獲取。

4、世界模型，涌現(xiàn)的模擬能力

當大規(guī)模訓練時，sora同樣也出現(xiàn)了有趣的“涌現(xiàn)的模擬能力”，這些能力使Sora能夠模擬物理世界中的人、動物和環(huán)境的某些方面。這些屬性沒有任何明確的三維、物體等歸納特征信息——可以理解為由于模型參數(shù)足夠大而產(chǎn)生的涌現(xiàn)現(xiàn)象。

這些能力包括：

三維一致性 Sora可以生成具有動態(tài)攝像機移動的視頻。隨著攝像機的移動和旋轉(zhuǎn)，人物和場景元素在三維空間中一致地移動。

長距離連貫性和物體持久性對于視頻生成系統(tǒng)來說，一個重大挑戰(zhàn)一直是在采樣長視頻時保持時間上的連續(xù)性。研究發(fā)現(xiàn)，Sora通常能夠有效地模擬短距離和長距離依賴關系(不穩(wěn)定)。例如，Sora可以在人物、動物和物體被遮擋或離開畫面時仍然保持它們的存在。同樣，它可以在單個樣本中生成同一角色的多個鏡頭，貫穿視頻始終保持他們的外觀。

與世界互動 Sora可以模擬以簡單方式影響世界狀態(tài)的行為。例如，畫家可以在畫布上留下新的筆觸，這些筆觸隨著時間的推移而持續(xù)存在，或者一個人可以吃漢堡并留下咬痕。

模擬數(shù)字世界 Sora還能夠模擬人工過程，一個例子是視頻游戲。Sora可以通過基本策略控制《Minecraft》中的玩家，同時以高保真度渲染世界及其動態(tài)。這些能力可以通過prompt包含“Minecraft”，零樣本激活這樣的能力。

而這些能力都表明，順著這個方向發(fā)展(持續(xù)擴大規(guī)模)，Sora真的可能成為世界模型(能夠高度模擬物理和數(shù)字世界的模擬器)。也許頭部玩家，黑客帝國這些科幻片，就在不太遙遠的未來。

技術難點：“大”模型，“高”算力，“海量”數(shù)據(jù)

總結(jié)

從Sora模型的技術報告中，我們可以看到Sora模型的實現(xiàn)，是建立在OpenAI一系列堅實的歷史技術工作的沉淀基礎上的：包括不限于視覺理解(Clip)，Transformers模型和大模型的涌現(xiàn)(ChatGPT)，Video Caption(DALL·E 3)等。正如社區(qū)的一位開發(fā)者說，雖然其中依然有非常多的技術細節(jié)OpenAI并沒有披露，但是OpenAI畫了一條“模糊”的路，有了這條模糊的路，大家就可以去嘗試，從而畫出通往視頻生成的正確的清晰的路。

以上就是sora軟件是什么 Sora的技術路徑一圖覽全部內(nèi)容，希望對你有幫助。想查找更多游戲資訊，歡迎持續(xù)關注游戲鳥查看。

復制本文鏈接攻略文章為游戲鳥手游網(wǎng)所有，未經(jīng)允許不得轉(zhuǎn)載。

米加小鎮(zhèn)世界農(nóng)歷新年更新公告 2024農(nóng)歷新年版本更新內(nèi)容一覽

米加小鎮(zhèn)世界農(nóng)歷新年更新公告 2024農(nóng)歷新年版本更新內(nèi)容一覽

Sora到底懂不懂物理世界? AI視頻生成引發(fā)行業(yè)震驚

Sora到底懂不懂物理世界? AI視頻生成引發(fā)行業(yè)震驚

玩家要聞更多

相關資訊更多

魔獸世界冰dk天賦加點推薦

阿姆羅2025-04-07 17:11:51
NS2發(fā)布會匯總：港版售價3450港幣，馬車新作首發(fā)護航，支持4K120FPS輸出！

卡繆2025-04-03 10:14:35
可能漲價？CDPR稱《GTA6》漲價對他們來說是有利的。

卡繆2025-03-28 17:31:44
期待不？巴西博主曝Faker的S14冠軍皮膚選擇為永恩！

卡繆2025-03-21 17:04:15
罵歸罵買歸買？育碧官宣《刺客信條：影》首日玩家數(shù)突破100萬人！

卡繆2025-03-21 16:52:32
《云族裔（inZOI）》售價188元！3月20日開啟部分系統(tǒng)免費體驗！

卡繆2025-03-19 17:24:10
大火！《雙影奇境》官宣發(fā)售僅一周，銷量已突破200萬份！

卡繆2025-03-14 17:22:08
《天國：拯救2》新更新超過60G!一共修復超1000項BUG！

卡繆2025-03-14 17:14:52
OpenAI sora是什么意思 Sora是怎么訓練出來的

游戲鳥手游網(wǎng)2024-04-30 00:20:41
openai視頻生成模型sora爆火 OpenAI王炸模型官方技術報告解讀

游戲鳥手游網(wǎng)2024-04-28 02:03:12

熱門資訊更多

玩玩用用更多

精選資訊更多

熱門專題全部>

0.1折手游推薦

0.1折手游推薦

熱門標簽全部>

放置類手機游戲懸疑推理游戲寶可夢肉鴿版合集城市英雄冒險類游戲合集阿徹威爾奇妙冒險拱谷世界游戲合集三國RPG類游戲合集俠客冒險類游戲合集魔塔冒險類游戲合集刷裝備的rpg游戲合集中世紀RPG合集

<s id="andoz"><dfn id="andoz"><form id="andoz"></form></dfn></s><s id="andoz"></s>

^{<mark id="andoz"></mark>}