亚洲v欧美v日韩,精品视频一区二区三区在线观看,精精国产XXXX视频在线直,91国在线高清视频

    1. <dfn id="7gofa"></dfn>
    2. <object id="7gofa"><tt id="7gofa"></tt></object>

        游戲鳥手游網(wǎng),重度移動游戲垂直門戶!

        最新游戲 | 最新軟件 | 游戲更新 | 軟件更新 | 推薦游戲 | 推薦軟件 | 合集排行
        您當(dāng)前位置:游戲鳥手游網(wǎng) > 大陸新聞 > openai視頻生成模型sora爆火 OpenAI王炸模型官方技術(shù)報告解讀

        openai視頻生成模型sora爆火 OpenAI王炸模型官方技術(shù)報告解讀

        發(fā)布時間:

        openai視頻生成模型sora最近徹底爆火了,對于這次的爆火事件很多人還不是很了解,想要知道OpenAI王炸模型究竟是什么樣的,那么大家可以看看下面游戲鳥小編帶來的官方技術(shù)報告解讀,會給大家具體的介紹這次科技大爆炸的詳情。

        OpenAI王炸模型官方技術(shù)報告解讀

        OpenAI 2月16日凌晨發(fā)布了文生視頻大模型Sora,在科技圈引起一連串的震驚和感嘆,在2023年,我們見證了文生文、文生圖的進展速度,視頻可以說是人類被AI攻占最慢的一塊“處女地”。而在2024年開年,OpenAI就發(fā)布了王炸文生視頻大模型Sora,它能夠僅僅根據(jù)提示詞,生成60s的連貫視頻,“碾壓”了行業(yè)目前大概只有平均“4s”的視頻生成長度。

        為了方便理解,我們簡單總結(jié)了這個模型的強大之處:

        1、文本到視頻生成能力:Sora能夠根據(jù)用戶提供的文本描述生成長達60S的視頻,這些視頻不僅保持了視覺品質(zhì),而且完整準確還原了用戶的提示語。

        2、復(fù)雜場景和角色生成能力:Sora能夠生成包含多個角色、特定運動類型以及主題精確、背景細節(jié)復(fù)雜的場景。它能夠創(chuàng)造出生動的角色表情和復(fù)雜的運鏡,使得生成的視頻具有高度的逼真性和敘事效果。

        3、語言理解能力:Sora擁有深入的語言理解能力,能夠準確解釋提示并生成能表達豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令,并在生成的視頻內(nèi)容中忠實地反映這些指令。

        4、多鏡頭生成能力:Sora可以在單個生成的視頻中創(chuàng)建多個鏡頭,同時保持角色和視覺風(fēng)格的一致性。這種能力對于制作電影預(yù)告片、動畫或其他需要多視角展示的內(nèi)容非常有用。

        5、從靜態(tài)圖像生成視頻能力:Sora不僅能夠從文本生成視頻,還能夠從現(xiàn)有的靜態(tài)圖像開始,準確地動畫化圖像內(nèi)容,或者擴展現(xiàn)有視頻,填補視頻中的缺失幀。

        6、物理世界模擬能力:Sora展示了人工智能在理解真實世界場景并與之互動的能力,這是朝著實現(xiàn)通用人工智能(AGI)的重要一步。它能夠模擬真實物理世界的運動,如物體的移動和相互作用。

        可以說,Sora的出現(xiàn),預(yù)示著一個全新的視覺敘事時代的到來,它能夠?qū)⑷藗兊南胂罅D(zhuǎn)化為生動的動態(tài)畫面,將文字的魔力轉(zhuǎn)化為視覺的盛宴。在這個由數(shù)據(jù)和算法編織的未來,Sora正以其獨特的方式,重新定義著我們與數(shù)字世界的互動。

        01

        以下為OpenAI文生視頻模型Sora官方技術(shù)報告

        我們探索了利用視頻數(shù)據(jù)對生成模型進行大規(guī)模訓(xùn)練。具體來說,我們在不同持續(xù)時間、分辨率和縱橫比的視頻和圖像上聯(lián)合訓(xùn)練了以文本為輸入條件的擴散模型。我們引入了一種transformer架構(gòu),該架構(gòu)對視頻的時空序列包和圖像潛在編碼進行操作。我們最頂尖的模型Sora已經(jīng)能夠生成最長一分鐘的高保真視頻,這標志著我們在視頻生成領(lǐng)域取得了重大突破。我們的研究結(jié)果表明,通過擴大視頻生成模型的規(guī)模,我們有望構(gòu)建出能夠模擬物理世界的通用模擬器,這無疑是一條極具前景的發(fā)展道路。

        這份技術(shù)報告主要聚焦于兩大方面:首先,我們詳細介紹了一種將各類可視數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一表示的方法,從而實現(xiàn)了對生成式模型的大規(guī)模訓(xùn)練;其次,我們對Sora的能力及其局限性進行了深入的定性評估。需要注意的是,本報告并未涉及模型的具體技術(shù)細節(jié)。

        在過去的研究中,許多團隊已經(jīng)嘗試使用遞歸網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)、自回歸Transformer和擴散模型等各種方法,對視頻數(shù)據(jù)的生成式建模進行了深入研究。然而,這些工作通常僅限于較窄類別的視覺數(shù)據(jù)、較短的視頻或固定大小的視頻上。相比之下,Sora作為一款通用的視覺數(shù)據(jù)模型,其卓越之處在于能夠生成跨越不同持續(xù)時間、縱橫比和分辨率的視頻和圖像,甚至包括生成長達一分鐘的高清視頻。

        將可視數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)包(patchs)

        在可視數(shù)據(jù)的處理上,我們借鑒了大語言模型的成功經(jīng)驗。這些模型通過對互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)進行訓(xùn)練,獲得了強大的通用能力。同樣,我們考慮如何將這種優(yōu)勢引入到可視數(shù)據(jù)的生成式模型中。大語言模型通過token將各種形式的文本代碼、數(shù)學(xué)和自然語言統(tǒng)一起來,而Sora則通過視覺包(patchs)實現(xiàn)了類似的效果。我們發(fā)現(xiàn),對于不同類型的視頻和圖像,包是一種高度可擴展且有效的表示方式,對于訓(xùn)練生成模型具有重要意義。

        圖注:OpenAI專門設(shè)計的解碼器模型,它可以將生成的潛在表示重新映射回像素空間

        在更高層次上,我們首先將視頻壓縮到一個低維度的潛在空間:這是通過對視頻進行時間和空間上的壓縮實現(xiàn)的。這個潛在空間可以看作是一個“時空包”的集合,從而將原始視頻轉(zhuǎn)化為這些包。

        視頻壓縮網(wǎng)絡(luò)

        我們專門訓(xùn)練了一個網(wǎng)絡(luò),專門負責(zé)降低視覺數(shù)據(jù)的維度。這個網(wǎng)絡(luò)接收原始視頻作為輸入,并輸出經(jīng)過壓縮的潛在表示。Sora模型就是在這個壓縮后的潛在空間中接受訓(xùn)練,并最終生成視頻。此外,我們還設(shè)計了一個解碼器模型,它可以將生成的潛在表示重新映射回像素空間,從而生成可視的視頻或圖像。

        時空包

        當(dāng)給定一個壓縮后的輸入視頻時,我們會從中提取出一系列的時空包,這些包被用作轉(zhuǎn)換token。這一方案不僅適用于視頻,因為視頻本質(zhì)上就是由連續(xù)幀構(gòu)成的,所以圖像也可以看作是單幀的視頻。通過這種基于包的表示方式,Sora能夠跨越不同分辨率、持續(xù)時間和縱橫比的視頻和圖像進行訓(xùn)練。在推理階段,我們只需在適當(dāng)大小的網(wǎng)格中安排隨機初始化的包,就可以控制生成視頻的大小和分辨率。

        用于視頻生成的縮放Transformers

        Sora是一個擴散模型,它接受輸入的噪聲包(以及如文本提示等條件性輸入信息),然后被訓(xùn)練去預(yù)測原始的“干凈”包。重要的是,Sora是一個基于擴散的轉(zhuǎn)換器模型,這種模型已經(jīng)在多個領(lǐng)域展現(xiàn)了顯著的擴展性,包括語言建模、計算機視覺以及圖像生成等領(lǐng)域。

        圖注:隨著訓(xùn)練量的增加,擴散轉(zhuǎn)換器生成的樣本質(zhì)量有了明顯提高

        在這項工作中,我們發(fā)現(xiàn)擴散轉(zhuǎn)換器在視頻生成領(lǐng)域同樣具有巨大的潛力。我們展示了不同訓(xùn)練階段下,使用相同種子和輸入的視頻樣本對比,結(jié)果證明了隨著訓(xùn)練量的增加,樣本質(zhì)量有著明顯的提高。

        豐富的持續(xù)時間、分辨率與縱橫比

        過去,圖像和視頻生成方法常常需要將視頻調(diào)整大小、裁剪或修剪至標準尺寸,如4秒、256x256分辨率的視頻。但Sora打破了這一常規(guī),它直接在原始大小的數(shù)據(jù)上進行訓(xùn)練,從而帶來了諸多優(yōu)勢。

        采樣更靈活

        Sora具備出色的采樣能力,無論是寬屏1920x1080p視頻、垂直1080x1920視頻,還是介于兩者之間的任何視頻尺寸,它都能輕松應(yīng)對。這意味著Sora可以為各種設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容。更令人驚嘆的是,即使在生成全分辨率內(nèi)容之前,Sora也能以較小的尺寸迅速創(chuàng)建內(nèi)容原型。而所有這一切,都得益于使用相同的模型。

        圖注:Sora可以為各種設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容

        改進構(gòu)圖與框架

        我們的實驗結(jié)果顯示,在視頻的原始縱橫比上進行訓(xùn)練,能夠顯著提升構(gòu)圖和框架的質(zhì)量。為了驗證這一點,我們將Sora與一個將所有訓(xùn)練視頻裁剪為方形的模型版本進行了比較。結(jié)果發(fā)現(xiàn),在正方形裁剪上訓(xùn)練的模型有時會生成僅部分顯示主題的視頻。而Sora則能呈現(xiàn)出更加完美的幀,充分展現(xiàn)了其在視頻生成領(lǐng)域的卓越性能。

        圖注:將所有訓(xùn)練視頻裁剪為方形的模型相比(左),Sora能呈現(xiàn)出更加完美的幀

        語言理解深化

        為了訓(xùn)練文本轉(zhuǎn)視頻生成系統(tǒng),需要大量帶有相應(yīng)文本字幕的視頻。為此,我們借鑒了DALL·E3中的re-captioning技術(shù),并應(yīng)用于視頻領(lǐng)域。首先,我們訓(xùn)練了一個高度描述性的轉(zhuǎn)譯員模型,然后使用它為我們訓(xùn)練集中的所有視頻生成文本轉(zhuǎn)譯。通過這種方式,我們發(fā)現(xiàn)對高度描述性的視頻轉(zhuǎn)譯進行訓(xùn)練,可以顯著提高文本保真度和視頻的整體質(zhì)量。

        與此同時,與DALL·E3類似,我們還利用GPT技術(shù)將簡短的用戶提示轉(zhuǎn)換為更長的詳細轉(zhuǎn)譯,并將其發(fā)送到視頻模型。這一創(chuàng)新使得Sora能夠精確地按照用戶提示生成高質(zhì)量的視頻。

        圖片與視頻提示

        在上述所有結(jié)果和我們的演示中,你可能已經(jīng)注意到了文本轉(zhuǎn)視頻的示例。但Sora的功能遠不止于此,它還能接受其他類型的輸入提示,如預(yù)先存在的圖像或視頻。這種多樣化的提示方式使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù),如創(chuàng)建完美的循環(huán)視頻、將靜態(tài)圖像轉(zhuǎn)化為動畫、向前或向后擴展視頻等。

        將DALL·E圖片變成動畫

        值得一提的是,Sora還能在提供圖像和提示作為輸入的情況下生成視頻。下面展示的示例視頻就是基于DALL·E 2和DALL·E 3的圖像生成的。這些示例不僅證明了Sora的強大功能,還展示了它在圖像和視頻編輯領(lǐng)域的無限潛力。

        圖片

        一幅逼真的云朵圖像生成視頻,上面寫著“SORA”;在一個華麗的歷史大廳里,一股巨大的浪潮達到頂峰,并開始崩散,兩個沖浪者抓住時機,巧妙地在海浪表面飛馳

        擴展生成視頻

        Sora不僅具備生成視頻的能力,更能在時間維度上實現(xiàn)向前或向后的無限擴展。以下三個視頻便是從同一生成視頻片段出發(fā),逐步向后擴展的示例。盡管它們的起始部分各異,但結(jié)局卻出奇地一致。

        視頻到視頻編輯

        隨著擴散模型的發(fā)展,我們已經(jīng)開發(fā)出多種方法來編輯基于文本提示的圖像和視頻。在此,我們將其中一種名為SDEdit 32的技術(shù)應(yīng)用于Sora。這項技術(shù)賦予了Sora轉(zhuǎn)換零拍攝輸入視頻風(fēng)格和環(huán)境的能力,為視頻編輯領(lǐng)域帶來了革命性的變革。

        視頻的無縫連接

        更令人驚嘆的是,Sora還能在兩個截然不同的輸入視頻之間實現(xiàn)無縫過渡。通過逐漸插入技術(shù),我們能夠在具有完全不同主題和場景構(gòu)圖的視頻之間創(chuàng)建出流暢自然的過渡效果。

        圖片生成能力

        Sora的出色能力不止于數(shù)據(jù)處理和分析,它現(xiàn)在還能生成圖像!這一創(chuàng)新功能的實現(xiàn)得益于一種獨特的算法,該算法在一個精確的時間范圍內(nèi),巧妙地在空間網(wǎng)格中排列高斯噪聲補丁。

        值得一提的是,Sora的圖像生成功能不僅限于特定大小的圖像。它可以根據(jù)用戶需求,生成可變大小的圖像,最高可達驚人的2048 × 2048分辨率。

        圖注:一個女人在秋天的特寫肖像,每一個細節(jié)都被捕捉得淋漓盡致,淺景深的應(yīng)用使得主體脫穎而出

        圖注:充滿生機的珊瑚礁吸引了五顏六色的魚類和海洋生物

        新的模擬能力

        在大規(guī)模訓(xùn)練過程中,我們發(fā)現(xiàn)視頻模型展現(xiàn)出了許多令人興奮的新能力。這些功能使得Sora能夠模擬現(xiàn)實世界中的人物、動物和環(huán)境等某些方面。值得注意的是,這些屬性的出現(xiàn)并沒有依賴于任何明確的3D建模、物體識別等歸納偏差,而是純粹通過模型的尺度擴展而自然涌現(xiàn)的。

        3D一致性:在3D一致性方面,Sora能夠生成帶有動態(tài)攝像頭運動的視頻。隨著攝像頭的移動和旋轉(zhuǎn),人物和場景元素在三維空間中始終保持一致的運動規(guī)律。

        較長視頻的連貫性和對象持久性:視頻生成領(lǐng)域面對的一個重要挑戰(zhàn)就是,在生成的較長視頻中保持時空連貫性和一致性。Sora,雖然不總是,但經(jīng)常能夠有效地為短期和長期物體間的依賴關(guān)系建模。例如,在生成的視頻中,人物、動物和物體即使在被遮擋或離開畫面后,仍能被準確地保存和呈現(xiàn)。同樣地,Sora能夠在單個樣本中生成同一角色的多個鏡頭,并在整個視頻中保持其外觀的一致性。

        與世界互動:Sora有時還能以簡單的方式模擬影響世界狀態(tài)的行為。例如,畫家可以在畫布上留下新的筆觸。隨著時間的推移,一個人吃漢堡時也能在上面留下咬痕。

        模擬數(shù)字世界:Sora還能夠模擬人工過程,比如視頻游戲。它可以在高保真度渲染世界及其動態(tài)的同時,用基本策略控制《我的世界》中的玩家。這些功能都無需額外的訓(xùn)練數(shù)據(jù)或調(diào)整模型參數(shù),只需向Sora提示“我的世界”即可實現(xiàn)。

        這些新能力表明,視頻模型的持續(xù)擴展為開發(fā)高性能的物理和數(shù)字世界模擬器提供了一條充滿希望的道路。通過模擬生活在這些世界中的物體、動物和人等實體,我們可以更深入地理解現(xiàn)實世界的運行規(guī)律,并開發(fā)出更加逼真、自然的視頻生成技術(shù)。

        局限性與展望

        盡管Sora在模擬能力方面已經(jīng)取得了顯著的進展,但它目前仍然存在許多局限性。例如,它不能準確地模擬許多基本相互作用的物理過程,如玻璃破碎等。此外,在某些交互場景中,比如吃東西時,Sora并不能總是產(chǎn)生正確的對象狀態(tài)變化。我們在發(fā)布頁面中列舉了模型的其他常見故障模式,包括在長時間樣本中發(fā)展的不一致性或某些對象不受控的出現(xiàn)等。

        然而,我們相信隨著技術(shù)的不斷進步和創(chuàng)新,Sora所展現(xiàn)出的能力預(yù)示著視頻模型持續(xù)擴展的巨大潛力。未來,我們期待看到更加先進的視頻生成技術(shù),能夠更準確地模擬現(xiàn)實世界中的各種現(xiàn)象和行為,并為我們帶來更加逼真、自然的視覺體驗。

        02

        圈內(nèi)人如何看Sora?

        最后再來看看各位技術(shù)大牛和內(nèi)容行業(yè)從業(yè)者如何評價Sora?

        馬斯克評OpenAI視頻模型:人類認賭服輸,但AI增強的人類將創(chuàng)造出最好作品

        OpenAI周四發(fā)布了首個視頻生成模型Sora。馬斯克的前女友格萊姆斯發(fā)布了一連串帖子,討論這項新技術(shù)對電影以及更廣泛的藝術(shù)創(chuàng)作的影響。

        馬斯克在其中一條帖子下回應(yīng)稱:“AI增強的人類將在未來幾年里創(chuàng)造出最好的作品。”

        值得注意的是,馬斯克和格萊姆斯在過去大約半年時間里一直在就他們?nèi)齻€子女的撫養(yǎng)權(quán)問題對薄公堂。兩人之間在X平臺上這次罕見的互動引發(fā)了人們對他們目前關(guān)系狀態(tài)的猜測。

        稍早,一位X用戶分享了Sora生成的一名女子在東京街頭漫步的視頻,并評論稱:“OpenAI今天宣布了Sora,它使用混合擴散和變壓器模型架構(gòu)生成長達1分鐘的視頻。他們似乎又領(lǐng)先了其他所有人1-2年?!绷硪晃籜用戶評論稱:“gg皮克斯?!?

        馬斯克回應(yīng)稱:“gg人類?!?注:gg是網(wǎng)絡(luò)游戲用語“good games”的縮寫,主要用于游戲結(jié)束后,輸贏雙方都可以用,但現(xiàn)在多由失敗方發(fā)出,表示認賭服輸、心服口服的意思。)在馬斯克帖子的評論區(qū)里,還有用戶附和道:“gg好萊塢”。

        Jim Fan感嘆:Sora是一個數(shù)據(jù)驅(qū)動的物理引擎

        英偉達人工智能研究院Jim Fan表示“如果你還是把Sora當(dāng)做DALLE那樣的生成式玩具,還是好好想想吧,這是一個數(shù)據(jù)驅(qū)動的物理引擎。”Jim Fan大神的言下之意是,我們不能忽略Sora背后,“世界模型”更進一步,AI已經(jīng)可以讀懂物理規(guī)律。

        YouTube大V :動畫師和3D藝術(shù)家的工作可能有危險了

        YouTube大V Paddy Galloway感慨:“內(nèi)容創(chuàng)作永遠改變了。這不是夸張。我在YouTube世界已經(jīng)15年了,OpenAI剛剛展示的東西讓我說不出話來…”他認為,Sora將帶來以下這些改變:

        ● 動畫師和3D藝術(shù)家的工作可能有危險了庫存素材網(wǎng)站將變得無關(guān)緊要

        ● 任何人都可以立即擁有出色的B-roll(輔助鏡頭)

        ● 制作精美視頻的門檻降至零

        ● 在一個每個人都能制作出美麗視頻的世界里,內(nèi)容背后的“想法”和故事變得更加重要

        ● Sora將真正顛覆教育、視頻論文和解說視頻的細分市場

        AI創(chuàng)業(yè)公司創(chuàng)始人:五年之后,你將能夠生成完全沉浸式的世界,并實時體驗它們

        Takeoff AI是專注于AI Tools的創(chuàng)業(yè)公司,它的創(chuàng)始人認為這一波OpenAI新技術(shù)的最大受益者可能是虛擬現(xiàn)實?!霸趦芍軆?nèi),我們連續(xù)有了蘋果的Vision Pro和OpenAI的Sora文本到視頻AI模型。五年之后,你將能夠生成完全沉浸式的世界,并實時體驗它們。Holodeck(應(yīng)該是指今年火爆的掌機Steamdeck的虛擬現(xiàn)實版本)很快就要來了。”

        除了這些技術(shù)上的猜測和對產(chǎn)業(yè)影響的正面預(yù)測外,也有老反對派指出Sora的潛在問題不那么容易糾正。

        Gary Marcus:Sora奇怪的物理故障可能不是數(shù)據(jù)中出現(xiàn)的

        紐約大學(xué)教授Gary Marcus以其對AI領(lǐng)域的深刻見解和對現(xiàn)有技術(shù)的批判性思考而聞名,他的觀點和研究對AI社區(qū)產(chǎn)生了重要影響。他表示“Sora奇怪的物理故障(例如動物和人在人群中自發(fā)出現(xiàn)和消失)令人著迷:這些錯誤可能不是數(shù)據(jù)中出現(xiàn)的。這種小故障在某些方面類似于LLM“幻覺”,即從有損壓縮中(大致)解壓縮產(chǎn)生的偽影,而不是來自這個世界的東西?!?

        而且這種錯誤在他看來是一種“與現(xiàn)實世界物理學(xué)的系統(tǒng)性偏差,可能很難糾正?!?

        不過此刻最悲傷的應(yīng)該是Google,今天本來拿來翻盤用的的Gemini1.5發(fā)布風(fēng)頭完全被Sora壓過。作為AI界的汪峰,它對此沒有評論。

        以上就是openai視頻生成模型sora爆火 OpenAI王炸模型官方技術(shù)報告解讀全部內(nèi)容,希望對你有幫助。想查找更多游戲資訊,歡迎持續(xù)關(guān)注游戲鳥查看。
        復(fù)制本文鏈接攻略文章為游戲鳥手游網(wǎng)所有,未經(jīng)允許不得轉(zhuǎn)載。
        玩家要聞更多
        相關(guān)資訊更多
        熱門資訊更多
        1. 1 魔獸世界冰dk天賦加點推薦
        2. 2 NS2發(fā)布會匯總:港版售價3450港幣,馬車新作首發(fā)護航,支持4K120FPS輸出!
        3. 3 可能漲價?CDPR稱《GTA6》漲價對他們來說是有利的。
        4. 4 期待不?巴西博主曝Faker的S14冠軍皮膚選擇為永恩!
        5. 5 罵歸罵買歸買?育碧官宣《刺客信條:影》首日玩家數(shù)突破100萬人!
        6. 6 《云族裔(inZOI)》售價188元!3月20日開啟部分系統(tǒng)免費體驗!
        7. 7 大火!《雙影奇境》官宣發(fā)售僅一周,銷量已突破200萬份!
        8. 8 《天國:拯救2》新更新超過60G!一共修復(fù)超1000項BUG!
        玩玩用用更多
        精選資訊更多
        熱門專題全部>
        熱門標簽全部>