在熱烈的Sora討論背后,我們應(yīng)該怎樣理性認(rèn)知,冷思考是什么?《通信產(chǎn)業(yè)報》全媒體記者特別遴選了業(yè)界最關(guān)注的十個問題,通過專家的采訪,和你一起理解Sora以及由此應(yīng)該認(rèn)知的機會。
01 Sora本質(zhì)是什么?
作為OpenAI公司開發(fā)的一款文生視頻模型,Sora能夠?qū)⒂脩糨斎氲奈谋久枋鲛D(zhuǎn)化為相應(yīng)的視頻內(nèi)容,不僅可以生成長達(dá)一分鐘的視頻,且能完全遵照用戶的Prompt并保持視覺質(zhì)量。自然語言處理、高清視頻生成、遵循指令三大能力是其核心優(yōu)勢。作為文生視頻模型,在模型方面,Sora模型基于擴散型變換器(diffusion transformer)架構(gòu),這是一種深度學(xué)習(xí)模型,能夠?qū)㈦S機噪聲逐漸轉(zhuǎn)化為有意義的圖像或視頻內(nèi)容。Sora通過訓(xùn)練,學(xué)會了理解和處理文本提示,將用戶的描述轉(zhuǎn)化為視頻內(nèi)容,它不僅能夠生成具有連貫性的場景和運動的鏡頭,還能夠模擬復(fù)雜的場景和角色表情,為視頻增添更多細(xì)節(jié)和想象力。
02 Sora的技術(shù)核心是什么?
Sora這一技術(shù)的核心在于結(jié)合了自然語言處理技術(shù)和視頻生成技術(shù),其采用了先進(jìn)的深度學(xué)習(xí)算法和大規(guī)模視頻數(shù)據(jù)集進(jìn)行訓(xùn)練,使得模型能夠?qū)W習(xí)到視頻生成所需的各種特征和規(guī)律,Sora模型通過深度學(xué)習(xí)和語義分析來理解并解析輸入的文本描述,捕捉其中的關(guān)鍵信息和意圖。然后,基于這些信息,模型能夠自動生成符合描述要求的視頻內(nèi)容,在這之中,Sora模型因其具備強大的語義理解能力,能夠準(zhǔn)確捕捉用戶輸入文本中的細(xì)節(jié)和要點,從而生成更加精準(zhǔn)、生動的視頻內(nèi)容,來滿足不同領(lǐng)域、不同需求的創(chuàng)作者。
03 Sora的首批真實場景是什么?
目前,Sora模型的發(fā)布為以影視制作、廣告創(chuàng)意、教育培訓(xùn)、社交媒體為代表的視頻創(chuàng)作領(lǐng)域帶來了無限的可能性和機遇。其中,在廣告領(lǐng)域,廣告商可以利用Sora快速生成符合品牌調(diào)性的宣傳視頻;在媒體行業(yè),新聞機構(gòu)可以利用Sora制作生動形象的新聞報道;在教育領(lǐng)域,教育機構(gòu)可以借助Sora制作有趣的教學(xué)視頻,提升學(xué)生的學(xué)習(xí)興趣和效果。此外,Sora還可以應(yīng)用于游戲、娛樂等多個領(lǐng)域。也正因此,Sora的發(fā)布對全球AI行業(yè)產(chǎn)生深遠(yuǎn)的影響,它將極大地降低視頻制作的門檻和成本,使得更多的人和企業(yè)能夠利用視頻進(jìn)行表達(dá)和傳播,為更多行業(yè)帶來全新的商業(yè)模式和服務(wù)形態(tài)。
04 Sora的版權(quán)和安全隱私問題怎么辦?
事實上,Sora等文本到視頻的人工智能項目在創(chuàng)作過程中涉及大量內(nèi)容,自然引發(fā)版權(quán)問題。一方面,Sora在訓(xùn)練過程中可能使用了受版權(quán)保護(hù)的內(nèi)容,這引發(fā)了關(guān)于如何合法使用這些內(nèi)容的問題。另一方面,由于Sora能夠生成高度逼真的視頻內(nèi)容,如果不加以限制和監(jiān)管,可能會被濫用于制作虛假信息或侵犯他人隱私。在安全隱私上,由于Sora文生視頻模型需要大量的數(shù)據(jù)作為訓(xùn)練樣本,這些數(shù)據(jù)可能包含用戶的隱私信息,如果這些數(shù)據(jù)被不當(dāng)使用或泄露,就可能對用戶的隱私造成威脅。
05 Sora將如何影響通信行業(yè)?
作為一款文生視頻模型,隨著Sora等類似應(yīng)用的普及,視頻流量將大幅增加,對固定及移動通信網(wǎng)絡(luò)的帶寬需求也將隨之不斷提升,同時,Sora等大型AI模型需要強大的計算能力和高效的數(shù)據(jù)中心網(wǎng)絡(luò)來支持其運行,這意味著數(shù)據(jù)中心需要更高的帶寬和更低的延遲來確保模型的訓(xùn)練和推理效率,最后則是為了減少數(shù)據(jù)傳輸延遲和提高用戶體驗,越來越多的計算任務(wù)將在網(wǎng)絡(luò)邊緣完成,這也將加速通信業(yè)對于邊緣計算的建設(shè)。
06 Sora背后團隊與應(yīng)用限制如何?
Sora炸場,其背后技術(shù)團隊也正在持續(xù)引爆關(guān)注。出乎意料的是,這支團隊很年輕,兩位負(fù)責(zé)人都是在2023年剛剛博士畢業(yè),團隊里甚至有00后選手,還專門招了藝術(shù)生,頂級人才持續(xù)星聚,驚得眾人開始重新考量OpenAI的技術(shù)領(lǐng)先性。然而,盡管Sora的技術(shù)能力非常強大,但它目前還無法完全替代復(fù)雜的影視制作,例如,對于敘事復(fù)雜、多視角的《三體》這樣的作品,Sora尚不能實現(xiàn)從概念到成品的完整制作。此外,就目前的展示內(nèi)容來看,并不意味著它已經(jīng)“讀懂”了物理規(guī)律,Sora對真實世界的模擬還有很多提升空間。
07 Sora模型對算力需求有多大?
OpenAI發(fā)布的全新AI生成視頻模型Sora,一方面,采用擴散模型+Transformer架構(gòu),需要通過超大量數(shù)據(jù)集來擴大模型規(guī)模并提高模型表現(xiàn),對訓(xùn)練和推理端算力的需求提升非常明顯;另一方面,視頻模型的訓(xùn)練和推理需求預(yù)計比文本、圖像又增加了一個維度,從而有望帶來AI芯片持續(xù)增長的需求。此外,多模態(tài)大模型應(yīng)用后,視頻內(nèi)容的傳輸預(yù)計帶來網(wǎng)絡(luò)帶寬的升級。Sora模型從文本、圖像邁入視頻大模型,使用了大規(guī)模訓(xùn)練和超大數(shù)據(jù)集,是通向通用AI的里程碑,AI服務(wù)器、GPU等算力設(shè)備的需求預(yù)期被再次抬升到新的高度。據(jù)推測,整個Sora模型可能有30億個參數(shù),為此,OpenAI啟動了“造芯”計劃,以應(yīng)對其龐大的計算需求。
08 Sora的“最佳試煉場”或?qū)⒃谠钪妫?/span>
Sora橫空出世,特別適合制作那些在現(xiàn)實中難以拍攝、對想象力要求特別高的內(nèi)容,之前拍攝特效視頻需要用到特殊技巧,現(xiàn)在只需要輸入一段充滿想象力的文字即可生成,Sora的最大貢獻(xiàn)是作為革命性平臺,極大降低了視頻輸出成本,這被一度看作是元宇宙發(fā)展的核心桎梏。隨著時間的推移,Sora會推動AI生成視頻快速規(guī)?;?span>AI生成視頻、AI生成虛擬世界前景非常樂觀,AI數(shù)字人、AI視頻是元宇宙的重要支撐基礎(chǔ),大模型和元宇宙的結(jié)合,將推動元宇宙走近用戶。
09 Sora有望成為“世界模型”?
OpenAI深夜放大招,Sora展現(xiàn)出的視頻生成能力讓網(wǎng)友驚呼“逆天”,“世界模型”“世界模擬器”成為Sora的重要標(biāo)簽。以前的AI視頻,都單鏡頭生成的,Sora能在同一視頻中設(shè)計出多個鏡頭,同時保持角色和視覺風(fēng)格的一致性,這種級別的多鏡頭一致性,是Gen 2和Pika都完全無法企及的,Sora在訓(xùn)練過程中表現(xiàn)出了與其他模型不同的涌現(xiàn)能力,不得不說是個奇跡。另外,從投資角度來看,Sora背后的涌現(xiàn)能力為自動駕駛、設(shè)計等需要現(xiàn)實世界建模的行業(yè)也提供了明確方向。從技術(shù)角度出發(fā),Sora帶給業(yè)界最大的啟發(fā)是DIT模型,即以Transformer為主干的擴散模型,盡管它們已經(jīng)是非常成熟的技術(shù),但之前很少有人將兩者放在一起??梢哉f,Sora的效果已經(jīng)完全跳出了用冷兵器短兵相接的時代,已經(jīng)有了世界模型的雛形。
10 一批創(chuàng)新公司要“消失了”?
OpenAI的Sora文生視頻模型自發(fā)布以來,引起了廣泛關(guān)注和討論。Sora模型能夠根據(jù)文本描述生成長達(dá)60秒的視頻,這一技術(shù)突破不僅展示了AI在視頻內(nèi)容創(chuàng)作領(lǐng)域的潛力,也預(yù)示著未來視頻制作和消費方式的重大變革,Sora模型的推出,可能會加劇視頻生成領(lǐng)域的競爭,無疑將對內(nèi)容創(chuàng)作、媒體制作、娛樂產(chǎn)業(yè)等多個領(lǐng)域產(chǎn)生深遠(yuǎn)影響。值得關(guān)注的是,Sora是一個偉大的工程進(jìn)步,距離商業(yè)化還有一段路要走,除了確保在關(guān)鍵領(lǐng)域占領(lǐng)導(dǎo)地位、突破技術(shù)、建立平臺外,也會做垂類應(yīng)用,創(chuàng)新公司仍有很大發(fā)展空間。此外,從OpenAI的論文不難看出,Sora幫助很多創(chuàng)業(yè)公司節(jié)約了數(shù)以千萬計的探索成本,但同時也給創(chuàng)業(yè)者提供了很大的想象空間。
資訊來源:通信產(chǎn)業(yè)網(wǎng)公眾號
作者:黨博文 胡媛、視頻:莉君、編輯:曉燕、指導(dǎo):辛文