1.Sora 與 Runway Gen2、Pika 等能力差異對比

能力項	OpenAl Sora	其它模型
視頻時長	60 秒	最多十幾秒
視頻長寬比	1920x1080 與 1080x1920 之間任意尺寸	固定尺寸, 如 16:9,9:16,1:1 等
視頻清晰度	1080P	upscale 之后達到 4K
文本生成視頻	支持	支持
圖片生成視頻	支持	支持
視頻生成視頻	支持	支持
多個視頻鏈接	支持	不支持
文本編輯視頻	支持	支持
擴展視頻	向前 / 向后擴展	僅支持向后擴展
視頻連接	支持	不支持
真實世界模擬	支持	支持
運動相機模擬	強	弱
依賴關系進行建模	強	弱
影響世界狀態 (世界交互)	強	弱
人工過程 (數字世界) 模擬	支持	不支持

視頻清晰度，OpenAI Sora 默認是 1080P，而且其它平臺大多數默認的清晰度也都是 1080P 以下，只是在經過 upscale 等操作之后可以達到更清晰的水平。
Sora 開箱即用生成60s 的時長視頻，其中視頻連接、數字世界模擬、影響世界狀態（世界交互）、運動相機模擬等都是此前視頻平臺或者工具中不具備的。
OpenAI Sora 模型還可以直接生成圖片，它是一個以視頻生成為核心的多能力模型。

2. Sora技術突破點

sora 是一個以 latent、transformer、diffusion 為三個關鍵點的模型。

官網案例展示

世界模型和物理引擎是虛擬現實（VR）和計算機圖形學中的兩個關鍵概念。世界模型是描述虛擬環境的框架，包括場景、對象、光照等元素，用于呈現虛擬世界的外觀和感覺。物理引擎則是用于模擬和計算物體之間的物理運動和互動，如重力、碰撞、摩擦等。簡而言之，世界模型是虛擬環境的靜態描述，而物理引擎則負責模擬虛擬環境中物體的動態行為。它們共同作用于虛擬現實技術中，為用戶提供沉浸式的體驗。
世界模型要求更高，這包括對復雜場景和物理效果的處理能力、提高在新環境中的泛化能力、以及更好地利用先驗知識進行實時推理、預測和決策等。雖然 Sora 已經能夠生成較為準確的視頻內容，但當場景中涉及到多個物體的交互或復雜的物理運動時，Sora 可能會出現失誤或偏差。其次 Sora 目前主要依賴于大量的訓練數據來學習視頻的生成規律，但這種方式可能限制了其在新環境中的泛化能力和實時決策能力。這也是目前 Sora 并非一個世界模型的原因

模擬器實例化了兩種精美的 3D 資產：具有不同裝飾的海盜船。 Sora 必須在其潛在空間中隱式地解決文本到 3D 的問題。
3D 對象在航行并避開彼此路徑時始終保持動畫效果。
咖啡的流體動力學，甚至是船舶周圍形成的泡沫。流體模擬是計算機圖形學的一個完整子領域，傳統上需要非常復雜的算法和方程。
照片寫實主義，幾乎就像光線追蹤渲染一樣。
模擬器考慮到杯子與海洋相比尺寸較小，并應用移軸攝影來營造 “微小” 的氛圍。
場景的語義在現實世界中并不存在，但引擎仍然實現了我們期望的正確物理規則。
提示詞：“兩艘海盜船在一杯咖啡內航行時互相戰斗的逼真特寫視頻。”
提示詞：一位時尚的女人走在東京的街道上，街道上到處都是溫暖的發光霓虹燈和動畫城市標志。她身穿黑色皮夾克，紅色長裙，黑色靴子，背著一個黑色錢包。她戴著墨鏡，涂著紅色口紅。她自信而隨意地走路。街道潮濕而反光，營造出五顏六色的燈光的鏡面效果。許多行人四處走動

視頻鏈接：https://live.csdn.net/v/364231
自主創建多個視角的視頻

從 Sora 模型的技術報告中，我們可以看到 Sora 模型的實現，是建立在 OpenAI 一系列堅實的歷史技術工作的沉淀基礎上的包括不限于視覺理解（Clip），Transformers 模型和大模型的涌現（ChatGPT），Video Caption（DALL·E 3）

2.1 核心點1：視頻壓縮網絡

patches 是從大語言模型中獲得的靈感，大語言模型范式的成功部分得益于使用優雅統一各種文本模態（代碼、數學和各種自然語言）的 token。大語言模型擁有文本 token，而 Sora 擁有視覺分塊（patches）。OpenAI 在之前的 Clip 等工作中，充分實踐了分塊是視覺數據模型的一種有效表示（參考論文：An image is worth 16x16 words: Transformers for image recognition at scale.）這一技術路線。而視頻壓縮網絡的工作就是將高維度的視頻數據轉換為 patches，首先將視頻壓縮到一個低緯的 latent space，然后分解為 spacetime patches。

難點：視頻壓縮網絡類比于 latent diffusion model 中的 VAE，但是壓縮率是多少，如何保證視頻特征被更好地保留，還需要進一步的研究。

2.2 核心點2：長視頻的 scaling transformer

給定輸入的噪聲塊 + 文本 prompt，它被訓練來預測原始的 “干凈” 分塊。重要的是，Sora 是一個 Scaling Transformers。Transformers 在大語言模型上展示了顯著的擴展性，

難點：能夠 scaling up 的 transformer 如何訓練出來，對第一步的 patches 進行有效訓練，可能包括的難點有 long context（長達 1 分鐘的視頻）的支持、期間 error accumulation 如何保證比較低，視頻中實體的高質量和一致性，video condition，image condition，text condition 的多模態支持等。

2.3 核心點3：Video recaption

視頻摘要 / 視頻字母生成屬于多模態學習下的一個子任務，大體目標就是根據視頻內容給出一句或多句文字描述。所生成的 caption 可用于后續的視頻檢索等等，也可以直接幫助智能體或者有視覺障礙的人理解現實情況。通過這樣的高質量的訓練數據，保障了文本（prompt）和視頻數據之間高度的 align。Sora 還使用 DALL·E 3 的 recaption技巧，即為視覺訓練數據生成高度描述性的 caption，這讓 Sora 能夠更忠實地遵循生成視頻中用戶的文本指令，而且會支持長文本，這個應該是 OpenAI 獨有的優勢。在生成階段，Sora 會基于 OpenAI 的 GPT 模型對于用戶的 prompt 進行改寫，生成高質量且具備很好描述性的高質量 prompt，再送到視頻生成模型完成生成工作。caption 訓練數據都匱乏：

一方面，圖像常規的文本描述往往過于簡單（比如 COCO 數據集），它們大部分只描述圖像中的主體而忽略圖像中其它的很多信息，比如背景，物體的位置和數量，圖像中的文字等。
另外一方面，目前訓練文生圖的圖像文本對數據集（比如 LAION 數據集）都是從網頁上爬取的，圖像的文本描述其實就是 alt-text，但是這種文本描述很多是一些不太相關的東西，比如廣告。

技術突破：訓練一個 image captioner 來合成圖像的 caption，合成 caption 與原始 caption 的混合比例高達 95%：5%；但是不過采用 95% 的合成長 caption 來訓練，得到的模型也會 “過擬合” 到長 caption 上，如果采用常規的短 caption 來生成圖像，效果可能就會變差。為了解決這個問題，OpenAI 采用 GPT-4 來 “upsample” 用戶的 caption，下面展示了如何用 GPT-4 來進行這個優化，不論用戶輸入什么樣的 caption，經過 GPT-4 優化后就得到了長 caption：

難點：這項技術并不新，難的是積累，即便是合成數據也需要大量的專業標注和評測?！按蟆?模型，“高” 算力，“海量” 數據

更多內容見：探索AI視頻生成新紀元：文生視頻Sora VS RunwayML、Pika及StableVideo——誰將引領未來：https://blog.csdn.net/sinat_39620217/article/details/136171409

3.sora存在不足

物理交互邏輯錯誤：Sora 有時會創造出物理上不合理的動作； Sora 模型在模擬基本物理交互，如玻璃破碎等方面，不夠精確。這可能是因為模型在訓練數據中缺乏足夠的這類物理事件的示例，或者模型無法充分學習和理解這些復雜物理過程的底層原理
對象狀態變化的不正確：在模擬如吃食物這類涉及對象狀態顯著變化的交互時，Sora 可能無法始終正確反映出變化。這表明模型可能在理解和預測對象狀態變化的動態過程方面存在局限。
復雜場景精確性丟失：模擬多個對象和多個角色之間的復雜互動會出現超現實結果；長時視頻樣本的不連貫性：在生成長時間的視頻樣本時，Sora 可能會產生不連貫的情節或細節，這可能是由于模型難以在長時間跨度內保持上下文的一致性；對象的突然出現：視頻中可能會出現對象的無緣無故出現，這表明模型在空間和時間連續性的理解上還有待提高

4.文生視頻prompt優化

視頻	官方提示詞	優化
	逼真的特寫視頻，展示兩艘海盜在一杯咖啡內航行時互相爭斗的情況。	`Context`：一杯啡內的微型世界。 `Persona`: 兩艘海盜船。 `Goal`: 展示海盜船在咖桿內的逼真爭斗場景。 `Constraints`：視頻應突出海盜船的細節和動態，以及咖啡的紋理作為背景。 `Steps`:設定場景為充滿咖啡的杯子，咖啡表面作為海洋。描述海盜船：兩艘細致的海盜船在咖啡 “海洋” 中航行和爭斗。強調特寫頭：使用特寫鏡頭視角捕捉海盜船的動態和咖啡的紋理。展現爭斗細爺：海盜船回的交火，船上海盜的動作。 `Examples`: 相似效果鏈接 `Template`：cssCopy Code [場景描述] 在一桿充滿就的杯子中，咖啡表面波動著仿佛一個微型的海洋。 [人物描述] 兩艘裝備精良的海盜船在這杯咖啡的海洋中航行，互相展開烈的爭斗。 [目標] 透過逼真的特寫鏡頭展現海盜船在咖啡杯子內互相爭斗的壯場景。 [約束條件] 注意捕浞海盜的細節和動態，以及咖啡作為背景的紋理和波動
	一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克紅色長裙和黑色子，拎黑色錢包。她戴著太陽墨鏡涂著紅色囗紅。她走路自信又隨意。街道潮濕且反光，在影色燈光的照射下形成鏡面效果。許多行人走來走去。	`Context`: 一條充滿活力的東京街道在夜晚燈火通明，霓虹燈和動畫廣告牌交織成一道道流光溢彩的光帶。細雨過后的街道濕潤且反光，在多彩的燈光照射下形成迷人的鏡面效果。許多行人在這燈光閃爍的夜色中來往匆匆。 `Persona`: 一位時尚女性身著黑色皮夾克，搭配鮮艷的紅色長裙和黑色靴子，手拎一只黑色錢包。她戴著太陽鏡，嘴唇涂抹著紅色口紅，走路自信又灑脫。 `Goal`: 展示這位時尚女性在霓虹燈光點綴的東京夜晚中自信與風采。 `Constraints`: 視覺應該突出夜晚的霓虹燈光效果，反映出潮濕街道的反光效果，以及人物的時尚裝扮，強調人物的自信步伐和隨性的走路風格。- `Steps`:： 1.設定場景為東京的一個夜晚街道，由霓虹燈照明。 2.描述人物：一位穿著黑色皮夾克、紅色長裙和黑色靴子的時尚女性，手拿黑色錢包，戴著太陽鏡并涂有紅色口紅。 3.強調人物的自信步伐和隨性的走路風格。 4.描述環境：潮濕的街道在燈光下反射，周圍有行人。示例: 提供一段描述或者圖片，展示類似場景的效果。 `Template`：cssCopy Code： [場景描述] 在一個充滿活力的街道上，霓虹燈的彩光波動著，仿佛一個微型的夜晚海洋。 [人物描述] 一位時尚女性在這條街道上自信地行走，她的黑夾克和紅裙在燈光下顯得格外搶眼。 [目標] 通過鮮明的場景描述，展現時尚女性在霓虹燈光下的自信與風采。 [約束條件] 注重捕捉人物裝扮的細節和動態，以及潮濕街道作為背景的紋理和反光。

5.Sora的出現以及AI的出現會對程序員產生什么影響呢

積極影響：

提高編程效率：AI工具可以自動化一些繁瑣的編程任務，如代碼檢查、代碼重構等，從而減少了程序員的工作量，提高了編程效率。同時，Sora文生視頻也為程序員提供了更加高效和智能的視頻開發工具，可以加快開發速度。
改善代碼質量：AI工具可以幫助程序員發現代碼中的缺陷和潛在問題，提高代碼的質量和可靠性。這對于保證軟件質量和用戶體驗至關重要。
促進編程教育：AI工具和Sora文生視頻可以為編程初學者提供更加友好的編程環境和工具，使得編程教育更加容易上手和有趣，從而吸引更多的人加入編程領域。
提供更多創新機會：AI工具可以為程序員提供更多的靈感和創意，幫助他們創造出更加優秀的程序。同時，Sora文生視頻也為程序員提供了更多的應用場景和市場需求，從而激發他們的創新熱情。

負面影響：

職業競爭壓力增加：隨著AI技術的發展，一些簡單的編程任務可能會被自動化工具所取代，這就要求程序員需要不斷學習和掌握新的技能，以適應技術變革的需要。這可能會導致職業競爭壓力增加，一些技能不足的程序員可能會面臨失業的風險。
道德和倫理挑戰：AI工具的發展和應用也帶來了一些道德和倫理問題，如數據隱私、算法公平性等。程序員需要關注這些問題，并在開發過程中遵守相關的法律法規和道德規范。

6.Sora 技術原理全解析&小結

OpenAI 的研究論文《Video generation models as world simulators》探討了在視頻數據上進行大規模訓練生成模型的方法。這項研究特別關注于文本條件擴散模型，這些模型同時在視頻和圖像上進行訓練，處理不同時長、分辨率和寬高比的數據。研究中提到的最大模型 Sora 能夠生成長達一分鐘的高保真視頻。以下是論文的一些關鍵點：

統一的視覺數據表示：研究者們將所有類型的視覺數據轉換為統一的表示，以便進行大規模的生成模型訓練。Sora 使用視覺補丁（patches）作為其表示方式，類似于大型語言模型（LLM）中的文本標記。
視頻壓縮網絡：研究者們訓練了一個網絡，將原始視頻壓縮到一個低維潛在空間，并將其表示分解為時空補丁。Sora 在這個壓縮的潛在空間中進行訓練，并生成視頻。
擴散模型：Sora 是一個擴散模型，它通過預測原始“干凈”的補丁來從輸入的噪聲補丁中生成視頻。擴散模型在語言建模、計算機視覺和圖像生成等領域已經顯示出了顯著的擴展性。
視頻生成的可擴展性：Sora 能夠生成不同分辨率、時長和寬高比的視頻，包括全高清視頻。這種靈活性使得 Sora 能夠直接為不同設備生成內容，或者在生成全分辨率視頻之前快速原型化內容。
語言理解：為了訓練文本到視頻生成系統，需要大量的視頻和相應的文本標題。研究者們應用了在 DALL·E 3 中引入的重新描述技術，首先訓練一個高度描述性的標題生成器，然后為訓練集中的所有視頻生成文本標題。
圖像和視頻編輯：Sora 不僅能夠基于文本提示生成視頻，還可以基于現有圖像或視頻進行提示。這使得 Sora 能夠執行廣泛的圖像和視頻編輯任務，如創建完美循環的視頻、動畫靜態圖像、向前或向后擴展視頻等。
模擬能力：當視頻模型在大規模訓練時，它們展現出了一些有趣的新興能力，使得 Sora 能夠模擬物理世界中的某些方面，如動態相機運動、長期一致性和對象持久性等。

盡管 Sora 展示了作為模擬器的潛力，但它仍然存在許多局限性，例如在模擬基本物理交互（如玻璃破碎）時的準確性不足。研究者們認為，繼續擴展視頻模型是開發物理和數字世界模擬器的有前途的道路。
這篇論文提供了對 Sora 模型的深入分析，展示了其在視頻生成領域的潛力和挑戰。通過這種方式，OpenAI 正在探索如何利用 AI 來更好地理解和模擬我們周圍的世界。

本文作者：汀、人工智能，轉自https://www.cnblogs.com/ting1/p/18023416

該文章在 2024/2/24 15:26:10 編輯過

關鍵字查詢

視頻

正在查詢...