又黄又粗又爽免费观看,色吧电影网,军人武警gay男同gvus69,精品久久久久久久久中文字幕

position>home>Spotlights

全球首個類 Sora 開源復現方案來了!全面公開所有訓練細節和模型權重

全球首個開源的全球權重類 Sora 架構視頻生成模型,來了!類S練細整個訓練流程,開開包括數據處理、源復有訓所有訓練細節和模型權重,現方全部開放。案全這就是面公模型剛剛發布的 Open-Sora 1.0。

全球首個類 Sora 開源復現方案來了!全面公開所有訓練細節和模型權重

它帶來的節和實際效果如下,能生成繁華都市夜景中的全球權重車水馬龍。

還能用航拍視角,類S練細展現懸崖海岸邊,開開海水拍打著巖石的源復有訓畫面。

亦或是現方延時攝影下的浩瀚星空。

自 Sora 發布以來,案全由于效果驚艷但技術細節寥寥,面公模型揭秘、復現 Sora 成為了開發社區最熱議話題之一。比如 Colossal-AI 團隊推出成本直降 46%的 Sora 訓練推理復現流程。

短短兩周時間后,該團隊再次發布最新進展,復現類 Sora 方案,并將技術方案及詳細上手教程在 GitHub 上免費開源。

那么問題來了,復現 Sora 如何實現?

Open-Sora 開源地址:https://github.com/hpcaitech/Open-Sora

全面解讀 Sora 復現方案

Sora 復現方案包括四個方面:

  • 模型架構設計

  • 訓練復現方案

  • 數據預處理

  • 高效訓練優化策略

模型架構設計

模型采用了 Sora 同源架構 Diffusion Transformer (DiT) 。

它以采用 DiT 架構的高質量開源文生圖模型 PixArt-α 為基座,在此基礎上引入時間注意力層,將其擴展到視頻數據上。

具體來看,整個架構包括一個預訓練好的 VAE,一個文本編碼器和一個利用空間-時間注意力機制的 STDiT (Spatial Temporal Diffusion Transformer) 模型。

其中,STDiT 每層的結構如下圖所示。

它采用串行的方式在二維的空間注意力模塊上疊加一維的時間注意力模塊,用于建模時序關系。在時間注意力模塊之后,交叉注意力模塊用于對齊文本的語意。

與全注意力機制相比,這樣的結構大大降低了訓練和推理開銷。

與同樣使用空間-時間注意力機制的 Latte 模型相比,STDiT 可以更好的利用已經預訓練好的圖像 DiT 的權重,從而在視頻數據上繼續訓練。

STDiT 結構示意圖

整個模型的訓練和推理流程如下。

據了解,在訓練階段首先采用預訓練好的 Variational Autoencoder (VAE) 的編碼器將視頻數據進行壓縮,然后在壓縮之后的潛在空間中與文本嵌入 (text embedding) 一起訓練 STDiT 擴散模型。

在推理階段,從 VAE 的潛在空間中隨機采樣出一個高斯噪聲,與提示詞嵌入 (prompt embedding) 一起輸入到 STDiT 中,得到去噪之后的特征,最后輸入到 VAE 的解碼器,解碼得到視頻。

模型訓練流程

訓練復現方案

在訓練復現部分,Open-Sora 參考了 Stable Video Diffusion (SVD)。

一共分為 3 個階段:

  • 大規模圖像預訓練;

  • 大規模視頻預訓練;

  • 高質量視頻數據微調。

每個階段都會基于前一個階段的權重繼續訓練。

相比于從零開始單階段訓練,多階段訓練通過逐步擴展數據,更高效地達成高質量視頻生成的目標。

訓練方案三階段

第一階段是大規模圖像預訓練。

團隊利用互聯網上豐富的圖像數據和文生圖技術,先訓練出一個高質量的文生圖模型,將該模型作為下一階段視頻預訓練的初始化權重。

同時,由于目前沒有高質量的時空 VAE,他們采用 Stable Diffusion 預訓練好的圖像 VAE。

這樣不僅能保障初始模型的優越性能,還能顯著降低視頻預訓練的整體成本。

第二階段是大規模視頻預訓練。

這一階段主要增加模型的泛化能力,有效掌握視頻的時間序列關聯。

它需要使用大量視頻數據訓練,并且保障視頻素材的多樣性。

同時,第二階段的模型在第一階段文生圖模型的基礎上加入了時序注意力模塊,用于學習視頻中的時序關系。其余模塊與第一階段保持一致,并加載第一階段權重作為初始化,同時初始化時序注意力模塊輸出為零,以達到更高效更快速的收斂。

Colossal-AI 團隊使用了 PixArt-alpha 的開源權重作為第二階段 STDiT 模型的初始化,以及采用了 T5 模型作為文本編碼器。他們采用了 256x256 的小分辨率進行預訓練,進一步增加了收斂速度,降低訓練成本。

Open-Sora 生成效果(提示詞:水中世界的鏡頭,鏡頭中一只海龜在珊瑚礁間悠然游弋)

第三階段是高質量視頻數據微調。

據介紹,這一階段能顯著提升模型的生成質量。使用的數據規模比上一階段降低一個量級,但是視頻的時長、分辨率和質量都更高。

通過這種方式進行微調,能實現視頻生成從短到長、從低分辨率到高分辨率、從低保真度到高保真度的高效擴展。

值得一提的是,Colossal-AI 還詳細透露了每階段的資源使用情況。

在 Open-Sora 的復現流程中,他們使用了 64 塊 H800進行訓練。第二階段的訓練量一共是 2808 GPU hours,約合 7000 美元,第三階段的訓練量是 1920 GPU hours,大約 4500 美元。經過初步估算,整個訓練方案成功把 Open-Sora 復現流程控制在了 1 萬美元左右。

數據預處理

為了進一步降低 Sora 復現的門檻和復雜度,Colossal-AI 團隊在代碼倉庫中還提供了便捷的視頻數據預處理腳本,讓大家可以輕松啟動 Sora 復現預訓練。

包括公開視頻數據集下載、長視頻根據鏡頭連續性分割為短視頻片段、使用開源大語言模型 LLaVA 生成精細的提示詞。

他們提供的批量視頻標題生成代碼可以用兩卡 3 秒標注一個視頻,并且質量接近于 GPT-4V。

最終得到的視頻 / 文本對可直接用于訓練。借助他們在 GitHub 上提供的開源代碼,可以輕松地在自己的數據集上快速生成訓練所需的視頻 / 文本對,顯著降低了啟動 Sora 復現項目的技術門檻和前期準備。

高效訓練加持

除此之外,Colossal-AI 團隊還提供了訓練加速方案。

通過算子優化和混合并行等高效訓練策略,在處理 64 幀、512x512 分辨率視頻的訓練中,實現了 1.55 倍的加速效果。

同時,得益于 Colossal-AI 的異構內存管理系統,在單臺服務器上(8H800)可以無阻礙地進行 1 分鐘的 1080p 高清視頻訓練任務。

而且團隊還發現 STDiT 模型架構在訓練時也展現出卓越的高效性。

和采用全注意力機制的 DiT 相比,隨著幀數的增加,STDiT 實現了高達 5 倍的加速效果,這在處理長視頻序列等現實任務中尤為關鍵。

最后,團隊還放出了更多 Open-Sora 的生成效果。

團隊和量子位透露,他們將長期更新優化 Open-Sora 的相關解決方案和動態。未來將使用更多視頻訓練數據,以生成更高質量、更長時長的視頻內容,并支持多分辨率特性。

實際應用方面,團隊透露將推進在電影、游戲、廣告等領域落地。

感興趣的開發者們,可訪問 GitHub 項目了解更多~

Open-Sora 開源地址:https://github.com/hpcaitech/Open-Sora


參考鏈接:

  • [1]https://arxiv.org/abs/2212.09748 Scalable Diffusion Models with Transformers

  • [2]https://arxiv.org/abs/2310.00426 PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

  • [3]https://arxiv.org/abs/2311.15127 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

  • [4]https://arxiv.org/abs/2401.03048 Latte: Latent Diffusion Transformer for Video Generation

  • [5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original

  • [6]https://github.com/google-research/text-to-text-transfer-transformer

  • [7]https://github.com/haotian-liu/LLaVA

  • [8]https://hpc-ai.com/blog/open-sora-v1.0

本文來自微信公眾號:量子位 (ID:QbitAI),作者:明敏

Popular articles

主站蜘蛛池模板: 女的张开腿让男人桶爽30分钟| 中文字幕第9页萱萱影音先锋| 国产成人精品一区二区三在线观看| 87福利电影| 亚洲黄色三级网站| 亚洲精品永久www忘忧草| 小婷又紧又深又滑又湿好爽| 国产真乱全集mangent| 日韩视频精品在线| 两根手指就抖成这样了朝俞| 亚洲一本高清| 果冻传媒国产仙踪林欢迎你| 欧美性大战久久久久久久| 一级毛片无毒不卡直接观看| 国产国产精品人在线观看| 五月婷婷深深爱| 欧美一级免费观看| а√天堂中文在线官网| 无翼日本全彩漫画大全全彩| 国产小视频免费在线观看| 污网站在线观看| 欧美国产日韩久久mv| 啊!摁摁~啊!用力~快点视频免费| 印度精品性hd高清| 中韩日产字幕2021| 一本一道dvd在线观看免费视频| 欧美一区二区三区视频在线观看| 国产**aa全黄毛片| 鸥美一级黄色片| www.天天操.com| 亚洲视频不卡| 免费看美女隐私全部| 婷婷免费高清视频在线观看| 免费看美女吃男生私人部位| 久久综合狠狠色综合伊人| 国产不卡在线视频| 国产中文字幕电影| 十七岁高清在线观看| 美女大量吞精在线观看456| 全日本爽视频在线| 一区二区三区午夜|