達芬奇提高視訊清晰度

編者按:是否時常“考古”一些老電影、老動漫來回憶舊日時光?你是否也有一些珍貴的錄影,帶你重溫過去的美好?然而,我們已經習慣了高清體驗,回頭再看曾經的舊影像,畫質或許“渣”的讓人不忍直視。在這個多媒體內容爆發的時代,人們對視訊內容的需求愈加強烈,視訊素材的創作、增強及再創作技術也有了大幅提升。儘管利用現有的視訊修復工具,視訊編輯者也能讓視訊變得更高清,但其前提條件是需要有超高效能配置的電腦,並付出視訊時長几倍甚至幾十倍的時間成本,即便如此,結果可能仍不盡如人意。

那麼有沒有可能在有限的算力,甚至無需聯網的情況下,在端裝置上實時、高質量地完成視訊的高清化、智慧插幀呢?微軟亞洲研究院的智慧視訊增強工具集“達芬奇”回答,“我可以!”依託於400萬高清訓練資料和大規模底層視覺預訓練方法,“達芬奇”可以實現在端上以較低的計算成本對視訊畫質進行修復。特別是對於一些實際的生產需求,大規模的底層視覺預訓練進一步提升了模型的魯棒性,使其可以應用於更具挑戰性的場景。

1998年11月,微軟亞洲研究院在北京成立。時任微軟公司 CEO 比爾·蓋茨為此特地錄製了一段視訊,讓我們先一起來看看其中的片段。

視訊連結:
   https://www.msra.cn/wp-content/uploads/2022/06/原視訊.mp4

這段視訊對於如今看慣高清視訊的我們來說,或許畫質有點太渣了。為了解決現有視訊增強和修復工具的痛點,充分發揮 AI 技術的優勢,微軟亞洲研究院多媒體搜尋與挖掘組的研究員們將深度學習、機器學習等技術經驗,與實際場景和需求結合,推出了一套智慧化視訊增強工具集——“達芬奇”(DaVinci),大大降低了使用者處理視訊素材的門檻,只需一鍵就可以讓視訊更清晰、更順滑。

現在,我們再來看看下面這個被“達芬奇”修復的版本。是不是感覺瞬間撥雲見日?

視訊連結:
   https://www.msra.cn/wp-content/uploads/2022/06/修復後視訊.mp4

“達·芬奇是文藝復興時期最傑出的藝術家之一,他將藝術創作和科學相結合,留下了許多不朽之作。因此,我們希望智慧視訊增強工具集‘達芬奇’可以將 AI 技術應用到多媒體內容處理領域,讓視訊和影象創作者們更好地揮灑他們的創意,這也是我們將該專案命名為‘達芬奇’的原因,”微軟亞洲研究院主管研究員楊歡說。

“達芬奇”三大技能,將學術概念真正落地應用

據微軟亞洲研究院主管研究員傅建龍介紹,學術界很早就開始了對影象視訊處理的研究,並在眾多方向上做了理論方法的探索,但要將這些停留在概念驗證階段的創新想法真正落地,則需要仔細篩選可行的方向。“經過仔細的研究,我們認為通用影象和視訊會議這兩大場景中的畫質增強具有很大的潛力,其背後主要由影象/視訊超解析度、視訊插幀、壓縮視訊超解析度這三大技術進行支援,有著更好的落地和應用機會,也最有可能讓人們體驗到當前 AI 技術的優勢。”最終,這三項技術被整合到了“達芬奇”工具集中,並通過開源供使用者下載使用。

依託於微軟亞洲研究院創新的基於 Transformer 的影象/視訊超解析度、視訊插幀和壓縮視訊超解析度技術,“達芬奇”工具集能夠實時幫助使用者完成不同場景下的視訊增強需求。無論是線上還是離線狀態,都能生成清晰、連貫的高質量視訊,大幅提高視訊觀感體驗。

視訊超解析度:是將視訊從低解析度幀序列提升至高解析度幀序列。對視訊來說,最直觀的感受就是讓我們看到的畫面更加高清,視訊內容中的細節更加動人,從而滿足人們對視訊清晰度日益提高的需求,也能更好地適應硬體解析度的提升。比如將 480P 的老舊視訊變成 2K/4K 的高清版本,無論是小屏還是大屏播放,畫質都毫無壓力。

   

視訊超解析度結果對比(左:傳統 Bicubic 演算法,右:“達芬奇”工具集提供的演算法)

視訊連結:
   https://www.msra.cn/wp-content/uploads/2022/06/影象視訊超解析度.mp4

視訊插幀:是在兩個邊緣幀之間合成不存在的幀。當前視訊的主流幀率是24幀/秒,也就是一秒鐘播放24幅畫面。隨著視訊處理裝置以及顯示裝置效能的提升,原來的幀率已不能滿足大眾的需求。尤其是在體育賽事或遊戲中,若能將幀率提升到60幀/秒甚至120幀/秒,那麼則可以讓畫面更絲滑,也能減少由於幀率不足而導致的眩暈。其實,這項技術可以應用於許多場景,包括慢動作視訊、幀速率轉換等。

   

視訊插幀結果對比(左:傳統幀交錯演算法,右:“達芬奇”工具集提供的演算法)

視訊連結:https://www.msra.cn/wp-content/uploads/2022/06/視訊插幀-1.mp4

壓縮視訊超解析度:是指從壓縮的低解析度視訊幀恢復到高解析度的視訊幀。為了保證視訊在網際網路上的高傳輸速率,或在有限的網路條件下儘可能傳輸流暢的視訊,網際網路或使用者裝置上的大多數視訊都是以壓縮格式儲存和傳輸的。然而,視訊壓縮會造成質量的損失,導致終端使用者觀看時視訊好像被打了馬賽克,特別是在運動較大的場景中,尤為明顯。壓縮視訊超解析度就是為了修復這種損失,使得視訊畫質更好。

   

壓縮視訊超解析度結果對比(左:傳統 Bicubic 演算法,右:“達芬奇”工具集提供的演算法)

視訊連結:https://www.msra.cn/wp-content/uploads/2022/06/壓縮視訊超解析度-1.mp4

千種裝置萬般需求,“達芬奇” 創新設計全部搞定

通常,一項技術在學術論文中所呈現的是其在理想情況下可以達到的上限成果,而當轉化為落地應用的工具時,該技術就要應對各種下限問題。比如,我們無法預估使用者會使用視訊增強工具來處理哪些型別的視訊素材,它可能是手機記錄的兒時影像、DV 拍攝的大好河山,也可能是膠片電影、MP4 中儲存的懷舊金曲 MV,又或者是朋友分享的壓縮後的 4K 電影。因此,模型需要有足夠的魯棒性才能處理不同的需求。

另外,使用者的部署環境也未可知,儘管大部分裝置可能是手機、膝上型電腦、臺式電腦等,但不同裝置的記憶體、CPU、顯示卡效能也不盡相同。同時,研究員們還要考慮計算的功耗問題,對於手機等移動裝置,電量的消耗、計算處理的時長也都需要精巧的優化和設計。此外,模型從實驗室的伺服器遷移到終端裝置上,效能也會有一定的降低。如何確保所有裝置體驗的一致性,也是“達芬奇”模型設計的一個重要挑戰。

“達芬奇”三大技能實現的背後都是以業界領先的底層視覺預訓練技術(Low-level Vision Pre-training)作為支撐,並輔以大量的資料訓練。針對模型的魯棒性,研究員們一方面利用了可收集到的400萬公開影象和視訊資料,影象、視訊內容涵蓋風景、建築、人物等等,以及不同壓縮率和解析度的眾多場景;另一方面,為確保訓練的資料量和豐富的資料型別,研究員們還基於已有的資料,人工合成了更多含有噪聲的退化資料,從而使整個模型訓練能覆蓋到更多使用者實際的應用場景。

為了應對使用者部署環境的多樣性需求,研究員們為模型做了輕量化的設計,並且對網路結構和模型儲存也做了特殊優化。例如,傳統的視訊處理方法在處理每一幀影象本身時,還要考慮整個時間序列,大大增加了計算量。而微軟亞洲研究院的研究員們認為,視訊播放就是物體在時間序列上的運動軌跡,只有在這個軌跡上的內容才對當前的畫面增強有所幫助,其它區域的內容則關聯性較低。

由此,研究員們提出了基於軌跡 Transformer 的視訊超解析度網路(TTVSR),這也是此前微軟亞洲研究院影象超解析度紋理變換 Transformer (TTSR)的擴充套件性研究成果。針對超解析度和插幀的計算,軌跡感知轉換器可以把原先時間×視訊單幀影象的空間複雜度降低到只是對時間序列的計算,進而簡化整個模型的計算複雜度。原來工業模型處理一分鐘的視訊需要十分鐘甚至一小時,現在利用“達芬奇”可以實時甚至超實時完成高清視訊處理。在壓縮視訊超解析度任務上,“達芬奇”可以更好地保留高頻視覺細節和指導高頻紋理的生成,降低視訊壓縮後偽影的影響。

楊歡和傅建龍表示,相比於圖片,視訊的內容更加豐富,除了空間維度還要考慮時間維度,對計算的需求更高,因此,對於視訊處理就需要軌跡感知 Transformer 這樣一個設計更為精巧的方法。比如針對視訊不同幀之間的連續性和相關性,如果一個人上一幀出現在這個位置,下一幀可能向左走一點,那麼我們針對這個人的增強和計算就只需要沿著他運動的軌跡進行計算即可,不需要對整個視訊進行搜尋計算。

業界指標測試均高於現有方法

通過在業界廣泛使用的峰值訊雜比(PSNR)和結構相似性(SSIM)兩個指標上進行測試,“達芬奇”工具集的表現都優於現有方法。下表展示了軌跡感知視訊超解析度 Transformer(TTVSR) 在最具挑戰性的 REDS4 資料集上的測試結果,其中 PSNR 分別比 BasicVSR 和 IconVSR 提高了0.70db和0.45db。

   

軌跡感知視訊超解析度轉換器(TTVSR)在 REDS4 資料集上的測試結果

將上述提到的基於 Transformer 的視訊超解析度相關技術應用於視訊插幀以及壓縮視訊超解析度上,依然可以得到非常不錯的結果。例如,在視訊插幀的 Vimeo-90K 資料集上,可以帶來 0.36db 的 PSNR 提升;應用於壓縮視訊超解析度的 REDS4 資料集上,在 CRF25 的壓縮率下,可以帶來驚人的 1.04db 的 PSNR 提升。

以上資料集的測試都是基於學術界中特定的退化模型開展的,但考慮到實際的使用場景,使用者上傳的視訊並非高質量的標準素材,也沒有一個對比的基準。所以,為了更接近使用者的真實需求,微軟亞洲研究院的研究員們還設計了一個“不需要標準答案的”視訊評估方法 CKDN,即業界非基於參考的質量評估,旨在為業界持續探索視訊處理方法提供更多參考依據。(論文連結:
   https://arxiv.org/abs/2108.07948)

下載工具集可執行檔案,感受清晰、絲滑的視訊

目前,微軟亞洲研究院已將“達芬奇”工具集的部分可執行檔案打包釋出,GitHub 上的專案主頁也將在近期上線,後續研究員們會在主頁上陸續釋出、更新更多的視訊增強工具。專業開發者可以利用工具集,針對自己的場景進行嘗試並與各自的業務深度整合或二次開發,而零技術基礎的普通使用者也可以通過下載、執行工具集的可執行檔案,感受“達芬奇”所帶來的清晰、絲滑的視訊。

“達芬奇”工具集下載

影象超解析度:

https://azsjae.blob.core.windows.net/davinci/release/DaVinci_ISR_General_20220622.zip

視訊超解析度:

https://azsjae.blob.core.windows.net/davinci/release/DaVinci_VSR_Small_Face_20220622.zip

相關論文連結:

  • Learning Texture Transformer Network for Image Super-Resolution
  • https://arxiv.org/abs/2006.04139
  • Learning Trajectory-Aware Transformer for Video Super-Resolution
  • https://arxiv.org/abs/2204.04216
  • Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment
  • https://arxiv.org/abs/2108.07948

更多連結:

“達芬奇”專案 GitHub 頁面(即將上線,敬請期待!):

https://github.com/microsoft/davinci

如在使用工具集時發現任何問題,請發郵件到 [email protected] 或者在即將釋出的 GitHub 頁面提交 issue 聯絡我們。