視訊時蓬頭垢面也能靠AI掩蓋!NVIDIA發表Maxine平台新進度,要解決哪些痛點?

NVIDIA在先前推出的雲端AI視訊串流平台Maxine有了最新進度,將如何為視訊會議帶來新應用?

在疫情期間,許多企業透過視訊會議交流工作已漸成人們常態,思科、微軟等企業也都在發展AI輔助的視訊會議功能。GPU可說是NVIDIA橫掃市場的強大武器,對此黃仁勳也曾表示過:可從兩種角度來解釋,一個是視覺方面,另一個是AI應用領域。

首先回顧一下去年末的GTC大會上,NVIDIA宣布推出雲端AI視訊串流平台Maxine誕生,基於GPU和生成對抗網路的技術,能從多方面改善傳統的視訊體驗。

Maxine平台的誕生,主要用於和Google Cloud、AWS、微軟合作,能夠讓使用者不須擁有強大效能的電腦,就能達到解析度提升、消除背景噪音和糾正偏誤的角度等等。甚至,還能夠結合另一款Jarvis SDK的對話式AI,整合模型進行語音辨識,就能產生對話紀錄、即時字幕翻譯等功能。


 

 

NVIDIA在去年GTC大會上,推出使用雲端GPU加持的人工智慧視訊會議平台Maxine。圖片來源:NVIDIA


 

 

Maxine平台新模型誕生,將發展成開發套件

在居家辦公的每一天,視訊會議頻頻上演,也許NVIDIA推出的最新視訊會議技術,可以讓視訊體驗更舒適,在家辦公睡過頭、來不及打扮也不怕!

將視覺和AI應用合二為一,NVIDIA又端出什麼新應用?在本週的國際電腦視覺與模式識別會議上(CVPR)上,NVIDIA研究團隊發表了最新研究論文,宣布推出Maxine平台最新的Vid2Vid Cameo的深度學習模型,同樣採用生成對抗網絡(GAN)的技術,能將一個人的2D照片合成至談話影像中。據悉,這個模型未來也將開發成開發套件,供開發商使用。


 

從NVIDIA提交的論文來看,可看出從原始影像到不同角度影像的轉換過程。圖片來源:NVIDIA


 

延伸閱讀:生態圈再擴大!NVIDIA宣布啟動AI LaunchPad計畫,要幫企業簡化AI開發工作

NVIDIA研究團隊指出,透過這項功能,只需在視訊會議前提交參考影像,無論是真實照片或是卡通形象;再透過AI模型捕捉,就可將人的即時動作、表情應用到靜止的影像,同時也能即時匹配主體的轉向角度,讓與會者看起來直接面對鏡頭。這樣一來,只要上傳身著正裝的照片,即使頭髮凌亂、身著睡衣,也能得體地出現在視訊會議中。

NVIDIA指出,該模型在大規模人工智慧架構的DGX系統上開發,研究團隊採用了多達180,000個高品質的談話影像數據進行訓練,讓模型學會識別關鍵點(像是眼睛、嘴巴、鼻子等位置)後並擷取,通話者的圖片可以事先發送給其他參與視訊會議的人,或從過往的會議中重複使用。如此一來,視訊會議平台只需發送說話者臉部關鍵點的動作資料,而不用在每一個與會者之間發送龐大的即時視訊串流內容。

研究團隊解釋道,透過壓縮和傳輸頭部位置的關鍵點,而不是完整的影像畫面,可以為頻寬縮小10倍,就可以擁有流暢的視訊體驗。且對接收者來說,GAN模型在接收端使用這些資訊來合成一個模仿參考圖片外觀的視訊內容;也能夠自由調整頭部的談話視角,更能應用在處理靜止影像的編輯工作中。


 

網絡頻寬太小也不怕,AI技術能夠自動判斷參考影像、生成模型並生成清晰的影像。圖片來源:NVIDIA


 

 

團隊在線上說明會指出,這項深度學習模型的底層技術,還可用於協助動畫師、影像編輯和遊戲開發者的工作。在說明會中,也實際展示了Vid2Vid Cameo的功能,從官方提供的影片來看,不僅能夠讓人「衣冠端正」,還能為與會者重新定向面部角度、產生動畫替身和壓縮數據產生更好影像,這些都為視訊會議帶來了新意。

據悉,Maxine平台目前已可運用影像降噪、畫質提升等功能;而今日推出的Vid2Vid Cameo功能,目前也已可在NVIDIA AI Playground上測試使用,其開發套件也將在不久後推出,讓開發人員可以運用優化後的訓練模型,為視訊、直播串流強化效果。

主文來源:數位時代

ECDA資料中心編輯