機(jī)器之心報(bào)道
編輯:陳萍、維度
視頻畫面的穩(wěn)定與否,很大程度上影響著觀感的舒適度!如何補(bǔ)償視頻抖動(dòng),拯救手抖黨,來(lái)自臺(tái)灣大學(xué)、谷歌等研究機(jī)構(gòu)的學(xué)者,提出了防抖新算法,視頻拍攝——穩(wěn)。
你拿著手機(jī)拍視頻時(shí),最大的困擾是什么?
抖……
視頻抖動(dòng)似乎成為亟需解決的一大問(wèn)題。
近日的一項(xiàng)研究可以很好地解決視頻抖動(dòng)問(wèn)題。它的效果是這樣的:
從畫面看,右邊的視頻抖動(dòng)明顯減少,即使是疾走拍攝,看起來(lái)也不那么晃眼。
人潮洶涌的公共場(chǎng)所拍攝視頻進(jìn)行對(duì)比,右邊的動(dòng)圖明顯穩(wěn)定了很多。
引言
隨著 YouTube、Vimeo 和 Instagram 等網(wǎng)絡(luò)平臺(tái)上視頻內(nèi)容的快速增長(zhǎng),視頻的穩(wěn)定變得越來(lái)越重要。沒(méi)有專業(yè)視頻穩(wěn)定器捕獲的手機(jī)視頻通常不穩(wěn)定且觀看效果不佳, 這對(duì)視頻穩(wěn)定算法提出了重大挑戰(zhàn)?,F(xiàn)有的視頻穩(wěn)定方法要么需要主動(dòng)裁剪幀邊界,要么會(huì)在穩(wěn)定的幀上產(chǎn)生失真?zhèn)蜗瘛?/p>
所以,如何解決視頻抖動(dòng),產(chǎn)生穩(wěn)定的視頻拍攝效果呢?來(lái)自臺(tái)灣大學(xué)、谷歌、弗吉尼亞理工大學(xué)和加州大學(xué)默塞德分校等研究機(jī)構(gòu)的研究者提出了一種無(wú)需裁剪的全幀視頻穩(wěn)定算法。
論文地址:https://arxiv.org/pdf/2102.06205.pdf
項(xiàng)目地址:https://github.com/alex04072000/NeRViS
具體而言,該研究提出了一種通過(guò)估計(jì)稠密的扭曲場(chǎng)來(lái)實(shí)現(xiàn)全幀視頻穩(wěn)定的算法,既可以融合來(lái)自相鄰幀的扭曲內(nèi)容,也能合成全幀穩(wěn)定的幀。這種算法的核心技術(shù)為基于學(xué)習(xí)的混合空間融合,它可以減輕因光流不精確和快速移動(dòng)物體造成的偽影影響。研究者在 NUS 和 selfie 視頻數(shù)據(jù)集上驗(yàn)證了該方法的有效性。此外,大量的實(shí)驗(yàn)結(jié)果表明,該研究提出的方法優(yōu)于以往的視頻穩(wěn)定方法。
本研究的主要貢獻(xiàn)如下:
將神經(jīng)渲染技術(shù)應(yīng)用于視頻穩(wěn)定中,以緩解對(duì)流不準(zhǔn)確的敏感性問(wèn)題;
提出了一種混合融合機(jī)制,用于在特征和圖像級(jí)別上組合來(lái)自多幀的信息,并通過(guò)消融研究系統(tǒng)地驗(yàn)證了各種設(shè)計(jì)選擇;
在兩個(gè)公共數(shù)據(jù)集上展示了與代表性視頻穩(wěn)定技術(shù)相比較而言,該研究所提出的方法具有良好性能。
算法實(shí)現(xiàn)
本研究提出的視頻穩(wěn)定方法一般分為三個(gè)階段:1)運(yùn)動(dòng)估計(jì);2)運(yùn)動(dòng)平滑;3) 幀扭曲以及渲染。該研究重點(diǎn)集中在第三階段,即渲染高質(zhì)量的幀而不需要任何裁剪。算法不依賴于特定的運(yùn)動(dòng)估計(jì) / 平滑技術(shù)。
研究假設(shè)從真實(shí)相機(jī)空間到虛擬相機(jī)空間的扭曲場(chǎng)可用于每一幀視頻。對(duì)于給定的輸入視頻,首先對(duì)每幀的圖像特征進(jìn)行編碼,在特定的目標(biāo)時(shí)間戳處將相鄰幀扭曲到虛擬攝像機(jī)空間,然后融合這些特征來(lái)渲染一個(gè)穩(wěn)定的幀。
圖 3:融合多個(gè)幀的設(shè)計(jì)選擇。
為了合成全幀穩(wěn)定的視頻,需要對(duì)輸入的不穩(wěn)定視頻中多個(gè)相鄰幀的內(nèi)容進(jìn)行對(duì)齊和融合。如圖 3 所示,主要包括三個(gè)部分:
傳統(tǒng)的全景圖像拼接(或基于圖像的渲染)方法通常在圖像級(jí)別對(duì)扭曲(穩(wěn)定)的圖像進(jìn)行融合。在對(duì)齊比較準(zhǔn)確時(shí)圖像級(jí)融合效果良好,但在流估計(jì)不可靠時(shí)可能產(chǎn)生混合偽影;
可以將圖像編碼為抽象的 CNN 特征,在特征空間中進(jìn)行融合,并學(xué)習(xí)到一個(gè)解碼器,可將融合后的特征轉(zhuǎn)換為輸出幀。這種方法對(duì)流不準(zhǔn)確性具有較好的魯棒性,但通常會(huì)產(chǎn)生過(guò)度模糊的圖像;
該研究提出的算法結(jié)合了這兩種策略的優(yōu)點(diǎn)。首先提取抽象的圖像特征(公式(6));然后融合多幀扭曲的特征。對(duì)于每一個(gè)源幀,將融合后的特征映射和各個(gè)扭曲的特征一起解碼為輸出幀和相關(guān)的置信度映射。最后使用公式(8)中生成圖像的加權(quán)平均值生成最終輸出幀。
扭曲和融合
扭曲:在虛擬像機(jī)空間中,扭曲相鄰幀,使其與目標(biāo)幀對(duì)齊。因?yàn)橐呀?jīng)有了從目標(biāo)幀到關(guān)鍵幀的扭曲場(chǎng),以及從關(guān)鍵幀到相鄰幀的估計(jì)光流,然后可以通過(guò)鏈接流向量來(lái)計(jì)算從目標(biāo)幀到相鄰幀的扭曲場(chǎng)。因此可以使用向后扭曲來(lái)扭曲相鄰幀 I_n 以對(duì)齊目標(biāo)幀。
由于遮擋或超出邊界,目標(biāo)幀中的一些像素在鄰近幀中不可見(jiàn)。因此,該研究計(jì)算每個(gè)相鄰幀的可見(jiàn)性掩碼 {}∈ω,來(lái)表示一個(gè)像素在源幀中是否有效(標(biāo)記為 1)。該研究使用[Sundaram 等人. 2010] 方法來(lái)識(shí)別遮擋像素(標(biāo)記為 0)。
融合空間:研究者探討了幾種融合策略來(lái)處理對(duì)齊的幀。首先,他們可以在圖像空間中直接混合扭曲的顏色幀產(chǎn)生輸出穩(wěn)定幀,如圖 3(a)所示。這種圖像空間融合方法在圖像拼接、視頻外插和新視角合成中很常用。
為了結(jié)合圖像空間和特征空間最佳融合,該研究提出了一種用于視頻穩(wěn)定的混合空間融合機(jī)制(圖 3(c))