蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
一張圖片的焦距,能在老鼠玩具和日歷尺之間自由切換:
甚至能完成圖片上任一物體的對(duì)焦,呈現(xiàn)出不同物體在不同深度時(shí)的照片:
這張具有神奇魔力的圖片,就是集成了“全部物體信息”的全息圖。
生成這類全息圖,往往需要大量計(jì)算才能完成。
然而,來自MIT的團(tuán)隊(duì)開發(fā)了一種新算法,不需要復(fù)雜儀器、也不需要等幾個(gè)小時(shí),生成這樣一張全息圖,只需要在智能手機(jī)上耗費(fèi)不到1秒的時(shí)間。
要知道,就在去年11月份,三星的科學(xué)家們生成3D全息視頻所用的處理器,尺寸還是太大,沒能整合到手機(jī)上:
那么,這種快速生成3D全息圖的方法,究竟是怎么做到的?
用神經(jīng)網(wǎng)絡(luò)快速“切蛋糕”
首先,全息圖是什么?
舉個(gè)例子,visa信用卡上的鴿子,就利用了全息圖來做防偽標(biāo)志。
全息圖即“全部的信息”,這種圖片包含物體的幅度和相位信息。
普通照相機(jī),拍攝出來的照片只包含物體的幅度信息(亮暗),相位信息(遠(yuǎn)近)卻無法直接保存。
這也是為什么,我們平時(shí)看見的2D照片“沒有立體感”。
此前,計(jì)算機(jī)要想360°全方位生成全息圖,通常得從多個(gè)角度進(jìn)行干涉、衍射,再將相位信息拼合起來,與振幅信息疊加后生成圖片。
多角度生成相位信息,就像是在一個(gè)球形蛋糕上精準(zhǔn)地切割8刀,將之分成8塊,對(duì)每塊進(jìn)行相位重現(xiàn):
然而,這種方法所需要的計(jì)算量往往巨大,耗時(shí)很久,完全無法在智能手機(jī)上運(yùn)行。
因此,MIT團(tuán)隊(duì)思考,能不能采用深度學(xué)習(xí)的方法,只通過3個(gè)角度,就把“蛋糕”分成8塊,來生成全息圖?
他們精挑細(xì)選出了4000張包含幅度、相位信息的圖像,以及這些圖像對(duì)應(yīng)的3D全息圖,用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
整體思路大致如下:獲取物體的相位信息后,生成點(diǎn)云,再結(jié)合殘差神經(jīng)網(wǎng)絡(luò),生成整體的全息圖。
那么,這種全息圖的效果如何呢?
可對(duì)焦任意物體,內(nèi)存占用不到1MB
事實(shí)證明,利用神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),只需要不到640KB的內(nèi)存就能生成全息圖。
如果在消費(fèi)級(jí)GPU上,這種神經(jīng)網(wǎng)絡(luò)模型,每秒能生成60張分辨率為1080p的彩色3D全息圖。
而在智能手機(jī)如iPhone 11 Pro上,每秒能生成1.1張全息圖;至于Google Edge TPU上,每秒則能生成2張全息圖。
以動(dòng)畫角色大雄兔(Big Buck Bunny)為例,右下角是它的深度圖。
從圖中可見,利用神經(jīng)網(wǎng)絡(luò)(右)生成的全息圖像,幾乎和用原有方法(左)生成的全息圖像一模一樣。
而且,無論是遠(yuǎn)處的小黃花,還是近處的兔子眼睛,都能完美對(duì)焦。
表面上看起來是一樣的話,具體到幅度和相位信息上如何呢?
從圖中可見,利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的幅度和相位信息,也與真實(shí)值非常接近。
即使是現(xiàn)實(shí)中的照片,也與實(shí)際生成目標(biāo)非常接近了。
當(dāng)然,從細(xì)節(jié)來看的話,還是略微有一點(diǎn)差距。
相比于現(xiàn)有的VR和AR方案,3D全息圖是3D可視化的另一個(gè)實(shí)現(xiàn)方案。
但在使用VR的時(shí)候,用戶實(shí)際上是盯著2D顯示屏,產(chǎn)生3D錯(cuò)覺,因此可能會(huì)產(chǎn)生視覺疲勞、頭暈等癥狀。
而3D全息圖則允許眼睛調(diào)整焦距,即交替地對(duì)前景和背景進(jìn)行聚焦,能有效緩解這種癥狀。
下一步,團(tuán)隊(duì)計(jì)劃添加眼球追蹤技術(shù),讓用戶的眼睛看向哪里,哪里就生成部分高清全息圖。
在這種方案下,計(jì)算機(jī)只需要部分生成全息圖,實(shí)時(shí)運(yùn)用下,效果也能更快更好。
以及,索尼贊助了這項(xiàng)研究,所以……
作者介紹
論文一作史亮,2014年畢業(yè)于北航,碩士畢業(yè)于斯坦福,目前于MIT就讀博士,研究方向包括VR/AR,以及機(jī)器學(xué)習(xí)和計(jì)算機(jī)圖形學(xué)。
論文二作李北辰,2018年畢業(yè)于清華大學(xué),目前于MIT就讀博士,研究方向是機(jī)器學(xué)習(xí)在計(jì)算機(jī)圖形學(xué)中的應(yīng)用。