DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
原標題:DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
圓栗子 編譯整理
量子位 出品 | 公眾號 QbitAI
大家可能還記得,今年2月 Facebook 釋出的,人體 姿勢實時識別 系統DensePose。
現在,程式碼開源了。撒花。
100人也很輕鬆
DensePose,這項技術可以把2D影象,轉換成3D人體模型,並已成功躋身今年 CVPR 的Oral環節。

Facebook和來自法國的INRIA研究所共同開發的AI,和傳統姿態估計系統很不一樣。
前人的姿勢識別,大多是著眼 一組關節 ,比如手腕,比如肘部。
不過,Facebook團隊覺得,這樣的觀察方式,是沒有辦法 深刻理解 影象的。

他們需要的是,人體表面的全方位觀察,把每個人變成 UV貼圖 ,一片一片一片,一片。
系統可以覆蓋渾身上下超過 5000 個節點,比 十幾 個關節要細緻得多。
另外,DensePose 每秒 處理多幀畫面,而且,就算視訊裡同時出現 100 個人,也沒問題。

每一個被人體佔據的畫素,盡收眼底。
這樣的任務,一個 GPU 可以完全搞定。2D轉3D的速度和準確度,有希望為AR/VR這樣的應用提供加持。
資料集叫COCO
這樣的成就, DensePose-COCO 功勳卓著。
這是一個大規模的參考標準 (Ground Truth) 資料集 。裡面包含了5萬人 影象 - 表面UV圖 的一一對應。

隨機取樣的人類,千姿百態,還有各個身體部位分割開來的樣子。
萬事俱備,只是資料集還沒開源。
模型結構怎樣
DensePose-RCNN ,深度神經網路的結構,是團隊新建的。

他們是在Facebook自家的物體檢測平臺 Detectron 上面,搭起了這樣一個模型。
在全卷積處理之後,用了興趣區域池化層 ( ROI Pooling ) 。研究人員用三個輸出通道,擴增了這個網路。
訓練好之後,AI可以把每一個畫素,分配到不同的 身體部位 ,給出U座標和V座標。

看著自家神經網路茁壯成長,Facebook團隊還在部落格裡致謝了被併到PyTorch裡的 Caffe 2。
學習時間
現在,既然還不知道資料集裡面,有多少羞羞的姿勢,大家就先瞻仰一下程式碼吧。

GitHub傳送門:
順便,CVPR正在鹽湖城開心地進行。6月22日,就要輪到DensePose團隊開講,當地時間早8點之前,沉迷學習的各位可以趁機複習一下論文。
論文傳送門:
— 完 —
誠摯招聘
量子位正在招募市場運營實習生,參與線上/線下活動整體流程,幫助製作相關物料,運營社群等。工作地點在北京中關村。
期待有熱情的同學加入!簡歷歡迎投遞到quxin@qbitai.com
具體細節,請在量子位公眾號(QbitAI)對話介面,回覆“實習生”三個字。

量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
留言
張貼留言