跳到主要內容

DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018

原標題:DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
圓栗子 編譯整理
量子位 出品 | 公眾號 QbitAI
大家可能還記得,今年2月 Facebook 釋出的,人體 姿勢實時識別 系統DensePose。
現在,程式碼開源了。撒花。
100人也很輕鬆
DensePose,這項技術可以把2D影象,轉換成3D人體模型,並已成功躋身今年 CVPR 的Oral環節。
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
Facebook和來自法國的INRIA研究所共同開發的AI,和傳統姿態估計系統很不一樣。
前人的姿勢識別,大多是著眼 一組關節 ,比如手腕,比如肘部。
不過,Facebook團隊覺得,這樣的觀察方式,是沒有辦法 深刻理解 影象的。
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
他們需要的是,人體表面的全方位觀察,把每個人變成 UV貼圖 ,一片一片一片,一片。
系統可以覆蓋渾身上下超過 5000 個節點,比 十幾 個關節要細緻得多。
另外,DensePose 每秒 處理多幀畫面,而且,就算視訊裡同時出現 100 個人,也沒問題。
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
每一個被人體佔據的畫素,盡收眼底。
這樣的任務,一個 GPU 可以完全搞定。2D轉3D的速度和準確度,有希望為AR/VR這樣的應用提供加持。
資料集叫COCO
這樣的成就, DensePose-COCO 功勳卓著。
這是一個大規模的參考標準 (Ground Truth) 資料集 。裡面包含了5萬人 影象 - 表面UV圖 的一一對應。
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
隨機取樣的人類,千姿百態,還有各個身體部位分割開來的樣子。
萬事俱備,只是資料集還沒開源。
模型結構怎樣
DensePose-RCNN ,深度神經網路的結構,是團隊新建的。
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
他們是在Facebook自家的物體檢測平臺 Detectron 上面,搭起了這樣一個模型。
在全卷積處理之後,用了興趣區域池化層 ( ROI Pooling ) 。研究人員用三個輸出通道,擴增了這個網路。
訓練好之後,AI可以把每一個畫素,分配到不同的 身體部位 ,給出U座標和V座標。
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
看著自家神經網路茁壯成長,Facebook團隊還在部落格裡致謝了被併到PyTorch裡的 Caffe 2
學習時間
現在,既然還不知道資料集裡面,有多少羞羞的姿勢,大家就先瞻仰一下程式碼吧。
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
GitHub傳送門:
順便,CVPR正在鹽湖城開心地進行。6月22日,就要輪到DensePose團隊開講,當地時間早8點之前,沉迷學習的各位可以趁機複習一下論文。
論文傳送門:

— 完 —

誠摯招聘
量子位正在招募市場運營實習生,參與線上/線下活動整體流程,幫助製作相關物料,運營社群等。工作地點在北京中關村。
期待有熱情的同學加入!簡歷歡迎投遞到quxin@qbitai.com
具體細節,請在量子位公眾號(QbitAI)對話介面,回覆“實習生”三個字。
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
DensePose開源了,2D變3D人體姿勢實時識別 | Facebook@CVPR 2018
量子位  QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態

留言

這個網誌中的熱門文章

2017通訊大賽「聯發科技物聯網開發競賽」決賽團隊29強出爐!作品都在11月24日頒獎典禮進行展示

2017通訊大賽「聯發科技物聯網開發競賽」決賽團隊29強出爐!作品都在11月24日頒獎典禮進行展示 LIS   發表於 2017年11月16日 10:31   收藏此文 2017通訊大賽「聯發科技物聯網開發競賽」決賽於11月4日在台北文創大樓舉行,共有29個隊伍進入決賽,角逐最後的大獎,並於11月24日進行頒獎,現場會有全部進入決賽團隊的展示攤位,總計約為100個,各種創意作品琳琅滿目,非常值得一看,這次錯過就要等一年。 「聯發科技物聯網開發競賽」決賽持續一整天,每個團隊都有15分鐘面對評審團做簡報與展示,並接受評審們的詢問。在所有團隊完成簡報與展示後,主辦單位便統計所有評審的分數,並由評審們進行審慎的討論,決定冠亞季軍及其他各獎項得主,結果將於11月24日的「2017通訊大賽頒獎典禮暨成果展」現場公佈並頒獎。 在「2017通訊大賽頒獎典禮暨成果展」現場,所有入圍決賽的團隊會設置攤位,總計約為100個,展示他們辛苦研發並實作的作品,無論是想觀摩別人的成品、了解物聯網應用有那些新的創意、尋找投資標的、尋找人才、尋求合作機會或是單純有興趣,都很適合花點時間到現場看看。 頒獎典禮暨成果展資訊如下: 日期:2017年11月24日(星期五) 地點:中油大樓國光廳(台北市信義區松仁路3號) 我要報名參加「2017通訊大賽頒獎典禮暨成果展」>>> 在參加「2017通訊大賽頒獎典禮暨成果展」之前,可以先在本文觀看各團隊的作品介紹。 決賽29強團隊如下: 長者安全救星 可隨意描繪或書寫之電子筆記系統 微觀天下 體適能訓練管理裝置 肌少症之行走速率檢測系統 Sugar Robot 賽亞人的飛機維修輔助器 iTemp你的溫度個人化管家 語音行動冰箱 MR模擬飛行 智慧防盜自行車 跨平台X-Y視覺馬達控制 Ironmet 菸消雲散 無人小艇 (Mini-USV) 救OK-緊急救援小幫手 穿戴式長照輔助系統 應用於教育之模組機器人教具 這味兒很台味 Aquarium Hub 發展遲緩兒童之擴增實境學習系統 蚊房四寶 車輛相控陣列聲納環境偵測系統 戶外團隊運動管理裝置 懷舊治療數位桌曆 SeeM智能眼罩 觸...
opencv4nodejs Asynchronous OpenCV 3.x Binding for node.js   122     2715     414   0   0 Author Contributors Repository https://github.com/justadudewhohacks/opencv4nodejs Wiki Page https://github.com/justadudewhohacks/opencv4nodejs/wiki Last Commit Mar. 8, 2019 Created Aug. 20, 2017 opencv4nodejs           By its nature, JavaScript lacks the performance to implement Computer Vision tasks efficiently. Therefore this package brings the performance of the native OpenCV library to your Node.js application. This project targets OpenCV 3 and provides an asynchronous as well as an synchronous API. The ultimate goal of this project is to provide a comprehensive collection of Node.js bindings to the API of OpenCV and the OpenCV-contrib modules. An overview of available bindings can be found in the  API Documentation . Furthermore, contribution is highly appreciated....

完形心理學!?讓我們了解“介面設計師”為什麼這樣設計

完形心理學!?讓我們了解“介面設計師”為什麼這樣設計 — 說服客戶與老闆、跟工程師溝通、強化設計概念的有感心理學 — 情況 1 : 為何要留那麼多空白? 害我還要滾動滑鼠(掀桌) 情況 2 : 為什麼不能直接用一頁展現? 把客戶的需求塞滿不就完工啦! (無言) 情況 3: 這種設計好像不錯,但是為什麼要這樣做? (直覺大神告訴我這樣設計,但我說不出來為什麼..) 雖然世界上有許多 GUI 已經走得又長又遠又厲害,但別以為這種古代人對話不會出現,一直以來我們只是習慣這些 GUI 被如此呈現,但為何要這樣設計我們卻不一定知道。 由於 完形心理學 歸納出人類大腦認知之普遍性的規則,因此無論是不是 UI/UX 設計師都很適合閱讀本篇文章。但還是想特別強調,若任職於傳統科技公司,需要對上說服老闆,需要平行說服(資深)工程師,那請把它收進最愛;而習慣套用設計好的 UI 套件,但不知道為何這樣設計的 IT 工程師,也可以透過本文來強化自己的產品說服力。 那就開始吧~(擊掌) 完形心理學,又稱作格式塔(Gestalt)心理學,於二十世紀初由德國心理學家提出 — 用以說明人類大腦如何解釋肉眼所觀察到的事物,並轉化為我們所認知的物件。它可說是現代認知心理學的基礎,其貫徹的概念就是「整體大於個體的總合 “The whole is other than the sum of the parts.” —  Kurt Koffka」。 若深究完整的理論將會使本文變得非常的艱澀,因此筆者直接抽取個人認為與 UI 設計較為相關的 7 個原則(如下),並搭配實際案例做說明。有興趣了解全部理論的話可以另外 Google。 1. 相似性 (Similarity)  — 我們的大腦會把相似的事物看成一體 如果數個元素具有類似的尺寸、體積、顏色,使用者會自動為它們建立起關聯。這是因為我們的眼睛和大腦較容易將相似的事物組織在一起。如下圖所示,當一連串方塊和一連串的圓形並排時,我們會看成(a)一列方塊和兩列圓形(b)一排圓形和兩排三角形。 對應用到介面設計上,FB 每則文章下方的按鈕圖標(按讚 Like / 留言Comment / 分享 Share)雖然功能各不相同,但由於它們在視覺上顏色、大小、排列上的相似性,用戶會將它們視認為...