心理學帶來曙光，DeepMind要像理解人一樣理解模型

2018-02-25

前言：人類對各種深度學習模型最常見的不滿之一就是難以解釋、無法理解，即便可以查看訓練好的網絡的每個連接的權重，也說不清網絡利用的數據模式是哪些，以及網絡目前的運行狀況裏有哪些問題。

不過，人類從不懷疑自己可以理解另一個人類：我們可以通過各種方法瞭解並描述別人的訴求、觀念和當下的想法，可以推測別人知道哪些信息，可以猜測別人的未來行動，我們同時也就以此爲基礎考慮如何和別人互動。其實絕大多數情況下我們都不會嘗試重建別人的腦神經結構，不會嘗試估計別人的腦神經元的活動狀況如何、前額葉的連接性如何、海馬體的工作狀況如何。這時候我們所談的理解，就是對別人的心理狀況的高層次抽象，不再嘗試描述細碎的內部運行機理。這種注重於預測和計劃理解能力被稱爲「心智理論 Theory of Mind」。（注：心智理論，心理學術語，是一種能夠理解自己以及周圍人類的心理狀態的能力，這些心理狀態包括情緒、信仰、意圖、慾望、假裝與知識等）

在近期新發表的論文《Machine Theory of Mind》中，DeepMind 就以心智理論的視角重新研究瞭如何理解另一個模型的問題。他們的目標是讓環境中的觀察者在有限的數據下自動學習如何對新遇到的智能體建模——不是嘗試學出一個模仿的算法，而是學習如何像人理解人一樣地預測另一個智能體的行爲，甚至發現別的智能體的觀念和實際環境狀況之間的矛盾。他們把這種新理論稱爲「Machine Theory of Mind」（機器心智理論），爲此建立的模型稱爲 ToMnet。在 DeepMind 的研究人員們看來，這還可以是一種新的改進深度學習的可解釋性的方法，可以不用再像以往那樣嘗試設計能表述自己內在狀態的系統，而是作爲新的中轉系統、人機接口，縮小原系統的行爲空間大小，把難以理解的神經網絡以人類好理解的形式轉述出來。

DeepMind 的研究人員們把這個機器心智理論問題形式化爲一個元學習問題，讓觀察者智能體學習如何在環境中遇到一個新智能體之後收集數據對它進行建模，瞭解它的隱含特點和心理狀態，從而更好地預測它的未來行爲。

這個觀察者要學習的內容也需要分爲兩個層次，一個層次是基於網絡學習到的權重的總體理論，它是對訓練集中所有智能體的共有行爲的隱式描述；另一個層次是在測試階段觀察單個智能體，嘗試描述它獨有的特徵和心理狀態。而這兩個層次也就分別構成了對智能體行爲的先驗和後驗判斷。

ToMnet 架構：character net 從一組部分可觀察的馬爾可夫決策過程（POMDP）中解析一個智能體的過往行動軌跡，形成特徵嵌入 echar；mental state net 根據智能體當前的行爲解析出它當前的心理狀態嵌入 emental。這些嵌入會作爲 prediction net 的輸入，它查詢當前狀態之後形成對未來預測的三個輸出：下一步行動的可能性，某個對象是否會被使用掉的可能性，以及預測的後續的表徵。

在論文中，DeepMind 的研究人員們圍繞提出的 ToMnet 進行了一系列難度遞增的實驗，逐步介紹 ToMnet 的設計思路、展示它的應用典型的人類心理理論技巧對其它各種各樣的模型建模的能力。

對於簡單、隨機的智能體，ToMnet 可以學到對智能體特點的最優層次化貝葉斯推理的近似；
對於基於算法的智能體，ToMnet 可以通過小樣本反向強化學習找到它們的目標，以及理解它們如何在成本和反饋中找到平衡；
ToMnet 可以找到成羣的強化學習智能體之間的多種變量的關鍵值，從而把它們分爲不同的類別，並給智能體生成抽象嵌入。ToMnet 也可以給行爲空間生成新的抽象；
用部分可觀察馬爾可夫決策過程中的深度強化學習智能體訓練的 ToMnet 可以隱式地發現這些智能體持有的對環境的錯誤觀念，而這正是人類的心理理論中的重要部分；
ToMnet 還可以訓練用於預測別的智能體的觀念狀態，顯式地揭露出別的智能體的錯誤觀念。DeepMind 的研究人員們還表明 ToMnet 僅僅根據別的智能體的行爲就可以能夠推知它們觀察到了哪些東西、接下來會傾向於相信什麼。

帶有子任務的環境，其中的智能體可能會抱有對環境的錯誤認識。

圖 (a) ：智能體尋找子目標（星星）的軌跡（紅色箭頭）。智能體只能觀察到環境的一部分：深灰色的區域還沒有觀察到，淺灰色的區域之前觀察過，但在獲得子目標之後就觀察不到了。
圖 (b)：當智能體獲得子目標後，所有其它的物體有一個很小的可能性會立即交換位置。(b) 左：交換髮生在智能體視野之內；(b) 右：交換髮生在智能體視野之外
圖 (c)：交換位置對智能體緊接着的策略產生的影響
圖 (d)：交換位置對智能體的經驗後續表徵產生的影響

DeepMind 的這一系列實驗內容還比較簡單，主要爲了展示這樣的系統的主要思路和能力。要拓展它的能力和領域、與人類共同評比還有很長的路要走。不過，這種思路對於人類這樣依賴社交性思考的人物確實有着重要意義。

未來 DeepMind 打算在其中繼續增加 ToMnet 需要做出的預測的數量、在建模其它智能體的行爲過程中加入輕微的總結偏倚，以及如何根據自己的經驗和認識把自己的模型告訴別的智能體。這些都是可能的多智能體合作研究中的重要課題。

另外值得一提的是，ICLR 2017 最佳論文獎得主之一的張馳原也是這篇論文的作者之一。

論文地址：https://arxiv.org/abs/1802.07740

DeepMind 推出分佈式訓練框架 IMPALA，開啓智能體訓練新時代

DeepMind 繼續投資阿爾伯塔大學，設立資助主席並贊助研究經費

既要深度學習又要符號化推理，DeepMind 新 JAIR 論文小試牛刀

DeepMind 開源虛擬實驗室 Psychlab，利用認知心理學對智能體進行研究

文章來源：雷鋒網