跳到主要內容

影/AI 寫故事功力竟達人類水準 OpenAI 大規模無監督語言模型 GPT-2

影/AI 寫故事功力竟達人類水準  OpenAI 大規模無監督語言模型 GPT-2
▲AI 寫故事公立竟達人類水準。(圖/翻攝自theregister.)
【原文:《一個續寫故事達到人類水平的AI,OpenAI大規模無監督語言模型GPT-2》,作者:楊曉凡,智慧機器人網編輯整理】
文、圖/雷鋒網
模型大小的比拼還在繼續!自谷歌大腦的 2.77 億參數的語言模型 Transformer-XL 之後,OpenAI 也完成了自己具有 15 億個參數的語言模型 GPT-2,而且這個模型還有一項驚人的能力,就是從短句續寫成篇的文章。雷鋒網 AI 科技評論簡單介紹如下。

GPT-2 介紹

2018 年 6 月,OpenAI 發表論文介紹了自己的語言模型 GPT,它基於 Transformer 架構,用先在大規模語料上進行無監督預訓練、再在小得多的有監督數據集上為具體任務進行精細調節(fine-tune)的方式,不依賴針對單獨任務的模型設計技巧就一次性在多個任務中取得了很好的表現。這也是 2018 年中自然語言處理領域的研究趨勢,就像計算機視覺領域流行 ImageNet 預訓練模型一樣。
▲OpenAI 介紹影片。(影片/取自YouTube,若遭移除請見諒)
這次的 GPT-2 是 GPT 的直接技術升級版本,有多 10 倍的模型參數,多達 15 億個,並在多 10 倍的數據上進行訓練。訓練數據是來自網際網路的 40GB 高質量語料,具體來說這些語料來自 Reddit 論壇中出現的高評分外鏈頁面;高評分表示這些頁面中的內容有較高的質量。這樣篩選出的語料內容多達 800 萬個頁面。
模型在無監督訓練階段的目標是,給定一組單詞組成的句子之後預測下文的下一個詞。由於資料庫有足夠高的文本質量和足夠高的多樣性,模型也有很高的容量,即便這樣簡單的訓練目標也得出了驚人的結果:模型不僅可以根據給定的文本流暢地續寫句子,甚至可以形成成篇的文章,就像人類的續寫文章一樣。
模型生成文本有時會出現失敗的現象,比如文字重複、錯誤的世界常識(比如有時候模型會寫到在水下燃燒的火)、不自然地切換話題,但在成功的例子中,模型生成的文本有多樣、全面的敘述,對事件的介紹煞有介事,接近人類的表達質量,而且在段落之間甚至全篇文章之中保持連續一致。這可以說非常驚人(可以看下文的樣例)
OpenAI 的研究人員們發現,根據模型對內容的熟悉程度不同,進行數次嘗試之後一般都可以得到較好的生成結果。比如對於訓練文本中常出現的(也就是網際網路上出現較多的)英國脫歐、指環王、歌手 Miley Cyrus 等話題,模型在大約一半的嘗試中都可以生成有理有據的文本;反過來,對於訓練文本中較少出現的技術性討論以及哲學內容,模型生成的效果就要差很多。
和之前的 GPT 一樣,預訓練結束後的模型可以在領域數據集上做進一步精細調節,對文本的風格得到更好的控制,比如在亞馬遜評價數據上精細調節後,模型生成的文本更關注評分、商品類別之類的東西。
除此之外,GPT-2 也可以在各種任務中做「無樣本學習」,即不經過任何任務專用數據集訓練就進行測試,也取得了優秀的結果。OpenAI 的研究人員們猜想這些任務都只是通用語言建模的子集,所以自然會有良好表現。

文本生成欣賞

GPT-2 的表現中最引人關注的當然還是文本生成水平,我們來看幾個 OpenAI 也給出的文本生成樣例。為了方便閱讀,我們簡單翻譯了其中三組。在翻譯過程中我們感覺到,模型的描寫和敘事邏輯雖然還是有一些混亂,但模型不僅可以找到適合的文字風格,自己補充了許多細節,文本中也有一些上下文聯繫、有層層遞進,語法還幾乎沒有錯誤,可以說是非常以假亂真了。
我們一起感受下那煞有介事的文風。
例一
人類給定文本
In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.
(在一項令人震驚的發現中,科學家們在安第斯山脈中偏遠的、從未曾探索過的山谷中發現了一群獨角獸。更令研究人員們驚訝的是,這群獨角獸能說一口流利的英語。)
模型續寫(第 10 次嘗試的結果)
The scientist named the population, after their distinctive horn, Ovid’s Unicorn. These four-horned, silver-white unicorns were previously unknown to science. (科學家們以它們的角的名字把它們命名為 Ovid 獨角獸,科學界從未知道過這些四隻角的、銀白色的獨角獸的存在。)
Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.(如今,經過大概兩個世紀之後,這種古老的現象是如何發現的終於找到了答案。)
Dr. Jorge Pérez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Pérez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow.(La Paz 大學的進化生物學家 Jorge Pérez 博士和他的同行們在探索安第斯山脈的時候發現了一個很小的山谷,這裡沒有其他的動物或者人類。Pérez 注意到在這個山谷里的似乎是一個自然噴泉,周圍還有兩座岩石山和銀色的雪。)
Pérez and the others then ventured further into the valley. 「By the time we reached the top of one peak, the water looked blue, with some crystals on top,」 said Pérez.(Pérez 和其它人更走到了山谷的更深入。「等到我們走到了其中一座山的山頂的時候,水看起來是藍色的,上面還有一些晶體狀的東西」,Pérez 說。)
Pérez and his friends were astonished to see the unicorn herd. These creatures could be seen from the air without having to move too much to see them – they were so close they could touch their horns.(Pérez 和他的朋友們看到獨角獸群的時候驚呆了。透過空氣,不需要有多少動作就可以看到它們 —— 他們走得好近,甚至都可以摸到它們的角。)
While examining these bizarre creatures the scientists discovered that the creatures also spoke some fairly regular English. Pérez stated, 「We can see, for example, that they have a common 『language,』 something like a dialect or dialectic.」(當這些科學家們檢查這些奇怪的生物的時候,他們發現這些生物的英文說得還挺規範的。Pérez 指出「我們可以看到,比如,它們有共通的『語言』,像是一種口音或者方言」。)
Dr. Pérez believes that the unicorns may have originated in Argentina, where the animals were believed to be descendants of a lost race of people who lived there before the arrival of humans in those parts of South America.(Pérez 博士相信這些獨角獸最初是來自阿根廷的,這些動物很有可能是人類遷移到南美洲之前的一支消失了的人種的後裔。)
While their origins are still unclear, some believe that perhaps the creatures were created when a human and a unicorn met each other in a time before human civilization. According to Pérez, 「In South America, such incidents seem to be quite common.」(雖然它們的來源還不確定,有人認為這些動物可能是在人類文明出現之前,有人和獨角獸相遇而產生的。Pérez 說:「在南美洲,這種事情一點也不罕見。」)
However, Pérez also pointed out that it is likely that the only way of knowing for sure if unicorns are indeed the descendants of a lost alien race is through DNA. 「But they seem to be able to communicate in English quite well, which I believe is a sign of evolution, or at least a change in social organization,」 said the scientist.(然而,Pérez 也指出,也許只有一種辦法能確定這些獨角獸是不是某一支已經消失了的外星人種族的後裔,那就是通過 DNA。「但是它們用英文溝通的能力不怎麼好,在我看來這是一種進化的信號,或者起碼是社交組織的一種變化」,這位科學家說。)
例二
人類給定文本
A train carriage containing controlled nuclear materials was stolen in Cincinnati today. Its whereabouts are unknown.
(今天,一輛載有受控核原料的貨運火車在辛辛那提被偷走了。我們不知道它在哪裡。)
模型續寫(第 1 次嘗試的結果)
The incident occurred on the downtown train line, which runs from Covington and Ashland stations.(事件發生在鬧市區的火車線路上,這條線連通考文垂和阿什蘭。)
In an email to Ohio news outlets, the U.S. Department of Energy said it is working with the Federal Railroad Administration to find the thief.(在一封致俄亥俄州新聞發布窗口的郵件中,美國能源部表示它正在和聯邦鐵路管理局共同協作找到盜賊。)
「The theft of this nuclear material will have significant negative consequences on public and environmental health, our workforce and the economy of our nation,」 said Tom Hicks, the U.S. Energy Secretary, in a statement. 「Our top priority is to secure the theft and ensure it doesn』t happen again.」(「這起核原料失竊事件對於公眾、環境健康、我們的勞動力和國家的經濟有很糟糕的負面後果」,美國能源秘書長 Tom Hicks 在一則聲明中表示,「我們的首要任務是確保失竊事件的安全,並確保它不會再次發生。」 )
The stolen material was taken from the University of Cincinnati’s Research Triangle Park nuclear research site, according to a news release from Department officials.(按照部門官員發布的新聞表示,失竊的材料是從辛辛那提研究院三角公園核能研究院被偷走的)
The Nuclear Regulatory Commission did not immediately release any information.(核管制委員會沒有立即發表任何信息。)
According to the release, the U.S. Department of Energy’s Office of Nuclear Material Safety and Security is leading that team’s investigation.(根據發表的信息,美國能源部核能材料安全與保衛辦公室正在帶領團隊進行調查。)
「The safety of people, the environment and the nation’s nuclear stockpile is our highest priority,」 Hicks said. 「We will get to the bottom of this and make no excuses.(「人民的安全、環境、以及核能儲備是我們最重要的目標,」Hicks 說,「我們會追查到底,不找任何藉口。」)
例三
人類給定文本(這是 OpenAI 對 GPT-2 模型的簡介)
We』ve trained a large language model called GPT-2 that generates realistic paragraphs of text, while also exhibiting zero shot generalization on tasks like machine translation, question answering, reading comprehension, and summarization - problems usually approached by using training datasets and models designed explicitly for these tasks.
A typical approach to language modeling is to learn the following task: predict the next word, given all of the previous words within some text. Last year, OpenAI’s Generative Pre-trained Transformer (GPT) showed that language models trained on large amounts of data can be fine-tuned to specific tasks to achieve high performance. GPT-2 shows that much larger language models trained on a more diverse dataset derived from the internet begin to learn these NLP tasks without needing task-specific training data, instead learning from examples the system derives from the raw text. These systems also display a substantial qualitative jump in the realism and coherence of generated text.
模型續寫(第 1 次嘗試的結果)
Here you can see the most recent progress with Generative Pre-trained Transformer:(來和我們一起看看生成式預訓練 Transformer 模型的最新進展)
Figure 1: Generative Pre-trained Transformer training on several texts.(圖 1 :生成式預訓練 Transformer 在多種任務中的表現)
We are now preparing a collection of datasets for translation and machine translation in our language model. We will be using one of the large number of text samples provided by The New York Times.(我們正在準備在語言模型中收集一些數據集用於翻譯和機器翻譯。我們會使用紐約時報提供的大規模文本樣本之一。)
We believe this project is the first step in the direction of developing large NLP systems without task-specific training data. That is, we are developing a machine language system in the generative style with no explicit rules for producing text.(我們相信這個項目是向著開發不需要任務專用數據的大規模 NLP 系統的第一步。也就是說,我們正在開發一個生成式的機器語言系統,它生成文本不需要任何明確的規則。)
We hope for future collaborations between computer scientists, linguists, and machine learning researchers.(我們希望未來可以在計算機科學家、語言學家、機器學習研究人員們之間有更多合作。)

OpenAI 的擔憂

我們看到了,模型確實可以根據任意給定的句子續寫生成近似人類水準的整篇文字,OpenAI 表示具有這樣能力的模型可以有寫作助手、對話智能體、無監督翻譯等多種用途,但他們同時也擔憂具有這樣能力的模型可能會遭到濫用,比如被用來惡意地創作傳播虛假信息的文章,就像之前曾經同樣受到熱烈討論的人臉替換模型 DeepFake,網友已經用它把明星臉替換到色情視頻里;也可以模仿他人寫作、大批量製作釣魚文章等等。
由於 GPT-2 這樣能力的模型可以用來生成欺騙性的、有偏見的以及暴力語言,而 OpenAI 非常看重研究內容的安全、合作、有益,他們更希望以合作的方式向其他研究人員共享他們的經驗,更好地幫助整個領域的進步,而不是直接面向公眾呈上所有成果,所以 OpenAI 並不打算一併發布完整的經過預訓練的模型,只發布一個小得多的模型便於研究人員們用於實驗。
論文地址 https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
介紹博客 https://blog.openai.com/better-language-models/
開源地址 https://github.com/openai/gpt-2
從技術角度來講 GPT-2 的突破並不大,它只是再一次證明了足夠大的網絡配合足夠多的數據訓練就可以有良好的記憶能力,而邏輯和推理能力仍然是無法從記憶能力中自然自然地出現的。另一方面,這也再一次說明了只要肯投入足夠多的計算力和數據,刷刷榜永遠都不難。攤手。

留言

這個網誌中的熱門文章

2017通訊大賽「聯發科技物聯網開發競賽」決賽團隊29強出爐!作品都在11月24日頒獎典禮進行展示

2017通訊大賽「聯發科技物聯網開發競賽」決賽團隊29強出爐!作品都在11月24日頒獎典禮進行展示 LIS   發表於 2017年11月16日 10:31   收藏此文 2017通訊大賽「聯發科技物聯網開發競賽」決賽於11月4日在台北文創大樓舉行,共有29個隊伍進入決賽,角逐最後的大獎,並於11月24日進行頒獎,現場會有全部進入決賽團隊的展示攤位,總計約為100個,各種創意作品琳琅滿目,非常值得一看,這次錯過就要等一年。 「聯發科技物聯網開發競賽」決賽持續一整天,每個團隊都有15分鐘面對評審團做簡報與展示,並接受評審們的詢問。在所有團隊完成簡報與展示後,主辦單位便統計所有評審的分數,並由評審們進行審慎的討論,決定冠亞季軍及其他各獎項得主,結果將於11月24日的「2017通訊大賽頒獎典禮暨成果展」現場公佈並頒獎。 在「2017通訊大賽頒獎典禮暨成果展」現場,所有入圍決賽的團隊會設置攤位,總計約為100個,展示他們辛苦研發並實作的作品,無論是想觀摩別人的成品、了解物聯網應用有那些新的創意、尋找投資標的、尋找人才、尋求合作機會或是單純有興趣,都很適合花點時間到現場看看。 頒獎典禮暨成果展資訊如下: 日期:2017年11月24日(星期五) 地點:中油大樓國光廳(台北市信義區松仁路3號) 我要報名參加「2017通訊大賽頒獎典禮暨成果展」>>> 在參加「2017通訊大賽頒獎典禮暨成果展」之前,可以先在本文觀看各團隊的作品介紹。 決賽29強團隊如下: 長者安全救星 可隨意描繪或書寫之電子筆記系統 微觀天下 體適能訓練管理裝置 肌少症之行走速率檢測系統 Sugar Robot 賽亞人的飛機維修輔助器 iTemp你的溫度個人化管家 語音行動冰箱 MR模擬飛行 智慧防盜自行車 跨平台X-Y視覺馬達控制 Ironmet 菸消雲散 無人小艇 (Mini-USV) 救OK-緊急救援小幫手 穿戴式長照輔助系統 應用於教育之模組機器人教具 這味兒很台味 Aquarium Hub 發展遲緩兒童之擴增實境學習系統 蚊房四寶 車輛相控陣列聲納環境偵測系統 戶外團隊運動管理裝置 懷舊治療數位桌曆 SeeM智能眼罩 觸...
opencv4nodejs Asynchronous OpenCV 3.x Binding for node.js   122     2715     414   0   0 Author Contributors Repository https://github.com/justadudewhohacks/opencv4nodejs Wiki Page https://github.com/justadudewhohacks/opencv4nodejs/wiki Last Commit Mar. 8, 2019 Created Aug. 20, 2017 opencv4nodejs           By its nature, JavaScript lacks the performance to implement Computer Vision tasks efficiently. Therefore this package brings the performance of the native OpenCV library to your Node.js application. This project targets OpenCV 3 and provides an asynchronous as well as an synchronous API. The ultimate goal of this project is to provide a comprehensive collection of Node.js bindings to the API of OpenCV and the OpenCV-contrib modules. An overview of available bindings can be found in the  API Documentation . Furthermore, contribution is highly appreciated....

完形心理學!?讓我們了解“介面設計師”為什麼這樣設計

完形心理學!?讓我們了解“介面設計師”為什麼這樣設計 — 說服客戶與老闆、跟工程師溝通、強化設計概念的有感心理學 — 情況 1 : 為何要留那麼多空白? 害我還要滾動滑鼠(掀桌) 情況 2 : 為什麼不能直接用一頁展現? 把客戶的需求塞滿不就完工啦! (無言) 情況 3: 這種設計好像不錯,但是為什麼要這樣做? (直覺大神告訴我這樣設計,但我說不出來為什麼..) 雖然世界上有許多 GUI 已經走得又長又遠又厲害,但別以為這種古代人對話不會出現,一直以來我們只是習慣這些 GUI 被如此呈現,但為何要這樣設計我們卻不一定知道。 由於 完形心理學 歸納出人類大腦認知之普遍性的規則,因此無論是不是 UI/UX 設計師都很適合閱讀本篇文章。但還是想特別強調,若任職於傳統科技公司,需要對上說服老闆,需要平行說服(資深)工程師,那請把它收進最愛;而習慣套用設計好的 UI 套件,但不知道為何這樣設計的 IT 工程師,也可以透過本文來強化自己的產品說服力。 那就開始吧~(擊掌) 完形心理學,又稱作格式塔(Gestalt)心理學,於二十世紀初由德國心理學家提出 — 用以說明人類大腦如何解釋肉眼所觀察到的事物,並轉化為我們所認知的物件。它可說是現代認知心理學的基礎,其貫徹的概念就是「整體大於個體的總合 “The whole is other than the sum of the parts.” —  Kurt Koffka」。 若深究完整的理論將會使本文變得非常的艱澀,因此筆者直接抽取個人認為與 UI 設計較為相關的 7 個原則(如下),並搭配實際案例做說明。有興趣了解全部理論的話可以另外 Google。 1. 相似性 (Similarity)  — 我們的大腦會把相似的事物看成一體 如果數個元素具有類似的尺寸、體積、顏色,使用者會自動為它們建立起關聯。這是因為我們的眼睛和大腦較容易將相似的事物組織在一起。如下圖所示,當一連串方塊和一連串的圓形並排時,我們會看成(a)一列方塊和兩列圓形(b)一排圓形和兩排三角形。 對應用到介面設計上,FB 每則文章下方的按鈕圖標(按讚 Like / 留言Comment / 分享 Share)雖然功能各不相同,但由於它們在視覺上顏色、大小、排列上的相似性,用戶會將它們視認為...