語(yǔ)言模型又迭代了史上最大AI語(yǔ)言模型—GPT-3

2020-06-02 10:07:52 來(lái)源：量子位

那個(gè)語(yǔ)言模型又迭代了，現(xiàn)在有1750億個(gè)參數(shù)。這個(gè)讓英偉達(dá)狂喜，讓調(diào)參師流淚的數(shù)字來(lái)自O(shè)penAI，史上最大AI語(yǔ)言模型——GPT-3。單單論文就有72

那個(gè)語(yǔ)言模型又迭代了，現(xiàn)在有1750億個(gè)參數(shù)。

這個(gè)讓英偉達(dá)狂喜，讓調(diào)參師流淚的數(shù)字來(lái)自O(shè)penAI，史上最大AI語(yǔ)言模型——

GPT-3。

單單論文就有72頁(yè)。

OpenAI表示，通過(guò)GPT-3，他們證明了無(wú)需梯度更新，無(wú)需微調(diào)，規(guī)模更大的語(yǔ)言模型就可以大大改善無(wú)關(guān)任務(wù)和小樣本(few-shot)學(xué)習(xí)的性能，達(dá)到最先進(jìn)微調(diào)方法的水準(zhǔn)。

在部分任務(wù)中，甚至超越了最先進(jìn)微調(diào)方法。

不僅如此，這個(gè)語(yǔ)言模型，還能做加減法。

GPT-3是什么

不妨先來(lái)看看GPT-3的實(shí)際表現(xiàn)。

比如，先告訴GPT-3這樣一個(gè)示例：

“whatpu”是坦桑尼亞的一種小型、毛茸茸的動(dòng)物。一個(gè)使用whatpu造句的例子是：我們?cè)诜侵蘼眯袝r(shí)，看到了非常可愛(ài)的whatpu。

此后不再給GPT-3任何特定任務(wù)提示，就向它拋出問(wèn)題：

“Burringo”是指加速度非?？斓钠?chē)。一個(gè)使用Burringo造句的例子是：

GPT-3造出的句子是這樣的：

在我們的車(chē)庫(kù)里有一輛Burringo，我爸天天開(kāi)著它上下班。

至于編故事的能力，在500個(gè)詞的情況下，人類(lèi)判斷出其為AI生成的概率僅為52%。在最佳案例中，判斷準(zhǔn)確率甚至降到了12%。

能自己編故事、糾正英語(yǔ)語(yǔ)法，甚至，GPT-3還學(xué)會(huì)了3位數(shù)基本運(yùn)算。

表中，D{+,-}表示2、3、4、5位數(shù)加法或減法，2Dx代表2位數(shù)乘法，1DC代表1位數(shù)復(fù)合運(yùn)算。

無(wú)需微調(diào)

前文也說(shuō)到了，達(dá)到這樣的效果，不需要梯度更新，不需要微調(diào)。只需要指定任務(wù)、展示少量演示，來(lái)與模型文本交互，就能使其完成任務(wù)。

這樣一來(lái)，一方面，對(duì)于新任務(wù)，就不需要重新收集大量帶標(biāo)簽的數(shù)據(jù)。

另一方面，可以避免微調(diào)階段出現(xiàn)過(guò)擬合，導(dǎo)致模型泛化能力下降的問(wèn)題。

而實(shí)現(xiàn)的關(guān)鍵，總結(jié)起來(lái)就是：大力出奇跡。

不僅模型尺寸增大到了1750億，數(shù)據(jù)量也達(dá)到了45TB。V100嘛，是“微軟提供的高帶寬群集中的V100 GPU”。

研究人員將預(yù)訓(xùn)練模型在三種不同的設(shè)置下進(jìn)行了探索。

本文的重點(diǎn)放在零樣本、單樣本和小樣本學(xué)習(xí)上。研究人員沒(méi)有對(duì)GPT-3進(jìn)行微調(diào)，不過(guò)，論文談到，原則上是可以微調(diào)GPT-3的。

模型與架構(gòu)

具體到模型與架構(gòu)，研究人員采用了與GPT-2相同的模型和架構(gòu)，不過(guò)，在tranformer各層中使用了交替稠密(alternating dense)和局部帶狀稀疏注意力(locally banded sparse attention)模式，類(lèi)似于Spare Transformer。

GPT-3的影響

知乎問(wèn)題「如何評(píng)價(jià)1700億參數(shù)的GPT-3」的標(biāo)簽，已經(jīng)透露出玄機(jī)。

知乎用戶CloudySky就說(shuō)，看了GPT-3，再看看自己 i9+2080ti+2TB 硬盤(pán)的臺(tái)式，想想有空還是打開(kāi)steam，趁打折多買(mǎi)幾個(gè)3A大作比較合適。

他還發(fā)出了靈魂一問(wèn)：

有見(jiàn)過(guò)人用竄天猴去調(diào)試火箭發(fā)射井嘛?

復(fù)旦邱錫鵬教授則認(rèn)為，Pretrain+finetune仍然會(huì)是未來(lái)幾年的主流。

雖然如此恐怖的計(jì)算成本讓人有些望而卻步，但EECVC聯(lián)合創(chuàng)始人Dmytro Mishkin認(rèn)為：

按10年前的標(biāo)準(zhǔn)，ResNet50的計(jì)算代價(jià)也是令人望而卻步的，但事實(shí)證明它們的存在是必要的。

也有網(wǎng)友表示：

GPT-3可能還是無(wú)法幫助OpenAI盈利，也無(wú)法直接上線顯著造福網(wǎng)民，但是從中積累的大模型訓(xùn)練經(jīng)驗(yàn)是OpenAI及其背后的微軟Azure一筆巨大的財(cái)富。這就像，人類(lèi)登上火星/月球可能并不能帶來(lái)直接的資源收益，但是從中積累的科學(xué)技術(shù)卻可以推動(dòng)人類(lèi)社會(huì)的發(fā)展。

做NLP，雖然有了資源不一定行，但是沒(méi)有資源現(xiàn)在肯定是不行了。

不管怎么說(shuō)，看到這GPU熊熊燃燒的場(chǎng)面，想必老黃已經(jīng)樂(lè)開(kāi)了花。

目前，GPT-3尚未開(kāi)源，可以期待一下，OpenAI這回會(huì)擠多久牙膏了。