国产麻豆精品福利在线观看,亚洲人亚洲精品成人网站,亚洲熟妇无码AV另类VR影视,欧美A级毛欧美1级A大片免费播放

您的位置:首頁 > 行業(yè) >

Facebook通過半監(jiān)督和自監(jiān)督學習技術(shù) 利用未標記的數(shù)據(jù)提高監(jiān)督系統(tǒng)性能

2019-09-18 09:56:15 來源: 雷鋒網(wǎng)

自然語言理解(NLU)和語言翻譯是一系列重要應用的關(guān)鍵,包括大規(guī)模識別和刪除有害內(nèi)容,以及連接世界各地不同語言的人們。盡管近年來基于深

自然語言理解(NLU)和語言翻譯是一系列重要應用的關(guān)鍵,包括大規(guī)模識別和刪除有害內(nèi)容,以及連接世界各地不同語言的人們。盡管近年來基于深度學習的方法加速了語言處理的進展,但在處理大量標記訓練數(shù)據(jù)不易獲得的任務時,現(xiàn)有系統(tǒng)的處理水平仍然是有限的。

因此,F(xiàn)acebook聯(lián)合 Deepmind Technologies、紐約大學(NYU)及華盛頓大學(UW)合作構(gòu)建新基準 SuperGLUE,并發(fā)布了相關(guān)內(nèi)容介紹該高難度測試基準,雷鋒網(wǎng) AI 開發(fā)者將其整理及編譯如下。

SuperGLUE 推出背景

最近,F(xiàn)acebook 人工智能在 NLP 方面取得了重大突破。Facebook 通過使用半監(jiān)督和自監(jiān)督學習技術(shù),利用未標記的數(shù)據(jù)來提高純監(jiān)督系統(tǒng)的性能。

在第四屆機器翻譯大會(WMT19)比賽中,F(xiàn)acebook 采用了一種新型的半監(jiān)督訓練方法,并在多種語言翻譯任務中獲得了第一名。Facebook 還引入了一種新的自我監(jiān)督的預訓練方法——RoBERTa。它在一些語言理解任務上超過了所有現(xiàn)有的 NLU 系統(tǒng)。在某些情況下,這些系統(tǒng)甚至優(yōu)于人類基線,包括英德翻譯和五個 NLU 基準。

在整個自然語言處理領(lǐng)域,NLU 系統(tǒng)的發(fā)展速度如此之快,以至于它在許多現(xiàn)有的基準上已經(jīng)達到了一個極限。為了繼續(xù)提高技術(shù)水平,F(xiàn)acebook 與 Deepmind Technologies、紐約大學及華盛頓大學合作開發(fā)了一套全新的基準、排行榜和 PyTorch 工具包(https://jiant.info/),F(xiàn)acebook 希望這些成果將進一步推動自然語言處理領(lǐng)域的研究進展。

簡而言之,這些新工具將幫助人類創(chuàng)建更強大的內(nèi)容理解系統(tǒng),而且能夠翻譯數(shù)百種語言,理解諸如含糊不清、共同引用和常識性推理等復雜的問題,從而減少現(xiàn)有的這些系統(tǒng)對大量標記訓練數(shù)據(jù)的依賴性。

翻譯準確性的突破

對于神經(jīng)機器翻譯(NMT)模型,有監(jiān)督式訓練通常需要大量附有參考翻譯的句子。然而,大量高質(zhì)量的雙語數(shù)據(jù)并不是普遍可用的,這就要求研究人員使用沒有參考翻譯的單語數(shù)據(jù)。反向翻譯(Back translation,一種半監(jiān)督學習技術(shù))允許 Facebook 在一定程度上克服這個問題。

Facebook 最近提交給 WMT 的報告是基于 Facebook 之前在大規(guī)模反向翻譯方面的工作,這也幫助 Facebook 在去年的同一比賽中贏得了第一名。

而今年,F(xiàn)acebook 引入了一種新的方法,通過生成多個候選譯文,并選擇最能平衡正向、反向、流暢性三種不同模型分數(shù)的譯文,來進一步改進 Facebook 的反向翻譯系統(tǒng)。

正向模型的分數(shù)主要由候選翻譯在多大程度上捕捉了原句的意思來衡量;相反,反向模型的分數(shù)是通過查看模型能從候選譯文中重建出的句子準確性來評判;流暢性模型的分數(shù)根據(jù)候選翻譯流暢性來衡量,最后系統(tǒng)通過觀察大量的單語數(shù)據(jù)以自我監(jiān)督的方式進行訓練;經(jīng)過對這三個分數(shù)的平衡,系統(tǒng)就能夠產(chǎn)生顯著優(yōu)化后的翻譯結(jié)果。

經(jīng)過幾年的努力,F(xiàn)acebook 將英-德語翻譯任務的性能提高了 4.5 BLEU(衡量生成的翻譯和專業(yè)參考之間重疊程度的指標),這是一個很大的改進。根據(jù)人工評估,F(xiàn)acebook 的模型在英-德、德-英、英-俄,和俄-英四個翻譯任務中排名第一。根據(jù) WMT 賽制的評判,F(xiàn)acebook 的英-德語翻譯甚至比人工翻譯更佳。

圖 1 Facebook 引入的一種新方法

上面的圖片展示了這種技術(shù)是如何工作的:首先,一個正向模型將一個句子翻譯成英語,例如從德語翻譯成英語,就會生成一組英語翻譯或假設(shè)。然后,一個反向模型將這些英語假設(shè)翻譯回德語,使系統(tǒng)能夠評估每個英語翻譯與原始德語句子的匹配程度。最后,一個語言模型來判斷英語翻譯的流暢程度。

Facebook 還將訓練擴展到了更大的數(shù)據(jù)集,包括大約 100 億個單詞用于英語到德語翻譯的詞匯。與去年相比,F(xiàn)acebook 使用了兩倍多的單語數(shù)據(jù)進行半監(jiān)督訓練,進一步提高了翻譯的準確性。更多詳情,可以參考 Facebook 人工智能在 2019 年 WMT 國際機器翻譯大賽中的表現(xiàn)(https://ai.facebook.com/blog/facebook-leads-wmt-translation-competition/)。

自監(jiān)督預訓練方法的改進

Facebook 最近對自然語言處理(NLP)的最大突破——BERT, 也進行了優(yōu)化和改進。Google 在 2018 年發(fā)布了 BERT。它是革命性的,因為它展示了自監(jiān)督訓練技術(shù)的潛力,它具有與傳統(tǒng)的標簽密集型監(jiān)督方法的性能相媲美甚至超越它的能力。例如,F(xiàn)acebook 利用 BERT 和相關(guān)方法推動對話型人工智能領(lǐng)域的前沿研究,改進內(nèi)容理解系統(tǒng),提高低資源和無監(jiān)督的翻譯質(zhì)量。

因為 Google 開源了 BERT,F(xiàn)acebook 才能夠進行一項復制研究,并確定進一步提高其有效性的設(shè)計變更。Facebook 引入了穩(wěn)健優(yōu)化的 BERT 預訓練方法,即 RoBERTa,并取得了新的最先進進展。

RoBERTa 修改了 BERT 中的關(guān)鍵超參數(shù),包括刪除 BERT 的下一個句子的預訓練目標,并使用更大的批量和學習率進行訓練。與 BERT 相比,RoBERTa 的數(shù)據(jù)總量要多 10 倍以上,因此訓練時間也要長得多。這種方法在廣泛使用的 NLP 基準測試、通用語言理解評估(GLUE)和閱讀理解考試(RACE)上產(chǎn)生了最先進的結(jié)果。

圖 2 圖表展示了 RoBERTa 在不同任務中的結(jié)果

憑借平均得分 88.5 分,RoBERTa 贏得了 GLUE 排行榜的榜首位置,與之前第一名——平均得分為 88.4 分的 XLNet-Large 表現(xiàn)不相上下。RoBERTa 還在一些語言理解基準測試水平上實現(xiàn)了提高,包括 MNLI、QNLI、RTE、STS-B 和 RACE 任務。

這一部分就是 Facebook 不斷致力于提高不太依賴于數(shù)據(jù)標記的自監(jiān)督系統(tǒng)的性能和潛力的內(nèi)容。有關(guān) RoBERTa 的更多詳細信息,請參考‘RoBERTa:預訓練自監(jiān)督 NLP 系統(tǒng)的優(yōu)化方法(https://ai.facebook.com/blog/roberta-an-optimized-method-for-pretraining-self-supervised-nlp-systems/)’。

NLP 研究的下一個前沿

作為衡量研究進展的行業(yè)標準,GLUE 旨在覆蓋大量的 NLP 任務,因此只有構(gòu)建足夠通用的工具來幫助解決大多數(shù)新的語言理解問題,才能得到良好的表現(xiàn)。

在發(fā)布后的一年內(nèi),幾個 NLP 模型(包括 RoBERTa)已經(jīng)在 GLUE 基準測試中超過了人類。目前的模型已經(jīng)提出了一個令人驚訝的有效方法,它將大型文本數(shù)據(jù)集上的語言模型預訓練與簡單的多任務和轉(zhuǎn)移學習技術(shù)進行了結(jié)合。

這種快速的進步是大型人工智能社區(qū)內(nèi)協(xié)作的一個功能。上面描述的 NLP 競賽、基準測試和代碼發(fā)布使模型復制,改進和最先進結(jié)果的更快進步成為可能。隨著 GPT 和 BERT 的引入,GLUE 的模型性能急劇提升,現(xiàn)在最先進的模型已經(jīng)超越了人類的能力,如圖 3 所示:

圖 3 最先進的自然語言處理模型能力已經(jīng)超越人類

盡管目前的模型可以在特定的 GLUE 任務上超越人類水平的性能,但它們還不能完美地解決人類解決的一些任務。為了給 NLP 研究設(shè)定一個新的更高的標準,facebook 人工智能團隊與紐約大學、deepmind 以及華盛頓大學合作構(gòu)建了 SuperGLUE,這是一個具有全面人類基線的更高難度基準。Facebook 正在推出 SuperGlue,讓自然語言理解領(lǐng)域的研究人員能夠繼續(xù)推進最先進的技術(shù)。

SuperGLUE 基準測試

最初的基準和新的基準都是由紐約大學發(fā)起,與相同的合作伙伴合作創(chuàng)建。SuperGLUE 緊跟 GLUE 的腳步,GLUE 提供了單一的數(shù)字度量,用于總結(jié)不同 NLP 任務集的進度。除了新的基準之外,F(xiàn)acebook 還發(fā)布了一個用于引導研究的排行榜和 pytorch 工具包。

SuperGlue 包含了新的方法來測試一系列困難的 NLP 任務的創(chuàng)造性方法,這些任務主要關(guān)注機器學習一些核心領(lǐng)域的創(chuàng)新,包括樣本有效性、轉(zhuǎn)移、多任務和自監(jiān)督學習。為了向研究人員提出挑戰(zhàn),F(xiàn)acebook 選擇了格式多樣、問題更為微妙、尚未用最先進方法解決但容易被人們解決的任務。為了檢查這些任務,F(xiàn)acebook 為許多候選任務運行基于 BERT 的基線,并為人工基線收集數(shù)據(jù)。

新的基準測試包括八個不同且具有挑戰(zhàn)性的任務,其中包括選擇合理的替代方案(COPA),一個因果推理任務。在這個任務中,系統(tǒng)被賦予一個前提語句,并且必須從兩個可能的選擇中確定這個前提語句的因果。值得注意的是,人類在 COPA 上獲得了 100% 的準確率,而 BERT 只獲得了 74%,這表明 BERT 還有很大的進步空間。

其他獨特的前沿組件還包括用于測量這些模型中偏差的診斷工具。例如:winogender,它是為了測試在自動指代消解系統(tǒng)(automated co-reference resolution systems)中是否存在性別偏見而設(shè)計的。SuperGlue 還包括一個名為‘BoolQ’的問答(QA)任務,其中每個示例都由一個段落和一個關(guān)于該段落的是’或‘否’問題組成;它是自然問題基準測試中的一個很好的工具。

圖 4 該示例表示 SuperGlue 中八個任務中的 1 個。粗體文本表示每個任務示例格式的一部分;斜體文本是模型輸入的一部分;帶下劃線的文本在輸入中特別標記;等寬字體中的文本表示預期的模型輸出(更多示例請閱讀原文)

與 GLUE 類似,新的基準測試還包括一個圍繞自然語言理解任務構(gòu)建的公共排行榜,它利用現(xiàn)有數(shù)據(jù),并附帶一個單數(shù)字性能指標和一個分析工具包。

Facebook 最近針對新的基準測試了 RoBERTa,RoBERTa 在多語言閱讀理解(Multientence Reading Comprehension,MultiRC)任務中的表現(xiàn)超過了所有現(xiàn)有的 NLU 系統(tǒng),甚至超過了人類在該任務上的基線。盡管如此,在許多 SuperGLUE 任務中,RoBERTa 與人類基線之間仍然存在很大差距,這說明了當今最先進的 NLU 系統(tǒng)的一些局限性。

圖 5 RoBERTa 在多語言閱讀理解任務中表現(xiàn)與其它方法的對比

下一步計劃

為了進一步挑戰(zhàn)人工智能系統(tǒng)能為人類提供的幫助,F(xiàn)acebook 還引入了第一個長格式的問答數(shù)據(jù)集和基準測試,它要求機器提供長而復雜的答案——這是現(xiàn)有算法以前從未遇到過的挑戰(zhàn)。

目前的問答系統(tǒng)主要集中在一些瑣碎的問題上,比如水母是否有大腦。這項新的挑戰(zhàn)更進一步,要求機器對開放性問題進行深入的解答,例如‘沒有大腦,水母如何工作?’現(xiàn)有的算法與人類的表現(xiàn)相去甚遠,這一新的挑戰(zhàn)將促使人工智能合成來自不同來源的信息,為開放式問題提供復雜的答案。

近期,F(xiàn)acebook 還公布了來自 35 個國家的 115 份獲獎提案中的 11 份,并宣布成立人工智能語言研究聯(lián)盟 (AI Language Research Consortium),這是一個由合作伙伴組成的社區(qū),F(xiàn)acebook 表示將‘共同努力,推進 NLP’。

除了與 Facebook 的研究人員就多年項目和出版物進行合作外,人工智能語言研究聯(lián)盟的成員還有機會獲得研究經(jīng)費,參加年度研究講習班,參加重要的 NLP 會議。Facebook 表示:‘這些 NLP 和機器翻譯的研究獎項是我們長期目標的延續(xù),我們希望這個聯(lián)盟,以及這些 NLP 和機器翻譯的研究獎項,會有助于加速 NLP 社區(qū)的研究。(作者:楊鯉萍)

關(guān)鍵詞: Facebook 半監(jiān)督 監(jiān)督系統(tǒng)

精選 導讀

募資55億港元萬物云啟動招股 預計9月29日登陸港交所主板

萬科9月19日早間公告,萬物云當日啟動招股,預計發(fā)行價介乎每股47 1港元至52 7港元,預計9月29日登陸港交所主板。按發(fā)行1 167億股計算,萬

發(fā)布時間: 2022-09-20 10:39
管理   2022-09-20

公募基金二季度持股情況曝光 隱形重倉股多為高端制造業(yè)

隨著半年報披露收官,公募基金二季度持股情況曝光。截至今年二季度末,公募基金全市場基金總數(shù)為9794只,資產(chǎn)凈值為269454 75億元,同比上

發(fā)布時間: 2022-09-02 10:45
資訊   2022-09-02

又有上市公司宣布變賣房產(chǎn) 上市公司粉飾財報動作不斷

再有上市公司宣布變賣房產(chǎn)。四川長虹25日稱,擬以1 66億元的轉(zhuǎn)讓底價掛牌出售31套房產(chǎn)。今年以來,A股公司出售房產(chǎn)不斷。根據(jù)記者不完全統(tǒng)

發(fā)布時間: 2022-08-26 09:44
資訊   2022-08-26

16天12連板大港股份回復深交所關(guān)注函 股份繼續(xù)沖高

回復交易所關(guān)注函后,大港股份繼續(xù)沖高。8月11日大港股份高開,隨后震蕩走高,接近收盤時觸及漲停,報20 2元 股。值得一提的是,在7月21日

發(fā)布時間: 2022-08-12 09:56
資訊   2022-08-12

萬家基金再添第二大股東 中泰證券擬受讓11%基金股權(quán)

7月13日,中泰證券發(fā)布公告,擬受讓齊河眾鑫投資有限公司(以下簡稱齊河眾鑫)所持有的萬家基金11%的股權(quán),交易雙方共同確定本次交易的標的資

發(fā)布時間: 2022-07-14 09:39
管理   2022-07-14

央行連續(xù)7日每天30億元逆回購 對債市影響如何?

央行12日再次開展了30億元逆回購操作,中標利率2 10%。這已是央行連續(xù)7日每天僅進行30億元的逆回購縮量投放,創(chuàng)下去年1月以來的最低操作規(guī)

發(fā)布時間: 2022-07-13 09:38
資訊   2022-07-13

美元指數(shù)創(chuàng)近20年新高 黃金期貨創(chuàng)出逾9個月新低

由于對美聯(lián)儲激進加息的擔憂,美元指數(shù)11日大漲近1%創(chuàng)出近20年新高。受此影響,歐美股市、大宗商品均走弱,而黃金期貨創(chuàng)出逾9個月新低。美

發(fā)布時間: 2022-07-13 09:36
資訊   2022-07-13

美股三大股指全線下跌 納斯達克跌幅創(chuàng)下記錄以來最大跌幅

今年上半年,美股持續(xù)回落。數(shù)據(jù)顯示,道瓊斯指數(shù)上半年下跌15 3%,納斯達克綜合指數(shù)下跌29 5%,標普500指數(shù)下跌20 6%。其中,納斯達克連續(xù)

發(fā)布時間: 2022-07-04 09:51
推薦   2022-07-04

融資客熱情回升 兩市融資余額月內(nèi)增加超344億元

近期A股走強,滬指6月以來上漲4%,融資客熱情明顯回升。數(shù)據(jù)顯示,截至6月16日,兩市融資余額1 479萬億元,月內(nèi)增加344 67億元,最近一個半

發(fā)布時間: 2022-06-20 09:41
資訊   2022-06-20

4個交易日凈買入超百億元 北向資金持續(xù)流入A股市場

北向資金凈流入態(tài)勢延續(xù)。繼6月15日凈買入133 59億元后,北向資金6月16日凈買入44 52億元。自5月27日至今,除6月13日以外,北向資金累計凈

發(fā)布時間: 2022-06-17 09:37
推薦   2022-06-17